Datacleaning: hoe doe je dat?

Home › Datacleaning: hoe doe je dat?

28 september 2021

In deze blog richten we ons op kwantitatieve data, data bijvoorbeeld verkregen uit vragenlijsten (meer weten over vragenlijsten? Lees deze blog). Deze data ga je analyseren, maar voordat je daaraan begint is het goed om de kwaliteit van je data te optimaliseren. Dit doe je door de data te cleanen om vervolgens met goede data aan de analyse en rapportage te beginnen. Een rapport op basis van vervuilde en/of incomplete data kan nooit van goede kwaliteit zijn en kan ook niet tot de juiste conclusies/aanbevelingen leiden. Dus CLEANING.

Veel gebruikte software voor cleaning zijn Excel, SPSS, SAS, R en Python. Het is verstandig om voordat je hieraan gaat beginnen een kopie van je data te maken, zodat je altijd nog kunt teruggrijpen naar je originele data. In hoofdlijnen zijn er 3 methoden om je data te cleanen:

Het verwijderen van een respondent
Het verwijderen van een antwoord van een respondent
Het vervangen van een antwoord door een andere waarde

Deze methoden worden in het kort hieronder toegelicht.

Het verwijderen van een respondent

Tegenwoordig is het lastig om voldoende respons te krijgen, dus elke respondent is meegenomen. Toch is het soms verstandig om een respons te verwijderen, maar waarom zou je dit doen?

Een respondent heeft maar een klein deel van de vragenlijst ingevuld
Een respondent heeft steeds het bovenste antwoord gekozen en open vragen overgeslagen
Een respondent heeft de vragenlijst veel sneller ingevuld dan een gemiddelde respondent

Een respondent behoort niet tot de doelgroep (bijvoorbeeld een beoordeling van een voorstelling, van iemand die wel een kaartje heeft gekocht, maar toch niet het concert heeft bezocht)

Het verwijderen van een antwoord van een respondent

Hierbij kan het gaan over een waarde die logischerwijs niet voor kan komen. Bij een online vragenlijst wordt hier vaak al op gecontroleerd, maar niet altijd en bij papieren vragenlijsten gebeurt dit sowieso niet. Bijvoorbeeld een hele hoge of juist heel lage leeftijd. Het detecteren van dit soort ‘outliers’ kan simpelweg door een frequency uit te draaien.

Veel vaker gaat het hierbij om combinaties van antwoorden. Ook hiervoor kan bij een online vragenlijst een controle worden ingebouwd, maar gebeurt lang niet altijd. Denk bijvoorbeeld aan iemand van 30 jaar met 25 jaar werkervaring. Het oplossen hiervan is niet altijd makkelijk. Welk antwoord is in dit voorbeeld fout? Beste is om beide antwoorden te verwijderen. Het detecteren van dit soort ‘fouten’ kan door kruistabellen te draaien of door respondenten alleen mee te nemen wanneer aan een voorwaarde wordt voldaan, bijvoorbeeld dat de leeftijd minimaal 15 jaar hoger moet zijn dan het aantal dienstjaren.

Het vervangen van een antwoord door een andere waarde

Stel: je wilt weten hoe vaak een wijkbewoner de lokale supermarkt heeft bezocht het afgelopen half jaar. In de vragenlijst worden hier 2 vragen over gesteld.

Heeft u de supermarkt het afgelopen jaar bezocht (ja/nee)

Zo ja (doorverwijzing) Hoe vaak heeft u de supermarkt het afgelopen jaar bezocht?

Wanneer je nu het gemiddelde aantal bezoeken wilt weten en je draait een gemiddelde van vraag 2, dan kom je te hoog uit, aangezien bij diegenen die de supermarkt niet hebben bezocht deze vraag leeg is. Een oplossing is om bij diegenen die op vraag 1 ‘nee’ hebben beantwoord, vraag 2 op nul te zetten. En dan een gemiddelde berekenen.

Wil je meer weten over wat datacleaning inhoudt? Lees het hier.

Eerste hulp bij projecten

In mijn e-book Eerste Hulp Bij Projecten help ik je met handige tips & tricks om een succesvol projectplan te ontwikkelen en uit te voeren.

Vraag het e-book aan

Gerelateerde blogs

22 november 2024

Bezoekersonderzoek: Hoe pak je dat aan?

Wendy Risseeuw-Sibtsen

In deze blog gaan we het hebben over hoe je een bezoekersonderzoek kunt opzetten en uitvoeren. Zo'n onderzoek kan handig […]

Lees meer

10 oktober 2023

De cultuurcoach: wat doet die eigenlijk?

Wendy Risseeuw-Sibtsen

In steeds meer gemeentes werkt tegenwoordig een cultuurcoach of combinatiefunctionaris. Er wordt hiervoor gekozen omdat een schakel nodig is culturele […]

Lees meer

11 september 2023

Items samenvoegen tot een schaal

Claudia de Graauw

Om diverse redenen kan het in een onderzoek voorkomen dat je meer vragen stelt over hetzelfde begrip. De analyse van […]

Lees meer

15 augustus 2023

Je hebt een bezoekersonderzoek gedaan en dan?

Claudia de Graauw

Je hebt een bezoekersonderzoek gedaan en dan? Je hebt een bezoekersonderzoek uitgezet, je hebt voldoende respons en de resultaten van […]

Lees meer

Ericssonstraat 2
5121 ML Rijen
Nederland

+31 (0) 6 4288 7729

info@claudiadegraauw.nl

Onderzoek

Academie voor onderzoek

Blogs

Over ons

Contact

Overzicht in je onderzoek

Stappenplan voor je scriptie

Eerste hulp bij projecten

Claudia’s hart ligt bij onderzoek. Haar werkwijze is heel persoonlijk; ieder onderzoek vraagt tenslotte om maatwerk. Samen met de klant formuleert ze doelen, die ze vervolgens ook realiseert. Daarbij is ze volkomen transparant en deelt ze graag haar kennis en ervaring.

Privacy statement

Datacleaning: hoe doe je dat?

Het verwijderen van een respondent

Het verwijderen van een antwoord van een respondent

Het vervangen van een antwoord door een andere waarde

Eerste hulp bij projecten

Categorieën

Gerelateerde blogs

contactgegevens

Nieuwsbrief

Meer informatie

Gratis Producten

over Claudia de Graauw