@AllAbove Statistisch onderzoek wordt niet per definitie representatief door een grote steekproef te nemen en ook niet zomaar niet-representatief bij een kleine steekproef. Al een tijd ben ik bezig met dit soort onderzoek (ander onderwerp, maar dat maakt niet uit) en laat me het in een nutshell proberen uit te leggen.
Doel (Statistisch Onderzoek)
Je gaat proberen een uitspraak te doen over een bepaalde doelgroep (
de populatie), bijvoorbeeld 'Nederlanders die tv kijken' of 'mensen die een smartphone kopen' door middel van een onderzoek onder bepaalde mensen (
de steekproef).
De Populatie
De populatie is waar je een uitspraak over wilt doen. Dit is bijna nooit de 'hele wereld' of 'heel Nederland'. Dit komt omdat je iets bijzonders onderzoekt. Bijvoorbeeld smartphone verkoop, hiervoor is je doelgroep
'de mensen die een smartphone kopen' en
niet 'alle mensen in de VS' of 'alle mensen met een mobiele telefoon'.
Een populatie moet
goed gedefinieerd worden, want anders is je onderzoek per definitie onjuist!
De Steekproef
Je kan (bijna) nooit
alle mensen ondervragen of volgen, omdat de populatie waarschijnlijk te groot is. Het is onmogelijk om 12 miljoen Nederlanders te volgen tijdens het tv kijken en
daarom kiezen ze voor een hapbaar gedeelte daarvan (bijvoorbeeld de
2800),
De steekproef
moet aan een aantal eisen voldoen, deze moet namelijk aan de volgende eisen voldoen:
- Aselect zijn
- Binnen de populatie vallen
- Willekeurig zijn
Binnen de populatie is belangrijk, maar ook crusiaal bij wat een aantal mensen hierboven verkeerd doen. Gallant zegt dat misschien maar 5% net een nieuwe smartphone heeft en dat is onjuist, want dat zou betekenen dat 95% van de steekproef
niet binnen de populatie valt. De eerste vraag die de interviewer dus stelde was waarschijnlijk 'Have you recently bought a smartphone?' of '... a phone?'. Alle mensen die
nee antwoorde op die vraag worden uitgesloten van deelname. Met andere woorden we hebben 150.000 smartphone kopers aan de lijn.
Aselect betekent dat alle gevallen van een steekproef met gelijke kans moeten optreden. Met andere woorden als jij iets wilt weten over smartphone verkopen en je gaat dingen vragen op de AutoRai, dan heb je waarschijklijk een grotere kans op mannelijke ondervraagden dan vrouwelijk ondervraagden. Met andere woorden je moet een plek / meerdere plekken zoeken zodat je percentage / kans op mannen en vrouwen gelijk is (en natuurlijk andere variabele zoals hier bijv. leeftijd).
Willekeurig hier betekent dat je niet alleen mensen vraagt die je er 'aardig' uit vind zien, of blauwe ogen hebben. Ten dele komt dit neer op aselect, maar het gaat wat verder dan dat (niet belangrijk nu).
De Uitspraak
Uiteindelijk kan je zeer precies een uitspraak doen over je
steekproef je weet namelijk
exact hoeveel iPhone's of Blackberry's er zijn verkocht! Echter weet je
nooit exact iets over je populatie, dat bereken je! Dit doe je door middel van statistische formules (normale verdeling, t-verdeling, exponentiele verdeling) welke allemaal een andere toepassing hebben.
Doordat je gaat berekenen aan de hand deze formules treed er onzekerheid op en daarvoor ga je compenseren met een '
significantie correctie'. Deze correctie stelt eigenlijk een bovengrens en een ondergrens op waardoor je zegt 'er worden per maand tussen de x en de y iPhones verkocht'. Tussen x en y ligt dan je gekozen percentage zekerheid (95%, 99% of als je heel onnauwkeurig werkt 50%).
Hier komt vandaan de 5% foutmarge vandaan en
niet door een gekozen steekproef! Met andere woorden de foutmarge is
gekozen!
Nadat je de verkopen berekent hebt dan ga je nogmaals wat berekenen, namelijk de kans dat de verkopen van de Curve
altijd hoger zijn dan de iPhone. Hierbij gebruik je de berekende data van de steekproef en de populatie en pas
dan concludeer je iets over de verkopen.
Kortweg: We hebben hier te weinig informatie om te concluderen of het significant en representatief is. Echter heeft de NPD zeer competente mensen in dienst, dus is de kans heel groot dat ze wisten wat ze deden en hebben ze de juiste vragen gesteld. Hierdoor is de 150.000 man/vrouw die ze hebben ondervraagt hoogstwaarschijnlijk genoeg.