Allereerst is kritiek op de gang van zaken natuurlijk volkomen terecht, daarin zijn we het eens. Toch is de oplossing van het probleem iets complexer.
Als je eigenschappen, vaardigheden of gedrag van personen gaat meten is datgene wat je gaat meten meestal
normaal verdeeld (bell-curve). Dat wil zeggen dat verreweg het grootste deel van de populatie die je gaat onderzoeken binnen een bepaald score-bereik zit, maar je ook een cutoff-point moet kiezen tussen wat acceptabele waarden zijn en wat waarden zijn waar je je zorgen over moet maken. Om te bepalen voor welke scores geldt dat nader onderzoek nodig is voer je over het algemeen dan een steekproef uit die een goede weergave van de populatie is. Als je dan bijvoorbeeld op basis van klinische ervaringen uit het verleden weet dat ongeveer 2-3% van de populatie dusdanig minder hoort dat dit het functioneren beïnvloed, dan kun je scores kiezen die daar bij horen (in het geval van 2% ongeveer twee
standaarddeviaties). Als je dan bij een individueel kind zo'n test afneemt en de score zit onder die twee standaarddeviaties, dan stuur je zo'n kind door voor verder onderzoek. Specifiek voor een gehoortest verwacht ik overigens een
scheve verdeling, maar dat doet eigenlijk niets af aan mijn betoog.
Dat is de toch al niet zo simpele theorie. Om bovenstaande betrouwbaar uit te voeren worden een aantal statistische aannames gedaan. Als je met mensen werkt is het per definitie vrijwel onmogelijk om aan alle aannames te voldoen, dus het aantal schendingen moet je echt tot een minimum beperken.
Als je je testinstrument gaat valideren in een steekproef waarbij bij elke afname van de test een ander apparaat gebruikt wordt introduceer je een enorme hoeveelheid ruis in je model. Al deze apparaten produceren ander geluid op bepaalde volumes en ze hebben allemaal een andere frequentie-curve. Dat maakt het valideren van een meetinstrument erg ingewikkeld. Wat als één bepaald item specifiek op een bepaald model iPad slechter te horen is dan op de meeste andere apparaten? Als je "in het wild" op die manier bij kinderen gaat testen wordt het probleem nog aanzienlijk erger. Je wilt niet dat de testscore van Pietje en daarmee de vraag of hij doorverwezen wordt afhangt van of hij getest is met een iPad, een Samsung of een Pixel. Zowel je
sensitiviteit als je exclusiviteit gaat volledig naar de knoppen. Of met andere woorden: je gaat zowel veel onnodige false-positives doorverwijzen (= onnodig extra kosten en belastend voor het zorgstelsel en het kind) en eveneens onnodige false-negatives (= onnodig kinderen met een onderwijsachterstand).
Nu wordt in het geval van een gehoortest met koptelefoons gewerkt. Minder variatie tussen tablets / telefoons dan bij gebruik van speakers, maar je blijft afhankelijk van de gebruikte DAC en evt. ingebouwde versterker.
Een platform onafhankelijke webapplicatie is dus een idee met serieuze haken en ogen. Een iPad app klinkt op voorhand aanzienlijk beter, maar dan nog is het belangrijk te kiezen voor één specifiek model waarvan je allereerst aantoont dat er geen of nauwelijks verschil zit tussen de sound-signature van verschillende exemplaren. Die gebruik je dan vervolgens om je test te valideren door middel van een grote steekproef die een goede afspiegeling vormt van de testpopulatie. Ook dan moet je tussendoor blijven monitoren of factoren zoals de leeftijd van het apparaat of software-updates invloed hebben op het geluid dat ze produceren en daarmee de test-resultaten. Je testapparaten moeten, in statistische termen, zoveel mogelijk
ergodisch zijn. D.w.z: de voor de test relevante eigenschappen van zo'n apparaat moeten voor alle apparaten identiek zijn en stabiel. Je weet namelijk op voorhand dat je testpopulatie niet ergodisch is, d.w.z.: Jantje gaat anders scoren als hij goed of slecht geslapen heeft, wel of niet verkouden is, goed of slecht gehumeurd, etc. Dat alleen al is eigenlijk al een schending van de statistische voorwaarden (maar onvermijdbaar) en nadelig voor de testbetrouwbaarheid. Extra ruis door verschillen tussen testapparaten kun je er niet bij hebben.
Overigens: als uitvoerende organisatie zie je dit al jaren van te voren aankomen, lijkt me. Waarom er niet eerder aan de bel is getrokken is natuurlijk een terechte vraag.
edit:
Volgens
deze handleiding uit 2016 zouden voor deze tests (toen) Samsung Galaxy Tab 4 en Nexus tablets gebruikt worden. De test lijkt ook gebaseerd op de item-response theorie, niet op de klassieke testtheorie. Bovenstaande bezwaren tegen het gebruik van een webapp op willekeurige apparaten gaan nog steeds op, maar om statistisch gezien niet exact dezelfde redenen.
[Reactie gewijzigd door doeternietoe op 13 september 2025 14:33]