Hier moet wel bij vermeld worden dat er een catch is:
Google spokesperson Ned Adriance tells the Times that Google believes SimpleQA contains incorrect information. Its model evaluations often rely on a similar test called SimpleQA Verified, which uses a smaller set of questions that have been more thoroughly vetted. “This study has serious holes,” Adriance told the Times. “It doesn’t reflect what people are actually searching on Google.”
Nu kun je Google tegenwoordig ook niet meer op hun blauwe links geloven zoals o.a. Radar in afgelopen aflevering liet zien met hun bezoekje aan het kantoor in Amsterdam waaruit blijkt dat ze graag miljoenen euro's innen van o.a. scam-electriëns, maar er zit toch interessante informatie in bovenstaande quote als je wegpelt dat ze dit zeggen om de schade te beperken.
Als het inderdaad tests zijn die niet overeenkomen met wat een gemiddelde gebruiker ziet, dan zou je bijvoorbeeld kunnen stellen dat die 90% mogelijk de ernst van de situatie weergeeft omdat het in de praktijk wel eens veel lager zou kunnen liggen.
Bovendien wordt zo te zien nergens gesproken over wat precies "correct" is. Het artikel spreekt over het gebruik van
SimpleQA, wat van OpenAI en dus eveneens niet als betrouwbaar kan worden gezien omdat OpenAI niet echt een
staat van dienst heeft op dat gebied. Die test zou 4000+ vragen hebben met antwoorden erbij. Het zou gaan om vragen waar maar 1 antwoord voor is, waardoor een vraag over wat je op een pizza kan doen zou wegvallen. Dat betekent dat er héél veel soorten vragen niet getest zijn én dat het redelijk makkelijk is om het in het voordeel van de maker uit te laten vallen door bijvoorbeeld zaken weg te laten die ze niet goed kunnen detecteren.
Daarnaast lijkt het alleen kennis uit het model te testen terwijl het nuttiger zou zijn om te testen wat Google Search er als extern bronmateriaal bij weet te halen. Een model is statisch. Die externe informatie niet.
Bron:
https://arstechnica.com/g...g-10-percent-of-the-time/
Met dat in het achterhoofd zou het mij weinig verbazen als dit artikel van The Times een stukje
native advertising (betaald dus) voor Oumi is want er is zo geen touw aan vast te knopen qua betrouwbaarheid van de resultaten. Gelukkig hebben ze toevallig een heel mooi
platform om dat zelf mee uit te vinden
Wat trouwens geen uniek platform is. Er zijn genoeg andere tools waarmee dit ook mogelijk is.
[Reactie gewijzigd door Stukfruit op 7 april 2026 20:12]