Analyse: ongeveer een op tien AI-antwoorden van Google bevat fout

Ongeveer een op de tien antwoorden in AI-overzichten van de Google-zoekmachine bevat een fout, zo blijkt uit een analyse. Daarmee komen er per minuut honderdduizenden fouten online in de zoekmachine.

De andere 90 procent van de antwoorden zijn wel juist, meldt The New York Times op basis van de analyse van AI-bedrijf Oumi. De AI-overzichten komen bovenaan bij veel zoekresultaten en zouden op basis van webresultaten antwoorden moeten geven. Google maakt die met een aangepast model op basis van Gemini 3.

De analyse zegt niet hoe ernstig de fouten zijn die in de AI-overzichten staan. Door de schaal van Google betekent dit dat er elke minuut honderdduizenden fouten in de AI-overzichten staan. De AI-overzichten zijn er sinds vorig jaar en hebben invloed op onder meer webverkeer. Zo verloren grote Engelstalige techwebsites veel Google-zoekverkeer na de introductie van de Engelstalige AI Overviews.

Als de analyse klopt, dan is het aantal fouten sinds de introductie wel afgenomen. Google heeft geen reactie gegeven op de cijfers. Google vermeldt wel steevast bij AI-overzichten dat de tekst door AI is gemaakt en fouten kan bevatten.

Google: AI-overzichten zijn echt niet betrouwbaar
Google: AI-overzichten zijn echt niet betrouwbaar

Door Arnoud Wokke

Redacteur Tweakers

07-04-2026 • 19:06

35

Reacties (35)

Sorteer op:

Weergave:

Hier moet wel bij vermeld worden dat er een catch is:
Google spokesperson Ned Adriance tells the Times that Google believes SimpleQA contains incorrect information. Its model evaluations often rely on a similar test called SimpleQA Verified, which uses a smaller set of questions that have been more thoroughly vetted. “This study has serious holes,” Adriance told the Times. “It doesn’t reflect what people are actually searching on Google.”
Nu kun je Google tegenwoordig ook niet meer op hun blauwe links geloven zoals o.a. Radar in afgelopen aflevering liet zien met hun bezoekje aan het kantoor in Amsterdam waaruit blijkt dat ze graag miljoenen euro's innen van o.a. scam-electriëns, maar er zit toch interessante informatie in bovenstaande quote als je wegpelt dat ze dit zeggen om de schade te beperken.

Als het inderdaad tests zijn die niet overeenkomen met wat een gemiddelde gebruiker ziet, dan zou je bijvoorbeeld kunnen stellen dat die 90% mogelijk de ernst van de situatie weergeeft omdat het in de praktijk wel eens veel lager zou kunnen liggen.

Bovendien wordt zo te zien nergens gesproken over wat precies "correct" is. Het artikel spreekt over het gebruik van SimpleQA, wat van OpenAI en dus eveneens niet als betrouwbaar kan worden gezien omdat OpenAI niet echt een staat van dienst heeft op dat gebied. Die test zou 4000+ vragen hebben met antwoorden erbij. Het zou gaan om vragen waar maar 1 antwoord voor is, waardoor een vraag over wat je op een pizza kan doen zou wegvallen. Dat betekent dat er héél veel soorten vragen niet getest zijn én dat het redelijk makkelijk is om het in het voordeel van de maker uit te laten vallen door bijvoorbeeld zaken weg te laten die ze niet goed kunnen detecteren.

Daarnaast lijkt het alleen kennis uit het model te testen terwijl het nuttiger zou zijn om te testen wat Google Search er als extern bronmateriaal bij weet te halen. Een model is statisch. Die externe informatie niet.

Bron: https://arstechnica.com/g...g-10-percent-of-the-time/

Met dat in het achterhoofd zou het mij weinig verbazen als dit artikel van The Times een stukje native advertising (betaald dus) voor Oumi is want er is zo geen touw aan vast te knopen qua betrouwbaarheid van de resultaten. Gelukkig hebben ze toevallig een heel mooi platform om dat zelf mee uit te vinden ;)

Wat trouwens geen uniek platform is. Er zijn genoeg andere tools waarmee dit ook mogelijk is.

[Reactie gewijzigd door Stukfruit op 7 april 2026 20:12]

zoals o.a. Radar in afgelopen aflevering liet zien met hun bezoekje aan het kantoor in Amsterdam waaruit blijkt dat ze graag miljoenen euro's innen van o.a. scam-electriëns
Dat heeft hier niks met AI te maken. En qua advertenties, wat moet google daaraan doen volgens jou? Het scam bedrijf plaatst die advertenties en wint dat op basis van de klikprijs etc door dan bovenaan te staan. Google kan er niks aan doen dat dat hoofdkantoor van die scamsites niet bestaan. Dat is iets voor een politie/rechter om te beslissen of iets mag of niet mag. Blijkbaar mag het, want het bedrijf handelt nog steeds....
Het heeft er alles mee te maken dat Google graag geld verdient aan het verspreiden van data, ook als deze niet klopt.

Net zoals Meta dit ook doet en Google zelf de touwtjes al heeft laten vieren om zoekresultaten misleidender te maken.

Op een gegeven moment moet je stoppen met het geloven van onzinverhalen waar de partijen in kwestie zelf mee aankomen.

Overigens kun je in de genoemde aflevering van Radar een gesprek met de politie zien omdat die het tegen hun wens in niet kunnen afdwingen.

[Reactie gewijzigd door Stukfruit op 7 april 2026 20:44]

Overigens kun je in de genoemde aflevering van Radar een gesprek met de politie zien omdat die het tegen hun wens in niet kunnen afdwingen.
Dus er is niks aan de hand, als de politiie al niks kan doen wat verwacht je dan van google? Die gaat echt niet zelf onderzoek doen hoe een bedrijf zijn zaken doet. Dat hebben ze wel gedaan voor malafide slotenmakers, volgensmij kun je daar niet meer voor adverteren. Moet je dan ook alle electriciens blokkeren? Een bedrijf moet wel kunnen adverteren om klanten binnen te krijgen, niet alles is meteen malafide...

Dat google daar geld mee verdient is prima toch? Daar moet ook brood op de plank komen, net zoals jij geld wil verdienen aan je werkgever.
edit:
Ik zie niet waarom die nu een -1 wordt.. dat je het er niet eens mee bent oke, .aar wel relevant aan waar ik op reageer.

[Reactie gewijzigd door moonlander op 7 april 2026 21:52]

wat verwacht je dan van google
Dat ze fake onzin en scams verwijderen zodra dat van vele kanten met veel bewijs wordt aangetoond.

Verder vraag ik me af waarom je de partijen waar het hier over gaat neer probeert te zetten als onschuldig. De politieman gaf in hetzelfde gesprek namelijk aan dat er een verdenking is dat ze met grotere (malafide dus) clubs werken.
Nee elke adverteerder wordt nu als schuldige bestempeld want ze verdienen geld aan advertenties.

En wat als je met een clubje van Reddit een bedrijf gaan aanmelden als scam, verzameld ai bewijs en stuurt dat op.. moet Google dat dan maar blokkeren omdat ze scammers zijn?
waardoor een vraag over wat je op een pizza kan doen zou wegvallen.
Daartegen is dit technisch gezien een vraag waarvan je kan afvragen wat goed en fout is. Is zand een goed of fout antwoord? Het KAN erop ook al doen wij mensen het niet omdat zand niet lekker smaakt. Een afstandsbediening kunnen wij niet eten maar kan er ook op. Vergif zouden we niet moeten eten maar kan er ook op. Maar ook bijvoorbeeld wat ongebruikelijk is maar kan. Zo heeft Domino's pizza een pizza met mayonaise (een patat thema pizza meen ik) gehad. Toch als ik het had voorgesteld zou ik voor bijna gek verklaard worden. Dus mijn antwoord zou dom zijn maar Domino's pizza is wel goed? Maar ook in andere landen eten ze (rare) dingen waarvan wij het hier extreem vreemd of zelfs walgelijk zouden vinden maar wat dus ook op een pizza zou kunnen en misschien gebeurd dat daar ook wel.

Wat wij als mens normaal vinden (salami, ui, paprika, ect) is ook een goed antwoord maar dus niet de enigste goede antwoorden op de vraag die je op die manier stelt. Het zou al anders zijn als je zou zeggen wat hebben mensen gebruikelijk op een pizza. Maar dan nog zal dat liggen aan de definitie gebruikelijk. Dan denk ik bijvoorbeeld aan olijven of jalapeño. Ik zou dit niet als gebruikelijk zien maar toch worden er pizza's verkocht met dat erop.
Als AI-bedrijf Oumi kan vaststellen of een antwoord klopt of niet, waarom kan Google dat dan zelf ook niet vaststellen?
Ik vermoed dat het verifiëren van de correctheid (ongeacht of het nu met een AI of mens is gedaan) veel meer energie en tijd kost dan het genereren van een zoek resultaat.
Google weet het vast. Het boeit ze alleen niks. Ze vinden het belangrijker dat er een product is dan dat er een goed product is.
Dat is toch wel wat te kort door de bocht. Als ze een model konden maken dat "perfect" werkt (zo accuraat als een mens, zeg), zou dat een bodemloze goudmijn zijn. Zover is de techniek gewoon nog niet. Dat ligt niet aan de uitgevers intentie of moeite
Uiteraard. Maar gezien die er niet is kunnen ze kiezen om hun product niet uit te brengen. Dat doen ze niet. Oftewel, belangrijker dat er een product is dan dat er een goed product is.
Als je moet wachten tot iets perfect is kun je nooit iets uitbrengen.
Zo accuraat als een mens? Ik denk dat de foutmarge lager ligt dan bij de mens en dat 90% al accurater is de mens.
Hoezo doorzien mensen dan die fouten als je 10 seconden de tijd neemt om iets aan te klikken? Anders zouden de reacties hier niet zijn van "goh ik dacht dat het meer was met hoeveel ik er zie"

Edit: kwartje viel. Jij denkt dat we bij superintelligentie aangekomen zijn met de huidige taalmodellen?!

[Reactie gewijzigd door Lucb1e op 7 april 2026 21:04]

Google summary kost minder dan Oumi
Oumi heeft niet slechts een AI-model gebruikt, maar daarnaast is het niet waar dat Oumi zeker weet van elk antwoord of het correct is; ze baseren zich op de voorbeeldantwoorden en die kloppen wellicht niet allemaal.
Dat valt me nog mee... Ik heb het idee dat het veel vaker gebeurt. Misschien ligt het aan het type vraag dat ik stel ofzo?
Dat idee heb ik ook, soms stel ik echt belachelijk simpele vragen waarbij je het antwoord gewoon op wikipedia op kunt zoeken en dan nog krijg ik een fout antwoord.
Zie zelfs vaak genoeg dat bij het verkeerde antwoord een bronvermelding staat, waar het juiste antwoord staat...
Ja, dat heb ik ook weleens meegemaakt.

En bedenk dan ook nog dat dit soort systemen juist de bezoekers weghoudt bij websites van de mensen die het echte werk doen. Het wordt steeds minder aantrekkelijk om een goed artikel te schrijven voor een blog of een wetenschapsnieuwswebsite, als AI-zoekmachines dat werk vervolgens samenvatten, (vaak ook nog onjuist) en daarmee je inkomstenbron onder druk zetten...
Ik heb die automatische antwoorden boven zoekresultaten uitgeschakeld. Nadat ik een paar keer gemerkt heb dat het fout was, maar natuurlijk wel plausibel klinkt en je het dus niet direct doorhebt, ben ik gestopt met ze lezen. Die vijf seconden extra van op een pagina klikken waar het antwoord staat is de moeite van verificatie van een LLM-antwoord niet waard, voor mij. Door het uit te schakelen spaart het ook een hoop energie door niet bij elke zoekopdracht óók nog impliciet een LLM aan te spreken
Dat is het gevaarlijke, het wordt met 'authority' geschreven, het lijkt plausibel. Als je niet oplet nemen mensen het misshcien klakkeloos aan...
Zelfde hier, mijn onderbuikgevoel zegt eerder 9/10 dan 1/10
10% Foute antwoorden maar? Dat is echt veel minder dan ik had verwacht.
Dan doet deze functie het een stuk beter dan ChatGPT-4o en LLama-3!

Uit een ander onderzoek kwam 40% bij medische teksten samenvatten door die twee modellen (als je veralgemeniseringen, waardoor specifieke informatie onnodig wegvalt, of onlogische onderbouwingen, niet als fout aanmerkt): https://openreview.net/pdf?id=6eMIzKFOpJ

Bovenaan pagina 5 staat een tabel waarin de resultaten staan van het laten samenvatten van medische informatie door ChatGPT-4o en LLama-3. De kolom "incorrect" spreekt voor zichzelf (fouten in de samenvatting); de kolom "Spec. ⇒ Gen." gaat over veralgemeniseringen. GPT-4o en LLama-3 introduceerden (respectievelijk) 21 en 19 onjuistheden in de samenvattingen van 50 medische notities, naast nog eens 50 en 49 generalisaties, 44 en 26 onlogische onderbouwingen, en 2 en 1 chronologische inconsistentie(s)

Niet dat je het dus nooit moet gebruiken, maar ben je bewust van de eigenschappen van dit nieuwe gereedschap!

[Reactie gewijzigd door Lucb1e op 7 april 2026 19:35]

Voor mijn gevoel is het een stuk meer dan 1 op 10.
Zie het dagelijks wanneer ik iets zoek en klik op AI Overview.

Dat dwingt dan weer om zelf naar een bron te zoeken.
Ik heb nog nooit een 100% goed antwoord van AI gehad.
Ach die tien fouten zijn over een paar jaar goed aangezien de nieuwe generatie niet eens fact checkt. Dus wordt dat gewoon aangenomen als goed helaas.
En jij fact checkt alles wat je ziet of leest? Daarbij de nieuwe/volgende generatie wordt opgevoed door de huidige generatie. Waar ligt de fout dan?
Dat is denk ik op zich best goed. Ik heb zelf namelijk niet het idee dat 90% van de eerste hits ook de informatie bevatten waar ik naar op zoek ben. Komt meestal niet eens in de buurt van de helft.
Sommigen stellen dat Google die expres doet, zodat je langer op hun site bezig bent.

Google wil niet het beste product hebben. Google wil dat je zo lang mogelijk bezig bent met hun product. Daarvoor moeten ze natuurlijk ook wel een goed product hebben (anders gaan mensen wel naar wat anders), maar ze moeten dus een balans vinden tussen 'mensen op hun diensten bezighouden, en die diensten daadwerkelijk de beste maken'.

Ik gebruik sinds ongeveer een jaar Kagi (betaalde zoekmachine), en ik moet zeggen. Dat is echt een verademing. Ik heb nu gewoon goede zoekresultaten, die ik zelf kan personaliseren. (ik kan domeinen meer of minder prioriteit geven). Ook de ingebouwde LLM werkt best goed. Hij wordt niet door m'n strot geduwt. Hij reageert als ik een vraagteken achteraan m'n zoekopdracht geef. En zo heeft het nog veel meer handige features.

Geef het een kans :)
Leuk, maar wat als iemand "traditioneel" gaat zoeken? Hoeveel procent van de informatie die je dan vindt is correct? Als ik artikel zie (op internet, of in gedrukte media) waar ik toevallig een klein beetje verstand van heb dan staan er altijd wel kleine foutjes in. Ook op deze site zijn er vaak genoeg nieuwsberichten waar fouten in zitten.
Dat is inderdaad onderdeel van het probleem. Een LLM weet niet wat waar is, wat niet helemaal waar is of zelfs complete onzin is. Dus Google's bot kijkt op een paar populaire sites, wat het meeste wordt geantwoord en daar draait hij een mooi verwoord antwoord van in elkaar.

Ik denk wel dat, als je een antwoord terug krijgt wat precies aansluit op je vraag, vol overtuiging geschreven, zonder een spoortje twijfel, je als mens eerder geneigd bent dat voor waar aan te nemen, dan wanneer je op bijvoorbeeld reddit of facebook zoiets leest. Terwijl Google AI reddit en facebook volop als bron gebruikt…

Om te kunnen reageren moet je ingelogd zijn