Analyse: ongeveer een op tien AI-antwoorden van Google bevat fout

Ongeveer een op de tien antwoorden in AI-overzichten van de Google-zoekmachine bevat een fout, zo blijkt uit een analyse. Daarmee komen er per minuut honderdduizenden fouten online in de zoekmachine.

De andere 90 procent van de antwoorden zijn wel juist, meldt The New York Times op basis van de analyse van AI-bedrijf Oumi. De AI-overzichten komen bovenaan bij veel zoekresultaten en zouden op basis van webresultaten antwoorden moeten geven. Google maakt die met een aangepast model op basis van Gemini 3.

De analyse zegt niet hoe ernstig de fouten zijn die in de AI-overzichten staan. Door de schaal van Google betekent dit dat er elke minuut honderdduizenden fouten in de AI-overzichten staan. De AI-overzichten zijn er sinds vorig jaar en hebben invloed op onder meer webverkeer. Zo verloren grote Engelstalige techwebsites veel Google-zoekverkeer na de introductie van de Engelstalige AI Overviews.

Als de analyse klopt, dan is het aantal fouten sinds de introductie wel afgenomen. Google heeft geen reactie gegeven op de cijfers. Google vermeldt wel steevast bij AI-overzichten dat de tekst door AI is gemaakt en fouten kan bevatten.

Google: AI-overzichten zijn echt niet betrouwbaar
Google: AI-overzichten zijn echt niet betrouwbaar

Door Arnoud Wokke

Redacteur Tweakers

07-04-2026 • 19:06

70

Reacties (70)

Sorteer op:

Weergave:

Als AI-bedrijf Oumi kan vaststellen of een antwoord klopt of niet, waarom kan Google dat dan zelf ook niet vaststellen?
Google weet het vast. Het boeit ze alleen niks. Ze vinden het belangrijker dat er een product is dan dat er een goed product is.
Dat is toch wel wat te kort door de bocht. Als ze een model konden maken dat "perfect" werkt (zo accuraat als een mens, zeg), zou dat een bodemloze goudmijn zijn. Zover is de techniek gewoon nog niet. Dat ligt niet aan de uitgevers intentie of moeite
Uiteraard. Maar gezien die er niet is kunnen ze kiezen om hun product niet uit te brengen. Dat doen ze niet. Oftewel, belangrijker dat er een product is dan dat er een goed product is.
Als je moet wachten tot iets perfect is kun je nooit iets uitbrengen.
Zo accuraat als een mens? Ik denk dat de foutmarge lager ligt dan bij de mens en dat 90% al accurater is de mens.
Hoezo doorzien mensen dan die fouten als je 10 seconden de tijd neemt om iets aan te klikken? Anders zouden de reacties hier niet zijn van "goh ik dacht dat het meer was met hoeveel ik er zie"

Edit: kwartje viel. Jij denkt dat we bij superintelligentie aangekomen zijn met de huidige taalmodellen?!

[Reactie gewijzigd door Lucb1e op 7 april 2026 21:04]

Laten we 100 willekeurig gekozen mensen dezelfde 25 vragen oplossen als er gesteld wordt aan AI, ze krijgen allemaal 60 seconden per vraag. Dan gaan we controleren wie het minste fouten heeft gemaakt.

Waar gaan we het minste fouten zien?
Je maakt een kapitale fout. Mensen kennen het begrip 'weet ik niet'. Deze taalmodellen zijn daar te dom voor. Een eerlijk mens zal veel minder fouten maken dan een LLM.
"Weet ik niet" is ook een foutief antwoord.
I beg to differ. Het is een eerlijk en volledig juist antwoord in deze context. Iets waar AI niet toe in staat is.

Een fout antwoord is vele malen slechter dan géén antwoord. Ze zijn niet gelijk aan elkaar. En nee, examens zijn geen goede maatstaf; dit is geen examen.

In interpersoonlijke communicatie is "Weet ik niet" volledig juist en volledig geaccepteerd. Eventueel aangevuld, in de juiste context, met "maar ik kan het wel uitzoeken voor je"; wederom iets waar AI niet toe in staat is.
"Weet ik niet" is ook een foutief antwoord.
Het is een beter antwoord dan een fout antwoord.
Wat je weglaat is dat er in werkelijkheid 3 klasses antwoorden zijn, namelijk een goed antwoord, een fout antwoord en geen antwoord. Je gooit die laatste twee dan bij elkaar terwijl weten dat je geen antwoord hebt beter is en je meer informatie geeft dan een fout antwoord waarvan je denkt dat het goed is.
Geen antwoord is zeker niet gelijk aan een fout antwoord. Ja in vele situaties zal de uitwerking hetzelfde kunnen zijn zoals een examen. Daartegen zou het ook anders kunnen. Bijvoorbeeld een quiz waar je punten krijgt bij goede antwoorden, punten eraf bij foute antwoorden en er gebeurt niets als je past. Net even gezocht en Jeopardy! zou zo een systeem hebben. Als je niet op de knop druk verkies je geen punten. Wel als je op de knop gedrukt hebt en geen antwoord hebt.
Hoe vaak herstel je niet je eigen fout als mens? Iets dat AI niet doet.
Ik vermoed dat het verifiëren van de correctheid (ongeacht of het nu met een AI of mens is gedaan) veel meer energie en tijd kost dan het genereren van een zoek resultaat.
Oumi heeft niet slechts een AI-model gebruikt, maar daarnaast is het niet waar dat Oumi zeker weet van elk antwoord of het correct is; ze baseren zich op de voorbeeldantwoorden en die kloppen wellicht niet allemaal.
Google summary kost minder dan Oumi
Hier moet wel bij vermeld worden dat er een catch is:
Google spokesperson Ned Adriance tells the Times that Google believes SimpleQA contains incorrect information. Its model evaluations often rely on a similar test called SimpleQA Verified, which uses a smaller set of questions that have been more thoroughly vetted. “This study has serious holes,” Adriance told the Times. “It doesn’t reflect what people are actually searching on Google.”
Nu kun je Google tegenwoordig ook niet meer op hun blauwe links geloven zoals o.a. Radar in afgelopen aflevering liet zien met hun bezoekje aan het kantoor in Amsterdam waaruit blijkt dat ze graag miljoenen euro's innen van o.a. scam-electriëns, maar er zit toch interessante informatie in bovenstaande quote als je wegpelt dat ze dit zeggen om de schade te beperken.

Als het inderdaad tests zijn die niet overeenkomen met wat een gemiddelde gebruiker ziet, dan zou je bijvoorbeeld kunnen stellen dat die 90% mogelijk de ernst van de situatie weergeeft omdat het in de praktijk wel eens veel lager zou kunnen liggen.

Bovendien wordt zo te zien nergens gesproken over wat precies "correct" is. Het artikel spreekt over het gebruik van SimpleQA, wat van OpenAI en dus eveneens niet als betrouwbaar kan worden gezien omdat OpenAI niet echt een staat van dienst heeft op dat gebied. Die test zou 4000+ vragen hebben met antwoorden erbij. Het zou gaan om vragen waar maar 1 antwoord voor is, waardoor een vraag over wat je op een pizza kan doen zou wegvallen. Dat betekent dat er héél veel soorten vragen niet getest zijn én dat het redelijk makkelijk is om het in het voordeel van de maker uit te laten vallen door bijvoorbeeld zaken weg te laten die ze niet goed kunnen detecteren.

Daarnaast lijkt het alleen kennis uit het model te testen terwijl het nuttiger zou zijn om te testen wat Google Search er als extern bronmateriaal bij weet te halen. Een model is statisch. Die externe informatie niet.

Bron: https://arstechnica.com/g...g-10-percent-of-the-time/

Met dat in het achterhoofd zou het mij weinig verbazen als dit artikel van The Times een stukje native advertising (betaald dus) voor Oumi is want er is zo geen touw aan vast te knopen qua betrouwbaarheid van de resultaten. Gelukkig hebben ze toevallig een heel mooi platform om dat zelf mee uit te vinden ;)

Wat trouwens geen uniek platform is. Er zijn genoeg andere tools waarmee dit ook mogelijk is.

[Reactie gewijzigd door Stukfruit op 7 april 2026 20:12]

zoals o.a. Radar in afgelopen aflevering liet zien met hun bezoekje aan het kantoor in Amsterdam waaruit blijkt dat ze graag miljoenen euro's innen van o.a. scam-electriëns
Dat heeft hier niks met AI te maken. En qua advertenties, wat moet google daaraan doen volgens jou? Het scam bedrijf plaatst die advertenties en wint dat op basis van de klikprijs etc door dan bovenaan te staan. Google kan er niks aan doen dat dat hoofdkantoor van die scamsites niet bestaan. Dat is iets voor een politie/rechter om te beslissen of iets mag of niet mag. Blijkbaar mag het, want het bedrijf handelt nog steeds....
Het heeft er alles mee te maken dat Google graag geld verdient aan het verspreiden van data, ook als deze niet klopt.

Net zoals Meta dit ook doet en Google zelf de touwtjes al heeft laten vieren om zoekresultaten misleidender te maken.

Op een gegeven moment moet je stoppen met het geloven van onzinverhalen waar de partijen in kwestie zelf mee aankomen.

Overigens kun je in de genoemde aflevering van Radar een gesprek met de politie zien omdat die het tegen hun wens in niet kunnen afdwingen.

[Reactie gewijzigd door Stukfruit op 7 april 2026 20:44]

Overigens kun je in de genoemde aflevering van Radar een gesprek met de politie zien omdat die het tegen hun wens in niet kunnen afdwingen.
Dus er is niks aan de hand, als de politiie al niks kan doen wat verwacht je dan van google? Die gaat echt niet zelf onderzoek doen hoe een bedrijf zijn zaken doet. Dat hebben ze wel gedaan voor malafide slotenmakers, volgensmij kun je daar niet meer voor adverteren. Moet je dan ook alle electriciens blokkeren? Een bedrijf moet wel kunnen adverteren om klanten binnen te krijgen, niet alles is meteen malafide...

Dat google daar geld mee verdient is prima toch? Daar moet ook brood op de plank komen, net zoals jij geld wil verdienen aan je werkgever.
edit:
Ik zie niet waarom die nu een -1 wordt.. dat je het er niet eens mee bent oke, .aar wel relevant aan waar ik op reageer.

[Reactie gewijzigd door moonlander op 7 april 2026 21:52]

Je speelt de vermoorde onschuld.

Alsof geld verdienen met malafide praktijken gewoon geld verdienen is. Een winkel die gestolen goederen verkoopt en dit weet omdat de eigenaar zich heeft gemeld is ook strafbaar (heling, al dan niet schuldheling).

Ondanks het verschil is het wel vergelijkbaar: Er wordt aangetoond dat er sprake is van oplichting, alleen gaat het platform gewoon door en controleert niets.
wat verwacht je dan van google
Dat ze fake onzin en scams verwijderen zodra dat van vele kanten met veel bewijs wordt aangetoond.

Verder vraag ik me af waarom je de partijen waar het hier over gaat neer probeert te zetten als onschuldig. De politieman gaf in hetzelfde gesprek namelijk aan dat er een verdenking is dat ze met grotere (malafide dus) clubs werken.
Was er maar iets van een meldpunt waar dit soort zaken gemeld kan worden ;) Je schiet door. De reputatie van een adverteerder en de reactie van bedrijven zoals Google zou niet afhankelijk moeten zijn van een dubieus clubje reaguurders op Reddit (o.i.d.) maar bijvoorbeeld een clubje als de ACM of politie zou een stuk betrouwbaarder moeten zijn.

Google, maar ook Marktplaats en zo, verdienen best lekker aan malafide bedrijven en verkopers en daarop lopen ze nou niet echt het vuur uit de sloffen om die bedrijven te weren.

Handhaving ligt bij politie en justitie, maar zij hebben niet altijd de mogelijkheden en middelen om scammers en andere bekende oplichters aan te pakken. Google weet dit donders goed. Nog eerder dan de gebruikers weten zij wat malafide advertenties zijn. (om on-topic te blijven: vraag maar eens aan Gemini of adverteerder x een betrouwbaar bedrijf is en hij weet je keurig te vertellen dat het absoluut een onbetrouwbare partij is en toch staat het parmantig bovenaan.) Maar ze vertikken het om het aan te pakken omdat ze er lekker geld aan verdienen. Google mag en moet aangesproken worden op hun verantwoordelijkheid. Al zetten ze er een dikke rode waarschuwing bij als ze het niet willen/kunnen weren... Nu doen ze niets.
Snap niet helemaal waarom Google hier de boosdoender is. Waarom de hosting partij niet? Of betaalprovider.. Domein provider/dns/nameserver Of politie/acm? Waarom staat zo'n bedrijf nog ingeschreven bij KVK? Allemaal vragen... maar google is de boosdoender in dit hele verhaal. Allemaal zijn ze dan verantwoordelijk voor het aanbieden van diensten aan deze malafide partijen.
Iedere partij die je noemt, en wellicht zijn er nog meer, hebben een rol en verantwoordelijkheid en iedere partij zou op die rol en verantwoordelijkheid aangesproken moeten worden. De mate van verantwoordelijkheid verschilt natuurlijk.

KvK: https://www.rtl.nl/nieuws/onderzoek/artikel/5485361/kamer-van-koophandel-criminelen-malafide-bedrijven-handelsregister

Hosting: https://www.security.nl/posting/789838/Overheid+kijkt+naar+verschillende+opties+voor+aanpak+malafide+hostingproviders

Politie en Google: https://dgki.nl/88d9293-elektriciens-oplichting-Google-Ads-fraude/

Waarom is Google dan zo interessant? Omdat ze stellen dat ze bij melding de advertentie te verwijderen, maar in de praktijk werden advertenties pas verwijderd na vragen van het programma Radar: "Google laat Radar weten een strikt beleid te hanteren en oplichting via advertenties uitdrukkelijk te verbieden. Maar „omdat misbruik met spoeddiensten aan huis voor consumenten vaak plaatsvindt tijdens fysieke interacties in de echte wereld, is ons zicht op deze offline misstanden zonder specifieke, externe informatie beperkt”. Google stelt ‘bij constatering van een overtreding de nodige handhavingsmaatregelen te nemen’, maar grijpt vooralsnog niet in."

De houding van Google in dit verhaal maakt dat zij inderdaad de boosdoener zijn. Je kunt niet stellen dat je een 'strikt beleid voert' en acteert op meldingen, maar pas actie onderneemt wanneer het op TV komt.
We kunnen hier nog eindeloos over doorpraten ;) Maar als die websites actief blijven, kunnen ze ook zonder advertenties gewoon opereren. De taak is voor de politie om het aan te pakken, en dat blijkt dus ontzettend lastig.
Eens. Maar als een website niet gevonden wordt, dan is de kans natuurlijk een stuk kleiner dat mensen erin trappen. Wat steekt is dat een bekende oplichter toch prominent bovenaan staat en dus mensen in stress/paniek er toch op klikken, ondanks dat Google weet dat het niet in de haak is.

Qua wetgeving is het trouwens best interessant. Mocht Google een monopoliepositie hebben op de zoekmarkt, dan zijn zij in hoge mate verantwoordelijk voor de resultaten. Groot worden is leuk, maar de grootste zijn kan best lastig worden.
waardoor een vraag over wat je op een pizza kan doen zou wegvallen.
Daartegen is dit technisch gezien een vraag waarvan je kan afvragen wat goed en fout is. Is zand een goed of fout antwoord? Het KAN erop ook al doen wij mensen het niet omdat zand niet lekker smaakt. Een afstandsbediening kunnen wij niet eten maar kan er ook op. Vergif zouden we niet moeten eten maar kan er ook op. Maar ook bijvoorbeeld wat ongebruikelijk is maar kan. Zo heeft Domino's pizza een pizza met mayonaise (een patat thema pizza meen ik) gehad. Toch als ik het had voorgesteld zou ik voor bijna gek verklaard worden. Dus mijn antwoord zou dom zijn maar Domino's pizza is wel goed? Maar ook in andere landen eten ze (rare) dingen waarvan wij het hier extreem vreemd of zelfs walgelijk zouden vinden maar wat dus ook op een pizza zou kunnen en misschien gebeurd dat daar ook wel.

Wat wij als mens normaal vinden (salami, ui, paprika, ect) is ook een goed antwoord maar dus niet de enigste goede antwoorden op de vraag die je op die manier stelt. Het zou al anders zijn als je zou zeggen wat hebben mensen gebruikelijk op een pizza. Maar dan nog zal dat liggen aan de definitie gebruikelijk. Dan denk ik bijvoorbeeld aan olijven of jalapeño. Ik zou dit niet als gebruikelijk zien maar toch worden er pizza's verkocht met dat erop.
Volgens mij laat het vooral zien dat je de vraag goed moet formuleren. De goed/fout discussie zou moeten gaan over verifieerbare feiten of wiskundige oplossingen... Niet of men van mening is of je al dan niet ananas op een pizza zou moeten kunnen doen, om maar iets te zeggen.

Punt is dat mensen slecht in feiten zijn (is dat een feit?) en dus wordt het snel een troebel verhaal. A.I. kan snel bronnen checken en data ophoesten, maar hoe scherper je de vraag stelt, hoe beter die data is. A.I. kan je doodleuk platgooien met statistieken uit 2015 omdat hij zo snel niets nieuwers vond. Dat geeft interessante situaties wanneer het wordt gepresenteerd (of wordt aangenomen) als iets uit 2025. Vraag je echter specifiek naar data uit 2025 dan kan er een ander antwoord komen.

Maar goed, deze toepassing van A.I. vind ik eigenlijk niet zo interessant. Agents vind ik veel leuker om mee te spelen.
In mijn ervaring is er bijna altijd wel een fout in google ai en grok antwoorden. En zeg je dan nee dat klopt niet, dan is het 'inderdaad dat klopt niet, is zoals jij zegt'
Klopt, maar dat komt doordat het een stochastische papegaai is :p

Het is weinig meer dan een "zoekmachine" voor opgehakte woorden waarvoor de dichtsbijzijnde afstand wordt gepakt.

Als jij "nee het klopt niet" zegt, dan wordt die regel weer nieuwe input waar via het taalmodel passende letters bij worden geproduceerd. Het model heeft dat "aangeleerd" gekregen met gewichten die er het dichtst bij in de buurt komen en voila: het lijkt alsof het terugcommuniceert.

Beetje simpel uitgelegd zo, maar het is een relatief goede manier om te begrijpen waar dat "gedrag" vandaan komt.
Dat valt me nog mee... Ik heb het idee dat het veel vaker gebeurt. Misschien ligt het aan het type vraag dat ik stel ofzo?
Waarschijnlijk ben je net als ik een techneut en heb je doorgaans technische vragen. En de LLM snapt niks van de inhoud, hij rijgt alleen woordjes aaneen.
Dus als je vraagt wat de voeding op de Vcc pin van chip AA11 moet zijn, dan komt hij heel stellig met een verhaaltje dat een aantal datasheets door elkaar husselt, en aangezien de meeste chips die met een "A" beginnen 1,8V op hun Vcc willen dan zal deze chip dat ook wel willen. En misschien is dit antwoord voor 90% goed want hij geeft hetzelfde antwoord voor alle vragen over Vcc en dat is in 90% van de gevallen 1,8V.
Ik vind het dan wel weer lollig dat als je dan zelf de juiste oplossing geeft, hij dan net doet of hij het snapt en je zowaar bedankt, maar de volgende keer weer doodleuk er een potje van maakt.
Als AI eerlijk was zou het zeggen: "Leuk dat je me corrigeert maar hier doe ik niets mee."
Dat zou gebruikers ook gelijk van het gevoel "begrepen" te worden verlossen. We moeten AI zien als een machine. Niet als een persoon.
Ach, ze weten donders goed wat wij graag willen horen. Een beetje ego strelen en je straal negeren.

Wij mensen hebben de handicap dat we het menselijke zien (en zoeken) in alles. Tot en met in stenen op Mars! Dat leidt tot rare situaties waarbij een dier kunnen knuffelen, vertroetelen en zien als een kind, maar tegelijk een zelfde dier als gehaktbal vrolijk naar binnen schuiven. Leg dat maar eens uit aan een computer... Toch kan een computer daar wel gebruik van maken.
Ik heb die automatische antwoorden boven zoekresultaten uitgeschakeld. Nadat ik een paar keer gemerkt heb dat het fout was, maar natuurlijk wel plausibel klinkt en je het dus niet direct doorhebt, ben ik gestopt met ze lezen. Die vijf seconden extra van op een pagina klikken waar het antwoord staat is de moeite van verificatie van een LLM-antwoord niet waard, voor mij. Door het uit te schakelen spaart het ook een hoop energie door niet bij elke zoekopdracht óók nog impliciet een LLM aan te spreken
Dat is het gevaarlijke, het wordt met 'authority' geschreven, het lijkt plausibel. Als je niet oplet nemen mensen het misshcien klakkeloos aan...
Heb al ettelijke keren in whatapp-chats een screenshot van het AI-overzicht gezien als feit, bv. "je moet de tickets daar en daar kopen" of "je mag daar niet wandelen gaan".
maar hoe ging je dan om met verwijzingen naar forums in het verleden waar ook vaak onjuiste informatie staat? Dan moest je toch ook zelf nadenken en kiezen voor wat je correct vond? Ik zie zelf geen verschil met toen maar vind het wel fijn om alvast de mogelijke antwoorden te zien en weet dat ik er zelf goed bij na moet denken.
Op een forum had je toch wel het zelfreinigend vermogen van de community. Als een A.I. echter dat ene 'juiste' antwoord eruit pikt en de correcties daarna negeert, dan gaat het inderdaad mis.
Of het nou een forum is of een wetenschappelijk artikel, de conclusie kan altijd fout zijn. Of de conclusie was goed maar het is verwarrend geschreven en je leest het verkeerd.

Een LLM in het midden van die keten voegt een nieuwe laag met mogelijke fouten toe omdat het de tekst interpreteert en weer in een nieuwe vorm uitgeeft

Zeker met hoe vaak we het zelf al fout zien gaan, je hebt niet eens (zoals bij roken bijvoorbeeld) onderzoek nodig om op populatieschaal te zien dat het nadelige gevolgen heeft. Ik ben er dus niet zo weg van, althans, ik gebruik het wel mondjesmaat maar vooral op gebieden waar het accuraat genoeg is. Taal is het bijvoorbeeld goed in (lang niet altijd perfect, maar bij de grote talen zoals Engels en Duits wel rond een gemiddeld niveau), dus fouten vinden in grammatica is iets wat ik er wel mee doe wanneer ik de taal zelf nog niet machtig ben. Hier heb je ook weinig aan forumantwoorden omdat je eerst moet snappen welke regel er überhaupt toegepast moet worden, dan de regel begrijpen, dan de woordgeslachten opzoeken, en dan het nog eens consistent toepassen. Daar is een taalmodel dus wel een echte tijdbesparing en, vergeleken met mijn Duitsniveau, van goed genoege kwaliteit

[Reactie gewijzigd door Lucb1e op 9 april 2026 10:36]

Dat idee heb ik ook, soms stel ik echt belachelijk simpele vragen waarbij je het antwoord gewoon op wikipedia op kunt zoeken en dan nog krijg ik een fout antwoord.
Zie zelfs vaak genoeg dat bij het verkeerde antwoord een bronvermelding staat, waar het juiste antwoord staat...
Ja, dat heb ik ook weleens meegemaakt.

En bedenk dan ook nog dat dit soort systemen juist de bezoekers weghoudt bij websites van de mensen die het echte werk doen. Het wordt steeds minder aantrekkelijk om een goed artikel te schrijven voor een blog of een wetenschapsnieuwswebsite, als AI-zoekmachines dat werk vervolgens samenvatten, (vaak ook nog onjuist) en daarmee je inkomstenbron onder druk zetten...
Ik gebruik Gemini in mijn onderwijs (wiskunde). Ik krijg snel vrij goede opgaven als antwoord op een zorgvuldig geformuleerde prompt. Echt een enorme ondersteuning. Waar het vervolgens misgaat, is het maken van een antwoordmodel; onlogische stappen, een bedenkelijke oplossingsstrategie en ook echt wel fouten. Voor leerlingen soms leuk om naar te kijken en kan dus helpend zijn maar ook wel verwarrend en dan niet ondersteunend. Het raakt daarmee de kern: blijf zelf kritisch nadenken!
Zelfde hier, mijn onderbuikgevoel zegt eerder 9/10 dan 1/10
10% Foute antwoorden maar? Dat is echt veel minder dan ik had verwacht.
Over het algemeen ken ik vrijwel niemand die een erg hoge dunk heeft van het foutpercentage van AI.

Daar baseerde ik die verwachting op.
Dan doet deze functie het een stuk beter dan ChatGPT-4o en LLama-3!

Uit een ander onderzoek kwam 40% bij medische teksten samenvatten door die twee modellen (als je veralgemeniseringen, waardoor specifieke informatie onnodig wegvalt, of onlogische onderbouwingen, niet als fout aanmerkt): https://openreview.net/pdf?id=6eMIzKFOpJ

Bovenaan pagina 5 staat een tabel waarin de resultaten staan van het laten samenvatten van medische informatie door ChatGPT-4o en LLama-3. De kolom "incorrect" spreekt voor zichzelf (fouten in de samenvatting); de kolom "Spec. ⇒ Gen." gaat over veralgemeniseringen. GPT-4o en LLama-3 introduceerden (respectievelijk) 21 en 19 onjuistheden in de samenvattingen van 50 medische notities, naast nog eens 50 en 49 generalisaties, 44 en 26 onlogische onderbouwingen, en 2 en 1 chronologische inconsistentie(s)

Niet dat je het dus nooit moet gebruiken, maar ben je bewust van de eigenschappen van dit nieuwe gereedschap!

[Reactie gewijzigd door Lucb1e op 7 april 2026 19:35]

Voor mijn gevoel is het een stuk meer dan 1 op 10.
Zie het dagelijks wanneer ik iets zoek en klik op AI Overview.

Dat dwingt dan weer om zelf naar een bron te zoeken.
Ik heb nog nooit een 100% goed antwoord van AI gehad.
Ik heb dit even gefact-checked bij Gemini en die zegt dat het niet klopt.
Ach die tien fouten zijn over een paar jaar goed aangezien de nieuwe generatie niet eens fact checkt. Dus wordt dat gewoon aangenomen als goed helaas.
En jij fact checkt alles wat je ziet of leest? Daarbij de nieuwe/volgende generatie wordt opgevoed door de huidige generatie. Waar ligt de fout dan?
Dat is denk ik op zich best goed. Ik heb zelf namelijk niet het idee dat 90% van de eerste hits ook de informatie bevatten waar ik naar op zoek ben. Komt meestal niet eens in de buurt van de helft.
Sommigen stellen dat Google die expres doet, zodat je langer op hun site bezig bent.

Google wil niet het beste product hebben. Google wil dat je zo lang mogelijk bezig bent met hun product. Daarvoor moeten ze natuurlijk ook wel een goed product hebben (anders gaan mensen wel naar wat anders), maar ze moeten dus een balans vinden tussen 'mensen op hun diensten bezighouden, en die diensten daadwerkelijk de beste maken'.

Ik gebruik sinds ongeveer een jaar Kagi (betaalde zoekmachine), en ik moet zeggen. Dat is echt een verademing. Ik heb nu gewoon goede zoekresultaten, die ik zelf kan personaliseren. (ik kan domeinen meer of minder prioriteit geven). Ook de ingebouwde LLM werkt best goed. Hij wordt niet door m'n strot geduwt. Hij reageert als ik een vraagteken achteraan m'n zoekopdracht geef. En zo heeft het nog veel meer handige features.

Geef het een kans :)

Om te kunnen reageren moet je ingelogd zijn