Toen ChatGPT uitkwam in 2022, deelde hij Gouden Kalveren uit aan Tweakers-redacteurs – en dat was lang niet de heftigste hallucinatie. Een paar maanden later demonstreerden Google en Microsoft hun AI-chatbots, die onder meer cafés aanraadden die nooit hebben bestaan of allang niet meer bestonden. Nu kunnen AI-chatbots zaken op internet opzoeken en kunnen ze bovendien redeneren, waardoor ze hun eigen antwoorden nog een keer nalopen. Ze hallucineren minder, toch? Toch? Nee.
Het probleem met hallucinaties
Hallucinaties zijn een groot probleem voor AI-chatbots sinds het bestaan ervan. Hallucineren is het effect waarbij een groot taalmodel feiten of omstandigheden verzint en die met grote zekerheid opschrijft en laat zien aan gebruikers.
Er zijn meerdere soorten hallucinaties. De eerste is een reproductie van incorrecte trainingsdata. Als genoeg van het bronmateriaal een claim bevat die evident niet waar is, bijvoorbeeld dat je vierkante ogen krijgt van te veel kijken naar een scherm, dan zal een groot taalmodel die leugen mogelijk herhalen – of misschien niet, dat hangt af van het AI-model en de instellingen.
De andere soort hallucinatie komt voort uit een gebrek aan kennis. Dan zal een groot taalmodel proberen om die kennis aan te vullen met waarschijnlijk klinkende woorden, ongeacht of die kloppen of niet. Hoe ver een taalmodel daarin gaat, hangt wel af van de instellingen. Daar komt bij dat een taalmodel gecomprimeerd is. Het is getraind op petabytes aan data, maar het uiteindelijke model moet veel kleiner zijn. Dat maakt van grote taalmodellen een gecomprimeerd bestand, waarin veel details zijn weggevallen.
Veel taalmodellen hebben instellingen voor de 'creativiteit' of 'temperatuur'. Dat is handig, want veel mensen gebruiken chatbots op basis van grote taalmodellen als brainstormhulp en dan is die creativiteit heel welkom. Zet hem op minder creatief of de temperatuur lager en er komen ook minder hallucinaties uit. Die creativiteit en hallucinaties komen ook door de manier waarop een taalmodel werkt, met een kansberekening voor het volgende woord. In sommige gevallen is het model heel zeker over wat een goed volgend woord is, maar soms zijn er veel woorden met allemaal een gelijke, kleine kans. Dan is het redelijk willekeurig wat er volgt.
Het probleem is uiteindelijk fundamenteel: het gebruikt een neuraal netwerk en statistiek om antwoorden te geven, maar het heeft geen ingebouwd systeem om waarheid en leugen van elkaar te onderscheiden. De oplossing, zo dachten bedrijven als Google, OpenAI en Anthropic, lag in toegang geven tot het web en in redeneren.
Toegang geven tot het web geeft de mogelijkheid om informatie te vinden die niet in het model zelf zit. Met het uitlezen van zoekresultaten en webpagina's heeft het AI-model ineens toegang tot recente en hopelijk kloppende informatie.
Redeneren voegt een extra stap toe, namelijk het gebruik van de output van een eerste stap als input voor het controleren ervan. Redeneermodellen doen langer over antwoorden, maar de gedachte is dat het antwoord daarna nuttiger, beter gestructureerd en feitelijker is.
Hoe we zien dat hallucinaties toenemen
Hoe weten we dat nieuwere redeneermodellen meer hallucineren? Dat kun je uiteraard zien aan benchmarks. Nu zeggen benchmarks nooit alles, maar als je cijfers erbij pakt van bijvoorbeeld OpenAI is dat goed te zien.
Dataset | Metric | o1 | o3 | o4-mini | 4o |
---|---|---|---|---|---|
SimpleQA | Precisie (hoger is beter) | 47% | 49% | 20% | 43% |
Hallucinaties (lager is beter) | 44% | 51% | 79% | 48% | |
PersonQA | Precisie (hoger is beter) | 47% | 59% | 36% | 50% |
Hallucinaties (lager is beter) | 16% | 33% | 48% | 30% |
Deze cijfers komen bij OpenAI vandaan. SimpleQA is een set van vierduizend feitelijke vragen, bij PersonQA gaat het om feiten over personen. OpenAI concludeert hieruit dat o3 simpelweg méér claimt. Er kloppen meer antwoorden, maar er zijn ook meer antwoorden die het model bij elkaar heeft gehallucineerd. Andere modellen zeggen vaker dat ze het niet weten.
Het is niet alleen bij OpenAI. Het bedrijf Vectara gebruikt een benchmark waarbij AI-modellen nieuwsberichten moeten samenvatten. Daarbij ligt het percentage hallucinaties uiteraard niet zo hoog, want er is feitelijke informatie waarop ze zich kunnen baseren. Het voordeel is dat het bruikbaar is bij modellen van diverse bedrijven, want SimpleQA en PersonQA zijn door OpenAI gemaakte benchmarks.
Het leaderboard staat op GitHub. We hebben die data, van 29 april, gepakt en de scores van AI-modellen vergeleken met directe voorgangers. Google Gemini 2.0 Flash hallucineerde in 0,7 procent van de gevallen, 2.5 Flash doet dat in 1,3 procent van de gevallen; daarmee komt de score uit op 0,6 procentpunt.
OpenAI doet het ook niet best met GPT 4.1 tegenover het oudere 4.5. Claude 3.7 doet het wel net iets beter dan 3.5 Sonnet, maar het is maar marginaal. De rest van de bekende AI-modellen doet het minder op deze benchmark, waaronder Llama van Meta en het Chinese DeepSeek. Het is, zo kun je zeggen, een bredere trend in de AI-industrie.
Waarom modellen meer hallucineren
:strip_exif()/i/2007460882.jpeg?f=imagemedium)
Waarom dit gebeurt, is kort gezegd niet exact bekend. AI-modellen zijn niet gemaakt van door mensen ontwikkelde code, ze zijn getraind. Dat betekent dat we niet goed weten hoe het model precies tot keuzes komt en dus ook niet waarom hallucinaties nu weer toenemen. De Vectara-benchmark laat ook zien dat redeneermodellen niet per se preciezer zijn. Ze denken langer na, maar in het reproduceren van feitelijke informatie zijn ze niet per se beter.
Sterker nog: die denkstappen kunnen er juist voor zorgen dat AI-modellen meer vasthouden aan eerder gemaakte fouten, zo ontdekten onderzoekers. "Hoewel redeneren modellen in staat stelt om uitgebreidere redeneerprocessen te produceren, kan de nadruk op tussenliggende redeneerstappen onbedoeld hallucinaties en geaccumuleerde fouten veroorzaken, waardoor het vermogen van modellen om sluitende redeneerprocessen te produceren, wordt beperkt."
De tussenstappen kunnen een AI-model ook ertoe aanzetten om minder vaak 'weet ik niet' als antwoord te geven. In plaats daarvan doet het een aanname en borduurt daarop voort. Vervolgens keert het AI-model niet meer terug bij die eerste aanname en verzint het daar een heel verhaal omheen. Die theorie is ook te staven met cijfers: OpenAI zag al dat o3 zelden meer zegt dat het iets niet weet. In plaats daarvan beweert het altijd iets, waardoor het model vaker juiste én foute antwoorden geeft. Bovendien zijn er door het zetten van al die tussenstappen meer lege gaten in de kennis die het AI-model zal willen opvullen.
Een ander element dat invloed zou kunnen hebben, is het feit dat veel AI-modellen multimodaal zijn geworden en dus meerdere soorten input moeten kunnen verwerken. Dat geeft veel meer manieren om te hallucineren. Zo kan het zaken in beelden zien die er niet zijn en dat is ook wat er geregeld gebeurt.
Waarom meer hallucinaties erg zijn
Het vertrouwen in en de betrouwbaarheid van AI-modellen zijn belangrijk. Niet alleen zijn er veel gebruikers die zijn gaan leunen op AI-modellen voor allerhande vragen en taken, ook binnen bedrijven is de afhankelijkheid van kunstmatige intelligentie steeds meer toegenomen.
:strip_exif()/i/2007460920.jpeg?f=thumblarge)
Dat is niet altijd ten goede. Toen Duolingo onlangs aankondigde om freelancers te vervangen door AI, waren de reacties niet positief. Veel gebruikers van de app wezen erop dat er veel fouten zitten in de door AI gegenereerde content voor de app om talen en andere dingen te leren. Duolingo erkende dat zelf ook. "We kunnen niet wachten tot de technologie honderd procent perfect is. We doen dit nu liever snel en dan accepteren we kleine klappen aan de kwaliteit."
Als AI-modellen meer gaan hallucineren, zijn die klappen die de kwaliteit krijgt ineens veel groter. Daarbij kan een kleine achteruitgang al grote gevolgen hebben. Als een AI-model ineens in plaats van in 1 procent van de gevallen in 1,5 procent van de gevallen hallucineert, dan is er 50 procent méér content die bij elkaar verzonnen is.
Daar komt bij dat gebruikers en bedrijven doorgaans aannemen dat nieuwe versies op zijn minst even goed zijn als voorgaande versies. Dat is natuurlijk niet altijd waar, maar doorgaans – zeker in de explosieve fase waarin generatieve AI nu al een paar jaar zit – is dat een veilige aanname. Dat een nieuw AI-model dus minder presteert dan een vorig model, is een onverwacht fenomeen.
Het vertrouwen van gebruikers is ook belangrijk. Bij het begin van ChatGPT eind 2022 waren de hallucinaties talrijk en makkelijk te spotten. Sindsdien is het aantal hallucinaties sterk afgenomen en wat AI-modellen verzinnen, is daardoor ook minder makkelijk te spotten. Als er ineens meer hallucinaties komen, schaadt dat het vertrouwen dat er misschien wel is.
Daarnaast zijn er de logische gevolgen van hallucinaties. Veel gebruikers zijn gaan leunen op AI-chatbots om zaken op te zoeken en dat is te zien in statistieken. Die krijgen dus af en toe onzin te zien en niet iedereen zal dat weten.
Tot slot
De vraag blijft wat we gaan merken van de achteruitgang van AI-chatbots in de praktijk. In mijn dagelijkse omgang met AI-chatbots de afgelopen weken had ik dit effect niet gemerkt, maar dat kan ook komen door de specifieke prompts of opdrachten die ik geef. Op andere gebieden is het wellicht wel merkbaar.
En het is eerder gebeurd: GPT-4 leek beter te functioneren toen het uitkwam dan na een paar maanden, zo zeiden veel gebruikers. Achteruitgang is dus een bijzonder, maar niet uniek fenomeen. En zelfs met meer hallucinaties blijven AI-modellen voor veel gebruikers nuttige functies vervullen. Hallucineren is vervelend, maar voor veel gebruikers geen reden om het Gouden Kalf met het badwater weg te gooien.
Redactie: Arnoud Wokke Eindredactie: Monique van den Boomen Headerafbeelding: ChatGPT met prompt 'maak een afbeelding van hallucineren'