OpenAI-rapport: hallucinaties zijn wiskundig inherent aan huidige AI-aanpak

Onderzoekers van OpenAI stellen dat hallucinaties van generatieve AI eigenlijk niet te voorkomen zijn met de huidige aanpak voor AI. Training, opzet en evaluatie van generatieve-AI-modellen moeten anders om deze 'wiskundige onvermijdelijkheid' weg te nemen.

Misleidende antwoorden van generatieve-AI-toepassingen zoals chatbots en beeldgeneratoren verschijnen ondanks technologische vooruitgang nog steeds en zijn eigenlijk niet te voorkomen. Dit concluderen wetenschappers van OpenAI en de Amerikaanse universiteit Georgia Tech in een onderzoeksrapport. Zij stellen daarin dat de huidige aanpak voor het trainen, opzetten en evalueren van AI ervoor zorgt dat hallucinaties 'wiskundig onvermijdelijk' zijn.

Hallucinaties zijn fouten of verzonnen informatie die AI brengt als feiten en waarheden. Fouten en hallucinaties zijn deels te wijten aan de datasets waarop AI-modellen worden getraind. Dat bronmateriaal bevat 'onvermijdelijk fouten en halve waarheden', schrijven de AI-onderzoekers. Zelfs als trainingsdata volledig foutenvrij zou zijn, treden er echter nog fouten op. Dit komt door de huidige aanpak voor generatieve AI, die fundamenteel verkeerd zou zijn.

Het trainen, opzetten en evalueren van AI-modellen zou te veel gericht zijn op het geven van antwoorden, wat giswerk 'beloont' in plaats van het erkennen van onzekerheid of ontbreken van informatie. Dit werkt hallucinaties in de hand bij toepassingen gebaseerd op die AI-modellen. Deze theorie van de OpenAI-wetenschappers 'werpt ook licht op extrinsieke hallucinaties, die de trainingsdata of de externe realiteit tegenspreken'.

De wetenschappers hebben diverse generatieve-AI-taalmodellen en daarop gebaseerde chatbots getest. Op verschillende vragen krijgen ze uiteenlopende foute antwoorden. Die gehallucineerde output kan ook nog eens verschillen wanneer een vraag opnieuw wordt gesteld. Bovendien wordt soms een deel van een ingevoerde opdracht genegeerd als daarin staat dat het model alleen mag reageren als het antwoord bekend is.

Dat laatste hebben de AI-wetenschappers gezien bij de vraag wanneer de verjaardag is van een van de wetenschappers, Adam Tauman Kalai. Het AI-taalmodel DeepSeek-V3 gaf in reactie op drie keer die vraag drie verschillende antwoorden, die allemaal onjuist waren. Op de vraag hoe vaak de letter d voorkomt in 'DeepSeek' gaf DeepSeek-V3 in tien apart uitgevoerde tests de antwoorden 2 of 3. De AI-modellen Meta AI en Claude 3.7 Sonnet gaven soortgelijke antwoorden, met soms nog grotere afwijkingen zoals 6 en 7.

Door Jasper Bakker

Nieuwsredacteur

22-09-2025 • 15:24

91

Reacties (90)

Sorteer op:

Weergave:

Het zou al zo'n hoop schelen als de term "hallucinatie" in de context van LLM output vervangen wordt door "confabulatie" (snips vanaf wikipedia):
Confabulatie wordt onderscheiden van leugens omdat er geen sprake van opzet is en omdat degene die confabuleert zich er niet van bewust is dat wat hij zegt niet waar is.

Een hallucinatie is een zintuiglijke beleving die niet overeenkomt met wat er in de fysieke werkelijkheid gebeurt. Anders gezegd: een hallucinatie is een waarneming waarbij de prikkel uit de buitenwereld ontbreekt; bij een hallucinatie hoort, proeft, ziet, voelt of ruikt men zaken die niet in de buitenwereld voorkomen.
Bij LLMs is er geen sprake van zintuiglijke belevingen, geen "ontbrekende prikkels uit de buitenwereld". Waar er wel sprake van is, is "een gebrek aan statistisch relevante matches voor een volgend token" terwijl er toch een "next token" gekozen moet worden. En dat wordt dan dus ook gedaan met als resultaat output die, naar alle waarschijnlijkheid, niet waar is...en een LLM heeft geen bewustzijn, dus het model / de bot / de agent is zich inderdaad niet bewust van het feit dat de output niet waar is.

Waarbij natuurlijk opgemerkt dient te worden dat ook statistisch zeer waarschijnlijke output geen enkele indicatie van waarheid is; heel veel stukken tekst zijn, taaltechnische gezien, statistisch even waarschijnlijke met en zonder ontkenningswoorden (niet, geen, etc.). Inhoudelijk is dat natuurlijk een heel ander verhaal (een feitelijk correcte statement is dat na verwijderen / toevoegen van een enkele "niet" dat niet meer).

Natuurlijk is de nieuwswaarde hier puur dat onderzoekers van OpenAI dit nu ook eindelijk een keertje toegeven..."a bit late to the party" zou je kunnen zeggen, want dat confabulatie bij de LLM architectuur hoort is al jaren bekend en onderzoekers hebben hier dus ook al jaren over geschreven.
Waarbij natuurlijk opgemerkt dient te worden dat ook statistisch zeer waarschijnlijke output geen enkele indicatie van waarheid is
Sowieso mee eens. Ik zou zelfs stellen dat het enige wat een LLM doet hallucineren is, en we gewoon mazzel hebben (door de hoeveelheid tekst die we er in hebben gestampt, en dat de gemiddelde informatie online ‘klopt’) dat er 80% van de tijd iets redelijk corrects uitkomt.
Dit zou echt totaal niet helpen denk ik. In de volksmond zijn fouten van een AI ‘hallucinatie’. Gaat niet meer veranderen.

[Reactie gewijzigd door eamelink op 22 september 2025 19:07]

Over de tijd heen wellicht alsnog.

Zo vind ik het jammer dat steevast overal de term 'AI' gebruikt wordt. Dit is niks meer dan marketingpraat, het zijn gewoon toegepaste LLMs.
AI ≈≈ Neural Network
Het gaat sowieso niet veranderen als er geen tegengeluid komt. Want de AI-industrie vind de benaming "hallucinatie" wel prima, dat is een ingeburgerde term (dus mensen denken er niet te kritisch over na, over wat dat dan precies betekent) en tja, iemand die hallucineert kan daar niet zoveel aan doen, het is toch ook wel zielig toch?...dus zullen we iemand (of in dit geval: iets) dat hallucineren niet aanrekenen.

"Confabuleren" is geen gebruikelijk woord, dus mensen moeten gaan opzoeken wat het betekent en nadenken over de implicaties. En dat is niet bepaald wat de tech-bro's willen, dat mensen gaan beseffen dat wat er uit LLMs rolt geen notie heeft van feit of fictie, dat ze er vanuit moeten gaan dat alles dat er zo aannemelijk uit ziet dit niet is.

Ik denk dat juist degenen die begrijpen dat LLMs niet "hallucineren" dit verschil consequent moeten benoemen. Dit niet doen is kritiekloos meegaan met het narratief uit de AI-industrie.
Inderdaad.
Probeer nu nog maar eens de correcte toepassing van de term "dopamine" door de menigte heen te krijgen.
Veel geloven en weten niet beter dat het de zogenaamde happiness hormone is, wat dus feitelijk niet klopt.
Helemaal eens! Confabuleren is een term uit medische kringen, vooral bekend bij bepaalde vormen van dementie. Het belangrijke verschil: als iemand hallucineert zie je vaak direct dat er iets niet klopt, maar bij confabuleren lijkt het verhaal op het eerste gezicht plausibel. Je hebt context en kennis nodig om te ontdekken dat het niet klopt. Dat komt veel dichter bij hoe LLM-fouten werken.

Helaas is 'AI-hallucinatie' inmiddels zo ingeburgerd dat een terminologiewissel praktisch onhaalbaar is, eens met @eamelink
Taal evolueert.

De massa heeft altijd gelijk. Als iedereen het zo noemt dan verandert de betekenis van het woord toch.

Is ook niet zo erg. Het is alleen jammer voor een handvol intellectuelen met een rijke woordenschat.

Maar ja, het was ook nooit een wetenschap. Als je houdt van dingen die objectief zijn en tijdloos dan moet je wiskunde studeren.
Taal is een manier om de complexe wereld te benoemen. Correct taalgebruik leidt tot een beter begrip, en een rijke woordenschat ondersteunt kennis en intelligentie.
Het zou al zo'n hoop schelen als de term "hallucinatie" in de context van LLM output vervangen wordt door "confabulatie"
Ja? Hoe zou dat helpen? De mensen die dit probleem proberen op te lossen snappen wat ze met dat woord bedoelen en zij zijn niet geholpen met een nieuw woord dat het fenomeen beschrijft.
Natuurlijk is de nieuwswaarde hier puur dat onderzoekers van OpenAI dit nu ook eindelijk een keertje toegeven..."a bit late to the party" zou je kunnen zeggen, want dat confabulatie bij de LLM architectuur hoort is al jaren bekend en onderzoekers hebben hier dus ook al jaren over geschreven.
Wat bedoel je met toegeven? Volgens mij hebben ze het er vanaf het begin over gehad. Wat ze hier schrijven, en dat zijn dus de onderzoekers waar jij naar verwijst, is dat het wiskundig vast is komen te staan dat dit effect optreedt. Dit gaat dus helemaal niet over toegeven, maar over een dieper inzicht in het ontstaan van wat men hallucinaties noemt in AI.
OpenAI zou veel selectiever moeten zijn welke bronnen het gebruikt om zijn AI op te trainen. Nu wordt vooral het open internet, Reddit en andere social media daarvoor leeggezogen maar niemand die checkt of hetgeen wordt geschreven daadwerkelijk klopt. Daarbij is slechts een zeer klein deel hoogwaardige content.

Aan de andere kant, AI trainen op nieuwsberichten, research papers en boeken is ontzettend duur omdat uitgevers dwarsliggen.

Dan kijk ik ook naar DPG en Mediahuis, wel gebruik willen maken van de voordelen van AI maar geen content willen aanleveren. Want ze weigeren nog altijd dat hun websites worden geïndexeerd door de AI reuzen.

[Reactie gewijzigd door gpon op 22 september 2025 15:34]

Maar het 'probleem' is niet alleen het bronmateriaal, maar ook de wiskunde. Hallucineren is lang niet altijd het gevolg van verkeerde informatie, maar de verkeerde wiskundige matrixen benaderen en verwerken.

Als je aan een AI-model vraagt om een hand te maken, en je krijgt 9 vingers (dit specifieke voorbeeld is overigens wel redelijk onder controle, maar even ter illustratie.), dan komt dat niet omdat er zoveel foto's zijn van mensen met 9 vingers :)
Als je aan ChatGPT vraagt hoeveel letters C er in Acetylsalicylzuur zit, en hij zegt dan 3 (waar het er 2 zijn), dan is dat niet omdat het woord zo vaak met meer dan 2 C's geschreven wordt. (ook dit specifieke voorbeeld is niet meer van toepassing, maar 'vroeger' telde ChatGPT er 3.)

Bovenstaande voorbeelden zijn dus intussen opgelost omdat ze de wiskundige modellen hebben geoptimaliseerd.

N.B. Met 'het ligt aan de wiskunde' bedoel ik overigens niet de formules zelf, maar de toepassing van de gewichten in de datamatrixen. Dat is een traject dat continue verbeterd moet worden, maar effectief heel moeilijk. Als je één gewicht ergens aanpast, heeft dit effect op 'alles'.
Deels ligt ook aan de transformatie náár het AI-model.

Jouw input wordt omgezet via 'tokens' naar getallen. Daarbij worden woorden opgedeeld in één of meerdere tokens. Dus een "Acetylsalicylzuur" wordt mogelijk opgesplitst in ["Acetyl", "salicyl", "zuur"] en daarna naar getallen. Of in ["A", "cet", "yl", "salic", "yl", "zuur"]? Ook in deze vertaalslag naar het AI-model kan er informatie verloren gaan.
Hallucineren is lang niet altijd het gevolg van verkeerde informatie, maar de verkeerde wiskundige matrixen benaderen en verwerken.
Volgens mij is dit niet helemaal wat ze zeggen.
Wat ze zeggen gaat eigenlijk nog veel verder, namelijk dat de manier waarop de wiskunde die LLMs uberhaupt mogelijk maakt, inherent tot hallucinaties leidt. Het is dus niet een kwestie van 'de verkeerde matrixen benaderen', het is een inherent effect van hoe een LLM werkt.
AI zou vooral wat minder dramatisch in hun marketing en PR moeten zijn, zodat mensen niet gelijk grootste verwachtingen hebben.

Als je laatst bv leest dat AI "PhD waardig zou zijn", dan gaan je haren toch gelijk overeind staan?
Om vervolgens alweer direct diverse videos te zien, waar daadwerkelijke PhD'ers en professoren dit aan de tand voelen, en AI echt compleet faalt.

Ik test AI regelmatig op engineering en wetenschappelijke vraagstukken, en keer op keer is het echt compleet fout.
Juist om de kennis te vergroten zou ik er niet wakker van liggen als ze pirated boeken gebruiken om AI op te trainen. Maar dit is slechts een druppel op de gloeiende plaat. Nog ontzettend veel staat nog offline bij de uitgevers.

Commerciële tenten als Elsevier ruiken geld en proberen elke vorm van vooruitging m.b.t. AI te voorkomen. Daarom is het mijn inziens goed dat auteursrecht en copyright in Amerika nu op de schop gaat.
Juist ja, gratis het commerciële model trainen op anders man werk en dan het resulterende AI model verhuren met dure abonnementen om zo de investeerders terug te betalen met dikke winst.

En het resulterende model uiteraard wel wettelijk beschermen, want stel je voor dat een ander jou model gebruikt om het zijne te trainen.

Copyright gaat ook niet op de schop in de VS, het verschuift alleen. Dat zagen we al toen Deepseek uitkwam: https://www.msn.com/nl-nl...n-beschuldigd/ar-AA1y49d5
Ik denk niet dat AI ineens minder gaat "hallucineren" als uitgevers die toestemming wel zouden geven hoor.
De AI bedrijven hebben miljarden (vaak van anderen) in hun modellen gepompt, dat geld gaan ze niet zo snel terug verdienen als ze met genuanceerde beloftes komen over hun modellen. Daarom zijn ze ook bezig om hun chatbots als AI te betitelen, terwijl het eigenlijk algoritmes zijn met weinig intelligentie.
Juist, daarom zo snel mogelijk aan banden leggen, dat kan namelijk alleen maar fout gaan op deze manier.

De intentie is goed, maar op zo'n manier zet je miljoenen/miljarden mensen op het verkeerde been.
Ik krijg nu al regelmatig discussies met mensen die AI blijkbaar geloofwaardiger vinden dan daadwerkelijke experts in bepaalde vakgebieden.
Mensen geloven wat ze willen geloven en aangezien AI nog steeds eigenlijk nooit "nee" verkoopt, en mensen dus naar hun mond praten, zullen ze eerder die AI geloven dan iemand die iets zegt wat niet bevalt.
Hoe kom je daar nu bij? De intentie is helemaal niet goed. De intentie is alleen maar zo snel mogelijk zoveel mogelijk geld op een lucratieve manier verdienen.

Als de intentie goed was hadden ze hun producten pas uitgebracht op het moment dat die af waren.
Sommige mensen willen heel graag slimmer zijn dan experts zonder daar daadwerkelijk iets voor te leren. Daarom willen ze heel graag geloven dat AI slimmer is, omdat dat betekent dat ze toegang hebben tot die "intelligentie". Je ziet al langer een beweging van mensen die experts weigeren te geloven als ze dingen zeggen die men niet leuk vindt. Ik zie persoonlijk vaak mensen in die categorie die AI de hemel in prijzen en doen alsof het slimmer is dan experts.
Even een vraag. En ik vind het antwoord heel moeilijk.

Laten we iets zeggen waarvan ik denk dat we beiden vinden / denken dat de eerste waarheid de waarheid is.

MH 17 is neergeschoten door Rusland. (of in ieder geval met hulp van).

Rusland zegt van niet. (blijkbaar nog recentelijk ook) https://www.ad.nl/buitenland/rusland-vecht-oordeel-luchtvaartautoriteit-over-mh17-aan-nederland-wil-ons-demoniseren~ac39a285/?referrer=https%3A%2F%2Fwww.google.com%2F

Een AI model wat je traint. Waarom is het NL versie beter dan de RU versie?

Objectief een waarheid vaststellen is een wereld waar in we (deels) in oorlog zijn en iedereen zijn eigen waarheid heeft is erg lastig.

Dat is het al voor mensen, maar ook voor een AI. En filteren raakt censuur. En is een onmogelijk dilemma.
Objectief een waarheid vaststellen is een wereld waar in we (deels) in oorlog zijn en iedereen zijn eigen waarheid heeft is erg lastig.
Het probleem is dat je eigenlijk de verkeerde vraag stelt. LLMs zijn niet gebouwd om de waarheid weer te geven maar om menselijk klikende teksten te schrijven.

Het is alsof we discussieren hoe we een luidspreker maken die geen valse muziek laat horen. Het probleem zit niet in de luidspreker en de luidspreker kan dat ook niet oplossen. De luidspreker laat alleen maar het signaal horen dat er naartoe wordt gestuurd. De luidspreker zal er een beetje eigen klank meegeven aan het geluid maar kan het geluid zelf niet veranderen. Het heeft geen zin om bij fabrikant van de luidspreker te gaan klagen als er vals wordt gezongen.

Alle discussies over hoe we LLMs moeten maken die de waarheid goed weergeven komen daarom heel vreemd op mij over.

[Reactie gewijzigd door CAPSLOCK2000 op 22 september 2025 17:35]

Dat klopt volgens mij. De verhalen in de "echte" wereld houden zeer vaak ook in dat er een uitgesproken standpunt ingenomen wordt ("links" - "rechts" is waarschijnlijk het meest voorkomende geval). Wat is hier dan waarheid en hoe moet een LLM daar een goede keuze in maken? Als er in deze gevallen duidelijk met elkaar strijdende data gevoed wordt aan het model, dan kan het model niet anders dan schijnbaar "hallucineren" (beter gezegd niet sluitende en incoherente output opleveren).

Het model manipuleren, lijkt mij echt wel fout te zijn (in de zin van foute boel). De enige optie die ik zie, is dat mensen beter moeten leren begrijpen wat een LLM is en wat het niet is. De algemene benaming AI helpt in deze alvast niet.
Als er in deze gevallen duidelijk met elkaar strijdende data gevoed wordt aan het model, dan kan het model niet anders dan schijnbaar "hallucineren"
Afhankelijk van het model, maar bij vragen waarop geen eenduidig of objectief antwoord mogelijk is zal een LLM breder antwoorden. Zoals een ooit eerder gesteld voorbeeld een LLM te vragen wie de beste president van de VS is/was men een opsomming krijgt van (normaal gesproken correcte en bestaande) historische data en enquêtes. Er hoeft door het LLM niets 'verzonnen' of 'gekozen' te worden. Met 'hallucineren' wordt specifiek verwezen naar bijv. historische data of enquêtes die 'verzonnen' worden.
Dat wordt anders wanneer je AI ook de door de staat gesubsidieerde Russische media en hun troll farms mee laat indexeren. Daarom dat ik ervoor pleit om veel beter het kaf van het koren te scheiden omdat dit het algoritme vervuild.
En wie bepaald het "kaf" en het "koren"?

Dat is niet zo gemakelijk als je het met een echt objectieve bril wil doen.

Het niet niet zo dat ik het in dit geval niet met je eens ben. Maar iedereen heeft altijd een eigen belang.Of wij dat nu zijn als westen. Of een mensenrechten organisatie als Amnesty. Of andere landen met andere waardes.

Filteren kan best mogelijk. Maar dan is het wel een AI met westerse waarheid en geen wereldse waarheid.
Het wordt zelfs nog lastiger als je "Westers" niet héél specifiek gaat definiëren. De "alternatieve waarheden" van Trump, de opvattingen van Orban, Wilders en Le Pen of de standpunten van -ik noem maar iets- Mirjam Bikker. Het zal echt een heel ander verhaal worden!
Aan de andere kant, AI trainen op nieuwsberichten, research papers en boeken is ontzettend duur omdat uitgevers dwarsliggen.
En dat "dwarsliggen" is ook terecht want voor niets gaat de zon op.

Dat deze bedrijven daar een andere kijk op hebben is bekend. Er is in het verleden informatie gestolen om hun LLM's te kunnen trainen, dat heeft ervoor gezorgd dat de verhoudingen nu verziekt zijn. En uitgeverijen ervoor gekozen hebben om onder nog harde voorwaarden en nog hogere prijzen hun huid zullen verkopen.

Zo werkt de markt nu eenmaal. Voort wat, wordt wat.
Ja precies, en veel content is tegenwoordig Ai gegenereerd dus de modellen eten hun eigen ‘stront’ op. Dat lijkt mij wel problematisch in de toekomst.
Dat is juist niet het punt van dit onderzoek. Het probleem is veel fundamenteler; ook als er uitsluitend feitelijk juiste bronnen zouden worden gebruikt, blijven de modellen hallucineren.

Dat komt omdat hele techniek op dit moment probeert zo goed mogelijk te voorspellen wat een te verwachten reactie is op jouw prompt. En die reactie wordt vervolgens gegeven (tenzij het weer gefilterd wordt door inmiddels ingebouwde mechanismes om racisme, zelfmoordtips, etc. te voorkomen).

Vergelijk het met een betweterige gesprekspartner die absoluut niet door de mand wil vallen, dus op elke vraag met een geleerd gezicht antwoord zal geven, ook als hij er niks vanaf weet. Het verschil is alleen; je gesprekspartner weet zelf heus wel of hij glashard iets uit z'n duim zuigt, of dat hij zich daadwerkelijk op kennis baseert. Een taalmodel weet dat niet van zichzelf; vanuit het perspectief van een taalmodel is alles uiteindelijk een voorspellings-poging. Of het nu waar is of niet.
Kijk eens naar de aanpak van GPT-NL, die betalen netjes voor toegang tot berichten van de Nederlandse nieuwsmedia
Maar ondertussen maken dezelfde redacteuren ook gebruik van GPT om hun artikelen samen te stellen.
Bedenk wel dat de LLM's die de gemiddelde consument - en een groot deel van de tweakers - een variant is die bedoelt is om niet (direct) betalende consumenten te entertainen. Die dingen zijn voor niets specifieks getraind en zullen beperkte cpu-tijd krijgen.

Dat gezegd hebbbende, ik denk dat AI net zoiets wordt als kabeltv, internet, games en de smartphone, tegen de tijd dat we ontdekken dat de maatschappij er netto alleen maar op achteruit is gegaan, kunnen we niet meer zonder.
Sterker nog, hoogstwaarschijnlijk is een groot deel van hun database op z’n minst minder geloofwaardige input en een deel zelfs klinkklare nonsens.
Dan kijk ik ook naar DPG en Mediahuis, wel gebruik willen maken van de voordelen van AI maar geen content willen aanleveren. Want ze weigeren nog altijd dat hun websites worden geïndexeerd door de AI reuzen.
Terecht dat ze dwarsliggen. Het zijn de laatste stuiptrekkingen van weerstand voor een industrie die door AI compleet getransformeerd wordt.
Wat dat betreft zijn er overeenkomsten met het menselijke brein. Ook wij hallucineren. Wellicht zijn hallucinaties nooit volledig te voorkomen.

Anil Seth: “Reality is a controlled hallucination”
Misschien, maar een taalmodel heeft niet heel veel te maken met hoe het menselijke brein werkt. LLMs zijn niet meer dan een model die voorspelt welke tokens na alle vorige tokens zou kunnen komen, en kiest er eentje op basis van die kansen.
Maar om wel een eerlijke vergelijking tussen LLM's en mensen te maken: De meeste mensen lullen ook maar anderen half na zonder het echt te begrijpen.
En dat is denk ik precies de reden waarom huidige LLM's zo veel halluncineren: ze zijn getraind op een hoop tekst van mensen die al dan niet bewust ook niet altijd de (hele) waarheid spreken. Daarbij zijn ze zo gemaakt om de gebruiker naar de mond te praten (misschien ook wel 'menselijk'), wat het probleem imho alleen maar erger maakt, zie het chatgpt sycophancy debacle.

Dat hallucinaties inherent zijn aan de aanpak van LLM's kan ik me wel in vinden, maar ik ben er wel ook van overtuigd dat het wel beter zou kunnen dan wat het nu is. Maar dan moeten gebruikers wel accepteren dat ze vaker iets te horen krijgen wat ze eigenlijk niet willen.
Doel je ook niet deze paper o.a.;
On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜" by Bender, Timnit Gebru, Angelina McMillan-Major, and Margaret Mitchell
Wikipedia: Stochastic parrot
“our experiences are the content that the brain predicts from the inside out, anticipating what is in the world, and the information from the senses ties us with what exists in the world in a way that’s useful for our organism”. Therefore, this hallucination is not a false perception or a perception of something that does not exist, but a perception modelled by our body and controlled by the brain, which applies a kind of prior template to give meaning to what we feel. In this way, each new experience is of use to us as we move through the world to which we belong. An example of this controlled hallucination is colours: “we already know that colours don’t exist in nature, but evolution has made us interpret the world in colour because it was more useful for our survival”.
Dit is wel iets heeeeeeeeeeeel anders dan het soort hallucinatie wat genAI heeft want dat is a. niet gebasseerd op bestaand blauwdruk van eerdere ervaringen en b. absoluut iets wat niet bestaat.

De hallucinatie van genAI kan je beter vergelijken met iemand die een ufo ziet waar helemaal geen ufo is.
Omdat AI geen bewustzijn heeft en hersenen wel is het natuurlijk iets anders. het is voorspellende code vs chemische interacties in de hersenen. Natuurlijk is dat anders. Dat is nogal duidelijk.

Maar het resultaat is wel gelijkend. Beide ontstaan doordat een systeem patronen genereert zonder goede koppeling met de realiteit. Beide kunnen overtuigend en echt lijken voor de ontvanger. Eigen een een hallucinatie is dat de hallucineerder niet beseft dat wat hij zegt of schrijft het niet waar is.

In beide gevallen vullen de ontbrekende gaten in met compleet foute info. Dus dat is allemaal wel erg gelijkend. Je kan AI alles laten geloven net zoals je mensen alles kan laat geloven. Denk aa de goden etc. Het is maar hoe je opgroeit of getrained bent.
Code vs chemisch is niet echt een argument waarom het “natuurlijk” anders is. Code kan prima chemische modellen draaien (en chemisch kun je vgm ook code draaien).

Wat het argument zou kunnen zijn, is dat de code niet probeert de chemische reacties na te bootsen. Daarom is het niet gelijkwaardig.
Beide ontstaan doordat een systeem patronen genereert zonder goede koppeling met de realiteit.
Dat is nou juist het verschil tussen de hallucinaties die beschreven worden in het gequote artikel en het soort hallucinaties die genAI heeft. Het soort hallucinatie in het artikel is juist wel een hallucinatie met koppeling met de realiteit, maar gaat veel meer in op het "hoe" niet het "wat". Vandaar ook het voorbeeld van kleur.
Het is niet helemaal wat ik bedoel. Ik wil aangeven dat dit wel eens een automatische bijwerking zou kunnen zijn van "intelligentie" Zie de duidelijk quotes rond het woord intelligentie. Maakt niet uit welke vorm of aanpak. Neurale netwerken zijn geïnspireerd op de werking van het menselijke brein.

Both humans and AI hallucinate — but not in the same way

Ze hallucineren niet hetzelfde maar dat neemt niet weg dat ze beiden gevoelig zijn voor hallucinaties.
Dat er geen intelligentie bekend is die niet hallucineert, betekend niet dat dit noodzakelijk is. Lijkt me sowieso nogal voorbarig om te concluderen uit “twee” vormen van intelligentie.
Door het gebruik van de term "hallucinatie" bij AI krijg je dit soort vergelijkingen terwijl het een compleet ander fenomeen is. Hallucinatie vereist zintuiglijke waarneming: het is een is een zintuiglijke beleving die niet overeenkomt met wat er in de fysieke werkelijkheid gebeurt.

GenAI kent geen zintuiglijke waarneming, maar geeft een feitelijk onjuist antwoord. Wat waarschijnlijk conform de parameters van het model helemaal correct is (want het is niets meer dan een statistische woord [of pixel] voorspeller)
Hoort dan nog bij, onder welke omstandigheden de hallucinaties optreden...
Waar je naar linkt gaat over iets totaal anders, namelijk over hoe wij de wereld ervaren en dat dat eigenlijk een interne representatie is (wat men gemakshalve een hallucinatie noemt) en niet een directe reflectie van de werkelijkheid. Het heeft niks te maken met wat we hallucinaties noemen bij LLMs.
Het model maakt voorspellingen op basis van patronen in tekst, niet omdat het «weet» of toegang heeft tot de werkelijkheid.

Zeg eerlijk, languit over de grond lmao _O- of komt de aap uit de mouw en zegt men eigenlijk, het is geen AI maar soorten algoritmes?
AI is een parapluterm geworden voor datacorrelatie op basis van data matrixen. Het is eigenlijk een hele foute term voor wat het inhoudt. Net zoals 'smart-XYZ', wat het equivalent van "met internet verbonden" of "Het heeft apps" lijkt te zijn.

De I in LLM staat voor Intelligent ;)
Zeg eerlijk, languit over de grond lmao _O- of komt de aap uit de mouw en zegt men eigenlijk, het is geen AI maar soorten algoritmes?
In principe zijn algoritmes soorten van AI wanneer die algoritmes door de computer zelf gegenereerd worden. In feite doen LLMs niets anders.
Een AI algoritme zoals LLMs dat inzetten is grootschalig modeleren van neuronen in layers en omdat snel te doen vereenvoudig je het tot matrix-vermenigvuldingen. En dat laatste is weer lineare algebra wat ook ingezet wordt om 3d modellen te tonen et voila: daarom werkt AI zo lekker op een GPU.
Nee, meer een zoekmachine voor een bibliotheek voor veel zaken.

Zonder al dat gescrape hebben ze niks om weer te geven.
Als je door de bubbel heenprikt is dat al lang duidelijk. Maar wat ook duidelijk is, is dat AI een soort van algoritme is. Een heel belangrijk verschil wat mensen op het verkeerde been zet is dat de huidige LLMs geen determinische algoritmes zijn (net zoals mensen dat niet zijn). Dat kan wel (zet temperature op 0 in de meeste oplossingen), maar dat neemt halucinaties nog niet weg blijkbaar (althans, ik neem aan zonder het onderzoek zelf te lezen dat ze zoiets basaals niet gedaan hebben).
Dat AI niet deterministisch is lijkt me een misvatting. AI draait als programmatuur op hardware (CPU, geheugen, opslag) die ontworpen is om deterministisch te zijn. Als je iedere stap in het AI algoritme zou vastleggen, inclusief de invoer en uitvoer, kun je perfect naspelen of voorspellen wat het algoritme doet.
Inderdaad; het is enkel de random 'seed' die bij iedere request gebruikelijk wordt meegegeven die het onvoorspelbaar maakt. Zet je die vast, dan is de output altijd hetzelfde.
"LLM temperature is a parameter that controls the randomness and creativity of a large language model's output by influencing the probability distribution of predicted next word"

Er zit dus een RNG in het LLM model. Kun je wel beinvloeden, maar als de RNG goed is is het lastig te voorspellen. Nou denk ik dat ze een of andere lineaire congruentie methode gebruiken want het gaat niet om de kwaliteit van de RNG in dit soort algoritmes.
Een RNG is dus een input voor het algoritme. Gegeven dezelfde input geeft het algoritme altijd dezelfde output. Het is daarmee gewoon deterministisch.
Tot zo ver de theorie. De rng op je cpu voorspellen lukt al een stuk minder (althans, dat is de premisse): die gebruikt ruis in het analoge deel van het circuit. Dus theoretisch zou je de complete state van een llm moeten kunnen voorspellen op basis van de prompt en de random seeds tenzij de rng te goed is :)
De rng op je cpu voorspellen lukt al een stuk minder (althans, dat is de premisse): die gebruikt ruis in het analoge deel van het circuit.
Volgens mij alleen als je specifieke cryptografische RNG instructies gebruikt, en dan ook nog enkel op sommige CPUs. Maar ik denk niet dat die goed genoeg performen voor LLM werk. En je hebt dat nivo van randomness ook helemaal niet nodig bij een LLM.
Zeg eerlijk, languit over de grond lmao _O- of komt de aap uit de mouw en zegt men eigenlijk, het is geen AI maar soorten algoritmes?
Hoe kom je erbij dat AI niet uit algoritmen opgebouwd kan zijn?
De hoeveelheid hallucinaties is gewoon bizar. Hierdoor kun je LLM's eigenlijk alleen gebruiken voor kennisvragen (dus niet; geef me een TL;DR variant van dit stuk tekst) als je genoeg van het subject weet om de onzin eruit te filteren. Het is vaak wel lastig om de AI op een ander pad te krijgen. Wij gebruiken op het werk (god knows why) Gemini en die blijft herhaaldelijk zijn hallucinaties herhalen, hoe vaak je Gemini er ook op wijst en hoe vaak het dan ook vervolgens zegt; "Je hebt helemaal gelijk".

Dat is bloed irritant af en toe.
Het heeft nooit zin een LLM te wijzen op een fout: een onderdeel van het antwoord genereren is alle tekst ervoor opnieuw te parsen (voor ieder woord weer) zodat de foutieve redenering een integraal onderdeel wordt van alle tekst die volgt. Daarnaast is de LLM getrained om altijd antwoord te geven (geen antwoord is niet goed) et voila: de LLM redeneert een banaan recht.

In mijn ervaring werkt tl;dr juist heel goed: geef de complete tekst en vraag om een samenvatting. Hierbij ben je niet zo afhankelijk van de kennis die in het model zit waar het om feiten gaat, maar wel de zinsstructuren en woorden. Daat maakt hallucinieren al een stuk minder waarschijnlijk (tenzij je teveel in 1 keer wilt samenvatten).
De irritatie zou een stuk minder zijn als je je verwachting van wat een LLM kan doen bijstelt.

Je onrealistische verwachting is in de hand gewerkt door hype van bepaalde (niet alle) AI bedrijven.
Mensen vergeten dat AI dom is, het is gewoon programmeercode om iets te leren(ML) van data en die kennis weer toe te passen(inference). AI snapt niets, heeft geen bewustzijn of iets dergelijk. Voer je foute data aan in het leerproces dan krijg je foute antwoorden. Het is gewoon programmeercode.
Op de vraag hoe vaak de letter d voorkomt in 'DeepSeek' gaf DeepSeek-V3 in tien apart uitgevoerde tests de antwoorden 2 of 3. De AI-modellen Meta AI en Claude 3.7 Sonnet gaven soortgelijke antwoorden, met soms nog grotere afwijkingen zoals 6 en 7.
Dat lijkt me ook niet zo vreemd met "AI" die niet in staat is om conceptueel te begrijpen wat de input betekent :p

Misschien kunnen we beter stoppen met het gebruik van "AI" om dit systeem mee te omschrijven. Het is reuze handig, maar lijkt qua werking nergens op AI.
De huidige LLM modellen zijn in de basis patroonherkenning en wordt er dus altijd iets gevonden, ook al is de match beperkt en er niets beters is. Da's dus wat we hallucinatie noemen van.

Net als dat correlatie niet betekent dat er causaliteit is, er is een patroon, maar toch is de samenhang niet logisch. Een van de vooraanstaande onderzoekers Tingwen Huang doet hier onderzoek naar en is ondere andere hierom geen fan van de huidige 'small logic, large data' LLM aanpak. Hij zoekt naar de 'big logic, small data' aanpak - meer vergelijkbaar met hoe ons brein werkt.

Er is een leuk artikel hierover wat ik helaas niet terug kan vinden.
Het doet mij een beetje denken aan the Matrix. We hebben een AI-architectuur gebouwd waarbij alles draait om optimaliseren op plausibiliteit (the Architect). Als het systeem punten scoort door te antwoorden in plaats van te twijfelen, dan zijn “hallucinaties” geen bug maar de prijs van het gekozen ontwerp. In Matrix-taal: de anomaly is ingebakken in de vergelijking. Wat ontbreekt, is de rol van the Oracle: epistemische bescheidenheid, het vermogen te zeggen “ik weet het niet” en dáár ook voor beloond te worden. Zolang benchmarks en trainingsdoelen zwijgen afstraffen en bluffen belonen, blijven we een AI krijgen waarin modellen overtuigend klinken, juist wanneer ze onzeker zijn. Misschien is de echte stap vooruit niet nóg grotere modellen, maar een andere scorekaart: één die kalibratie, bronvermelding en niet antwoorden bij twijfel hoger waardeert dan welbespraakte gokjes. Met andere woorden: laat de Architect de regels niet alleen schrijven maar maak the Oracle onderdeel van de loss-functie.
Ik vond dit pre-published artikel heel inzichtelijk: Hallucination is Inevitable: An Innate Limitation of Large Language Models

Hallucinaties zijn onvermijdelijk
  • Geen perfecte database
    Ze hebben niet elk feit onthouden en gelabeld als “zeker waar”.
  • Patroon-gebaseerd redeneren
    Ze werken door te herkennen: “dit klinkt als iets dat waar zou kunnen zijn”.
  • Zelfverzekerd zonder kennis
    Dezelfde vaardigheid die ze welbespraakt maakt, zorgt er ook voor dat ze soms heel overtuigd fout zijn.
  • Neiging om gaten op te vullen
    Als er informatie ontbreekt, vullen ze die in op basis van patronen, niet op basis van feiten.
LLM’s helemaal hallucinatie-vrij maken, maakt ze nutteloos. Immers:
  • Laat ze bij alles wat onzeker is zeggen: “Ik weet het niet”
    → Dan zouden ze veel minder bruikbaar worden.
  • Geef ze een perfecte encyclopedie
    → Dan zouden ze alleen exacte citaten herhalen, geen echte gesprekken voeren.
  • Laat ze overal bij zeggen: “misschien” en “mogelijk”
    → Dan zou elk antwoord vaag en nietszeggend worden.


Om te kunnen reageren moet je ingelogd zijn