Onderzoekers van OpenAI stellen dat hallucinaties van generatieve AI eigenlijk niet te voorkomen zijn met de huidige aanpak voor AI. Training, opzet en evaluatie van generatieve-AI-modellen moeten anders om deze 'wiskundige onvermijdelijkheid' weg te nemen.
Misleidende antwoorden van generatieve-AI-toepassingen zoals chatbots en beeldgeneratoren verschijnen ondanks technologische vooruitgang nog steeds en zijn eigenlijk niet te voorkomen. Dit concluderen wetenschappers van OpenAI en de Amerikaanse universiteit Georgia Tech in een onderzoeksrapport. Zij stellen daarin dat de huidige aanpak voor het trainen, opzetten en evalueren van AI ervoor zorgt dat hallucinaties 'wiskundig onvermijdelijk' zijn.
Hallucinaties zijn fouten of verzonnen informatie die AI brengt als feiten en waarheden. Fouten en hallucinaties zijn deels te wijten aan de datasets waarop AI-modellen worden getraind. Dat bronmateriaal bevat 'onvermijdelijk fouten en halve waarheden', schrijven de AI-onderzoekers. Zelfs als trainingsdata volledig foutenvrij zou zijn, treden er echter nog fouten op. Dit komt door de huidige aanpak voor generatieve AI, die fundamenteel verkeerd zou zijn.
Het trainen, opzetten en evalueren van AI-modellen zou te veel gericht zijn op het geven van antwoorden, wat giswerk 'beloont' in plaats van het erkennen van onzekerheid of ontbreken van informatie. Dit werkt hallucinaties in de hand bij toepassingen gebaseerd op die AI-modellen. Deze theorie van de OpenAI-wetenschappers 'werpt ook licht op extrinsieke hallucinaties, die de trainingsdata of de externe realiteit tegenspreken'.
De wetenschappers hebben diverse generatieve-AI-taalmodellen en daarop gebaseerde chatbots getest. Op verschillende vragen krijgen ze uiteenlopende foute antwoorden. Die gehallucineerde output kan ook nog eens verschillen wanneer een vraag opnieuw wordt gesteld. Bovendien wordt soms een deel van een ingevoerde opdracht genegeerd als daarin staat dat het model alleen mag reageren als het antwoord bekend is.
Dat laatste hebben de AI-wetenschappers gezien bij de vraag wanneer de verjaardag is van een van de wetenschappers, Adam Tauman Kalai. Het AI-taalmodel DeepSeek-V3 gaf in reactie op drie keer die vraag drie verschillende antwoorden, die allemaal onjuist waren. Op de vraag hoe vaak de letter d voorkomt in 'DeepSeek' gaf DeepSeek-V3 in tien apart uitgevoerde tests de antwoorden 2 of 3. De AI-modellen Meta AI en Claude 3.7 Sonnet gaven soortgelijke antwoorden, met soms nog grotere afwijkingen zoals 6 en 7.