Door Arnoud Wokke

Redacteur Tweakers

Groot probleem met nieuwe AI-modellen: ze vertellen je meer onzin

11-05-2025 • 06:00

235

Hallucineren kun je leren

Toen ChatGPT uitkwam in 2022, deelde hij Gouden Kalveren uit aan Tweakers-redacteurs – en dat was lang niet de heftigste hallucinatie. Een paar maanden later demonstreerden Google en Microsoft hun AI-chatbots, die onder meer cafés aanraadden die nooit hebben bestaan of allang niet meer bestonden. Nu kunnen AI-chatbots zaken op internet opzoeken en kunnen ze bovendien redeneren, waardoor ze hun eigen antwoorden nog een keer nalopen. Ze hallucineren minder, toch? Toch? Nee.

Het probleem met hallucinaties

Hallucinaties zijn een groot probleem voor AI-chatbots sinds het bestaan ervan. Hallucineren is het effect waarbij een groot taalmodel feiten of omstandigheden verzint en die met grote zekerheid opschrijft en laat zien aan gebruikers.

Hallucinaties chatbots taalmodellen GPT

Er zijn meerdere soorten hallucinaties. De eerste is een reproductie van incorrecte trainingsdata. Als genoeg van het bronmateriaal een claim bevat die evident niet waar is, bijvoorbeeld dat je vierkante ogen krijgt van te veel kijken naar een scherm, dan zal een groot taalmodel die leugen mogelijk herhalen – of misschien niet, dat hangt af van het AI-model en de instellingen.

De andere soort hallucinatie komt voort uit een gebrek aan kennis. Dan zal een groot taalmodel proberen om die kennis aan te vullen met waarschijnlijk klinkende woorden, ongeacht of die kloppen of niet. Hoe ver een taalmodel daarin gaat, hangt wel af van de instellingen. Daar komt bij dat een taalmodel gecomprimeerd is. Het is getraind op petabytes aan data, maar het uiteindelijke model moet veel kleiner zijn. Dat maakt van grote taalmodellen een gecomprimeerd bestand, waarin veel details zijn weggevallen.

Veel taalmodellen hebben instellingen voor de 'creativiteit' of 'temperatuur'. Dat is handig, want veel mensen gebruiken chatbots op basis van grote taalmodellen als brainstormhulp en dan is die creativiteit heel welkom. Zet hem op minder creatief of de temperatuur lager en er komen ook minder hallucinaties uit. Die creativiteit en hallucinaties komen ook door de manier waarop een taalmodel werkt, met een kansberekening voor het volgende woord. In sommige gevallen is het model heel zeker over wat een goed volgend woord is, maar soms zijn er veel woorden met allemaal een gelijke, kleine kans. Dan is het redelijk willekeurig wat er volgt.

Het probleem is uiteindelijk fundamenteel: het gebruikt een neuraal netwerk en statistiek om antwoorden te geven, maar het heeft geen ingebouwd systeem om waarheid en leugen van elkaar te onderscheiden. De oplossing, zo dachten bedrijven als Google, OpenAI en Anthropic, lag in toegang geven tot het web en in redeneren.

Toegang geven tot het web geeft de mogelijkheid om informatie te vinden die niet in het model zelf zit. Met het uitlezen van zoekresultaten en webpagina's heeft het AI-model ineens toegang tot recente en hopelijk kloppende informatie.

Redeneren voegt een extra stap toe, namelijk het gebruik van de output van een eerste stap als input voor het controleren ervan. Redeneermodellen doen langer over antwoorden, maar de gedachte is dat het antwoord daarna nuttiger, beter gestructureerd en feitelijker is.

ChatGPT: afbeelding gemaakt met prompt 'maak een andere afbeelding van hallucineren'
ChatGPT: afbeelding gemaakt met prompt 'maak een andere afbeelding van hallucineren'

Hoe we zien dat hallucinaties toenemen

Hoe weten we dat nieuwere redeneermodellen meer hallucineren? Dat kun je uiteraard zien aan benchmarks. Nu zeggen benchmarks nooit alles, maar als je cijfers erbij pakt van bijvoorbeeld OpenAI is dat goed te zien.

Dataset Metric o1 o3 o4-mini 4o
SimpleQA Precisie (hoger is beter) 47% 49% 20% 43%
Hallucinaties (lager is beter) 44% 51% 79% 48%
PersonQA Precisie (hoger is beter) 47% 59% 36% 50%
Hallucinaties (lager is beter) 16% 33% 48% 30%

Deze cijfers komen bij OpenAI vandaan. SimpleQA is een set van vierduizend feitelijke vragen, bij PersonQA gaat het om feiten over personen. OpenAI concludeert hieruit dat o3 simpelweg méér claimt. Er kloppen meer antwoorden, maar er zijn ook meer antwoorden die het model bij elkaar heeft gehallucineerd. Andere modellen zeggen vaker dat ze het niet weten.

Het is niet alleen bij OpenAI. Het bedrijf Vectara gebruikt een benchmark waarbij AI-modellen nieuwsberichten moeten samenvatten. Daarbij ligt het percentage hallucinaties uiteraard niet zo hoog, want er is feitelijke informatie waarop ze zich kunnen baseren. Het voordeel is dat het bruikbaar is bij modellen van diverse bedrijven, want SimpleQA en PersonQA zijn door OpenAI gemaakte benchmarks.

Het leaderboard staat op GitHub. We hebben die data, van 29 april, gepakt en de scores van AI-modellen vergeleken met directe voorgangers. Google Gemini 2.0 Flash hallucineerde in 0,7 procent van de gevallen, 2.5 Flash doet dat in 1,3 procent van de gevallen; daarmee komt de score uit op 0,6 procentpunt.

OpenAI doet het ook niet best met GPT 4.1 tegenover het oudere 4.5. Claude 3.7 doet het wel net iets beter dan 3.5 Sonnet, maar het is maar marginaal. De rest van de bekende AI-modellen doet het minder op deze benchmark, waaronder Llama van Meta en het Chinese DeepSeek. Het is, zo kun je zeggen, een bredere trend in de AI-industrie.

Waarom modellen meer hallucineren

Google Gemini: prompt maak een afbeelding van hallucineren
Google Gemini met prompt 'maak een afbeelding van hallucineren'

Waarom dit gebeurt, is kort gezegd niet exact bekend. AI-modellen zijn niet gemaakt van door mensen ontwikkelde code, ze zijn getraind. Dat betekent dat we niet goed weten hoe het model precies tot keuzes komt en dus ook niet waarom hallucinaties nu weer toenemen. De Vectara-benchmark laat ook zien dat redeneermodellen niet per se preciezer zijn. Ze denken langer na, maar in het reproduceren van feitelijke informatie zijn ze niet per se beter.

Sterker nog: die denkstappen kunnen er juist voor zorgen dat AI-modellen meer vasthouden aan eerder gemaakte fouten, zo ontdekten onderzoekers. "Hoewel redeneren modellen in staat stelt om uitgebreidere redeneerprocessen te produceren, kan de nadruk op tussenliggende redeneerstappen onbedoeld hallucinaties en geaccumuleerde fouten veroorzaken, waardoor het vermogen van modellen om sluitende redeneerprocessen te produceren, wordt beperkt."

De tussenstappen kunnen een AI-model ook ertoe aanzetten om minder vaak 'weet ik niet' als antwoord te geven. In plaats daarvan doet het een aanname en borduurt daarop voort. Vervolgens keert het AI-model niet meer terug bij die eerste aanname en verzint het daar een heel verhaal omheen. Die theorie is ook te staven met cijfers: OpenAI zag al dat o3 zelden meer zegt dat het iets niet weet. In plaats daarvan beweert het altijd iets, waardoor het model vaker juiste én foute antwoorden geeft. Bovendien zijn er door het zetten van al die tussenstappen meer lege gaten in de kennis die het AI-model zal willen opvullen.

Een ander element dat invloed zou kunnen hebben, is het feit dat veel AI-modellen multimodaal zijn geworden en dus meerdere soorten input moeten kunnen verwerken. Dat geeft veel meer manieren om te hallucineren. Zo kan het zaken in beelden zien die er niet zijn en dat is ook wat er geregeld gebeurt.

Waarom meer hallucinaties erg zijn

Het vertrouwen in en de betrouwbaarheid van AI-modellen zijn belangrijk. Niet alleen zijn er veel gebruikers die zijn gaan leunen op AI-modellen voor allerhande vragen en taken, ook binnen bedrijven is de afhankelijkheid van kunstmatige intelligentie steeds meer toegenomen.

Duolingo: explain my mistake
Duolingo: explain my mistake

Dat is niet altijd ten goede. Toen Duolingo onlangs aankondigde om freelancers te vervangen door AI, waren de reacties niet positief. Veel gebruikers van de app wezen erop dat er veel fouten zitten in de door AI gegenereerde content voor de app om talen en andere dingen te leren. Duolingo erkende dat zelf ook. "We kunnen niet wachten tot de technologie honderd procent perfect is. We doen dit nu liever snel en dan accepteren we kleine klappen aan de kwaliteit."

Als AI-modellen meer gaan hallucineren, zijn die klappen die de kwaliteit krijgt ineens veel groter. Daarbij kan een kleine achteruitgang al grote gevolgen hebben. Als een AI-model ineens in plaats van in 1 procent van de gevallen in 1,5 procent van de gevallen hallucineert, dan is er 50 procent méér content die bij elkaar verzonnen is.

Daar komt bij dat gebruikers en bedrijven doorgaans aannemen dat nieuwe versies op zijn minst even goed zijn als voorgaande versies. Dat is natuurlijk niet altijd waar, maar doorgaans – zeker in de explosieve fase waarin generatieve AI nu al een paar jaar zit – is dat een veilige aanname. Dat een nieuw AI-model dus minder presteert dan een vorig model, is een onverwacht fenomeen.

Het vertrouwen van gebruikers is ook belangrijk. Bij het begin van ChatGPT eind 2022 waren de hallucinaties talrijk en makkelijk te spotten. Sindsdien is het aantal hallucinaties sterk afgenomen en wat AI-modellen verzinnen, is daardoor ook minder makkelijk te spotten. Als er ineens meer hallucinaties komen, schaadt dat het vertrouwen dat er misschien wel is.

Daarnaast zijn er de logische gevolgen van hallucinaties. Veel gebruikers zijn gaan leunen op AI-chatbots om zaken op te zoeken en dat is te zien in statistieken. Die krijgen dus af en toe onzin te zien en niet iedereen zal dat weten.

Tot slot

De vraag blijft wat we gaan merken van de achteruitgang van AI-chatbots in de praktijk. In mijn dagelijkse omgang met AI-chatbots de afgelopen weken had ik dit effect niet gemerkt, maar dat kan ook komen door de specifieke prompts of opdrachten die ik geef. Op andere gebieden is het wellicht wel merkbaar.

En het is eerder gebeurd: GPT-4 leek beter te functioneren toen het uitkwam dan na een paar maanden, zo zeiden veel gebruikers. Achteruitgang is dus een bijzonder, maar niet uniek fenomeen. En zelfs met meer hallucinaties blijven AI-modellen voor veel gebruikers nuttige functies vervullen. Hallucineren is vervelend, maar voor veel gebruikers geen reden om het Gouden Kalf met het badwater weg te gooien.

Redactie: Arnoud Wokke Eindredactie: Monique van den Boomen Headerafbeelding: ChatGPT met prompt 'maak een afbeelding van hallucineren'

Reacties (224)

224
220
133
8
0
72

Sorteer op:

Weergave:

Hallucinaties zijn een groot probleem voor AI-chatbots sinds het bestaan ervan. Hallucineren is het effect waarbij een groot taalmodel feiten of omstandigheden verzint en die met grote zekerheid opschrijft en laat zien aan gebruikers.
Het probleem zit niet in de techniek maar bij de gebruikers, de verkopers en de media (inclusief dit artikel).
De verwachtingen aan LLM's zijn onrealistisch hoog en gewoon onjuist.
Waarom verwacht je dat een taalmodel feiten kent? Een taalmodel doet taal, niet meer.

Hallucineren is geen probleem van LLM's, het is zo ongeveer wat ze doen. De taak van LLM's is een tekst maken die taalkundig goed in elkaar zit, niet om correcte antwoorden te geven. Een LLM zal al snel de voorkeur geven aan iets dat goed klinkt boven iets dat correct is.

Hallucineren een probleem noemen is als klagen dat suikertaart niet gezond is. Suikertaart is lekker omdat er zoveel suiker en vet in zit, ooit was dat goed voor ons maar nu hebben we daar te veel van. Helaas is onze smaak in een andere tijdperk ontwikkeld waardoor wat we lekker vinden niet hetzelfde is als wat gezond is voor ons. Als we een gezonde(re) taart willen moeten we een taart maken zonder vet en suiker, zolang we er net zo veel suiker en vet in blijven stoppen zullen we er dik van blijven worden.

Klagen over hallicunaties van LLM's komt dus op mij over als klagen dat je niet afvalt van een suikertaartdieet. Je zit toch op dieet dus waarom val je niet af? Zo werkt ons lichaam niet. Ik zeg niet dat het onmogelijk is om een taart te maken die gezond én lekker is maar dan heb je andere ingredienten nodig dan suiker en vet.
Sorry, maar dit is een beetje muggenziften: je gaat nu de fout bij iedereen behalve de techniek leggen, en maakt een irrelevant punt dat het 'taalmodellen' zijn en we dus zogezegd geen enkele andere verwachting mogen hebben.

"De taak" van een LLM is simpel: dat is waarvoor hij wordt ingezet, niet zoals jij zegt "om een tekst te maken die taalkundig goed in elkaar zit". Dat doet de naam vermoeden en dat is wat jij nu zegt, maar dat hoeven ze helemaal niet te doen: als jij een LLM traint op whatsappgesprekken, dan zal het resultaat allerminst taalkundig goed in elkaar zitten (in zover taal al iets is met strakke vaste regels). Het zal ook nieuwe elementen bevatten zoals emojis. Want zoals je al zegt: een LLM kent geen feiten, maar dat geldt evenmin voor spelling en grammatica: dat kent een LLM niet. Sure, LLMs kunnen verrijkt worden met filters voor taal en grammatica om meer zekerheid te geven dat ze taalkundig correcte resultaten produceren, maar dat is niet inherent aan een LLM.

Als we het echt enkel over de techniek mogen hebben en wat die precies doet (daar stuur jij wat op aan), dan komt 'taalkundig correct' nergens voor in wat LLMs doen. Het enige wat ze doen is tekst voorspellen op een manier die in lijn ligt met hun trainingsdata.

Is die trainingsdata taalkundig correct, dan zal het resultaat vermoedelijk taalkundig correct zijn (maar daarvoor heb je geen garantie).
Is de trainingsdata een hele bak feitelijke informatie, dan zal het resultaat vermoedelijk feitelijk correcte informatie bevatten (maar daarvoor heb je geen garantie).
Is de trainingsdata wookiepedia, dan zal het resultaat vermoedelijk informatie bevatten die in lijn is met Star Wars lore (maar daarvoor heb je geen garantie).

Maar goed: wat is dan de taak van een LLM, en wat mogen onze verwachtingen zijn? Ik ben het met je eens dat de verwachtingen te hoog zijn (logisch: de silicon valley cowboys moeten hun miljarden investeringen krijgen, en dus beloven ze veel meer dan geleverd kan worden). Maar is het te veel gevraagd om een LLM te verwachten die geen totale onzin hallucineert? Ik denk het niet: een LLM gebruiken om een betere helpdesk chatbot te maken, die gebruik maakt van feitelijke kennis van een webshop, diens producten, en het profiel en bestellingen van de klant, dat kan een LLM prima. Verwachten dat je daarmee nooit meer 1 werknemer op de helpdesk moet zetten is dan wel weer onrealistisch (vooral ongewenst denk ik), maar het lijkt me te kort door de bocht om te zeggen "een LLM is gemaakt voor taal dus die kan enkel voor taalkundige taken worden ingezet": de huidige toepassingen tonen aan dat het echt wel meer is dan dat.

[Reactie gewijzigd door kiang op 11 mei 2025 17:32]

Sorry, maar dit is een beetje muggenziften: je gaat nu de fout bij iedereen behalve de techniek leggen, en maakt een irrelevant punt dat het 'taalmodellen' zijn en we dus zogezegd geen enkele andere verwachting
mogen hebben. Waarom precies, omdat je geen kritiek op de techniek wilt lezen?
Waarom is het redelijk om andere verwachtingen te hebben?
"De taak" van een LLM is simpel: dat is waarvoor hij wordt ingezet, niet zoals jij zegt "om een tekst te maken die taalkundig goed in elkaar zit".
Dat betekent niet dat het een geschikt middel is voor iedere taak. Als ik een schroevendraaier gebruik om spijkers in te slaan dan kan ik wel zeggen dat de taak van een schroevendraaier om spijkers in te slaan.
Dat doet de naam vermoeden, dat is wat jij nu zegt, maar dat hoeven ze helemaal niet te doen: als jij een LLM traint op whatsappgesprekken, dan zal het resultaat allerminst taalkundig goed in elkaar zitten.
Beetje OT, maar dat ligt er nogal aan of je prescriptief of descriptief over taal denkt. Oftewel, moet taal de regels volgen, of moeten regels taal goed verklaren? Een LLM leert niet hoe taal werkt volgens de lesboekjes maar hoe mensen taal echt gebruiken. Als je een LLM op WA traint dan zal een LLM scrhijven zoals op WA gebruikelijk is.
Is die trainingsdata taalkundig correct, dan zal het resultaat vermoedelijk taalkundig correct zijn (maar daarvoor heb je geen garantie).
Is de trainingsdata een hele bak feitelijke informatie, dan zal het resultaat mogelijk feitelijk correcte informatie bevatten (maar daarvoor heb je geen garantie).
Nee, die twee kun je niet zo vergelijken.
Taalkunde is op een bepaalde manier het vastleggen van patronen in onze taal, hoe logisch of onlogisch die ook zijn. Dat is meer een kwestie van statistiek dan van logica. Correlatie, geen causatie.
In taal is wat de meerderheid doet bijna automatisch correct. Als de regels niet kloppen met hoe we echt spreken/schrijven dan passen we de regels aan.

Dat is geen geschikte manier om met feitelijke informatie om te gaan. Bij feiten (en de logische verbanden daartussen) moet je wel uitgaan van causatie. Correlatie kan toeval zijn. In wetenschap is het ook niet zo dat de meeste metingen of datapunten automatisch gelijk hebben. Een enkel tegenvoorbeeld kan bijvoorbeeld alle andere data ontkrachten.
Een LLM zal feitjes produceren die lijken op andere feitjes maar dat betekent niet dat die feitjes kloppen.

Als alle schrijvers besluiten om een bepaalde grammatica te volgen dan is dat vanaf dan de grammatica.
Als alle wetenschappers geloven dat de aarde plat is, dan hebben ze allemaal ongelijk.
Maar goed: wat is dan de taak van een LLM, en wat mogen onze verwachtingen zijn?
Patronen herkennen en uitbreiden kan een LLM goed. Als je genoeg hebt aan grote lijnen en patronen dan werkt dat prima.
Wat een LLM niet goed kan is omgaan met details of uitzonderingen.
Maar is het te veel gevraagd om een LLM te verwachten die geen totale onzin hallucineert?
Ja, dat is teveel gevraagd.
Net zoals milieuvriendelijke auto's teveel zijn gevraagd, iedereen wil het wel maar niemand weet echt hoe..
Ik denk het niet: een LLM gebruiken om een betere helpdesk chatbot te maken, die gebruik maakt van feitelijke kennis van een webshop, diens producten, en het profiel en bestellingen van de klant, dat kan een LLM prima.
Waarom denk je dat?
maar het lijkt me te kort door de bocht om te zeggen "een LLM is gemaakt voor taal dus die kan enkel voor taalkundige taken worden ingezet": dat klopt gewoon niet.
Vooruit, dat is te kort door de bocht, maar het gaat meer om het omgekeerde. Waarom denk je dat een model dat is ontwikkeld voor taal ook voor willekeurige andere taken inzetbaar is? Waarom denk je dat deze techniek geschikt is om feitelijke informatie te reproduceren?
LLMs zoeken patronen en generaliseren informatie. Ze kennen niet het verschil tussen correlatie en causatie. Ze zien dus ook een hoop patronen die niet echt bestaan maar een kwestie van toeval zijn, en soms zien ze patronen niet die er wel zijn. Dan heb je al snel met een hallicunatie te maken.

Voor de duidelijkheid, ik ben zwaar onder de indruk van hoe vaak het wel werkt en goed gaat. Er zijn een hoop nuttige toepassingen voor LLMs, ook buiten taal, maar je zal een zekere foutmarge moeten accepteren. Als die foutmarge te groot is dan moet je een andere oplossing zoeken.
Niemand zit te wachten op een fictieve onzin generator, en zo worden deze tools ook niet gepresenteerd aan het publiek. Men probeert ze te trainen met goede data en het model zo te tunen zodat de kans het grootst is dat er wat nuttigs uit komt. De gebruikte techniek (LLM) is daar niet perfect voor, het model snapt niks van de inhoud, maar dat wil niet zeggen dat het doel is om onzin/hallucinaties te genereren.

Het doel is om nuttige content te genereren. En het is dus ook redelijk om te verwachten dat er veel van dat soort content uit komt.
Goed punt, mensen schrijven LLM's eigenschappen toe die ze niet hebben. Dat is inderdaad de kern van het probleem.

Heb je een zoekvraag? Gebruik internetzoekmachines en je eigen hersens om tot een antwoord te komen. Een LLM gaat je daar niet bij helpen. Het zal je altijd van een antwoord voorzien maar je hebt nul garanties hoe waardevol het gegeven antwoord is. Daar moet je zelf tijd en aandacht in investeren, check de output en wees kritisch op wat je terugkrijgt.
Heb je een zoekvraag? Gebruik internetzoekmachines en je eigen hersens om tot een antwoord te komen. Een LLM gaat je daar niet bij helpen.
Het blijft verbazingwekkend hoeveel mensen er beperkt blijven denken over een LLM.

Wat brengt een zoekmachine jou wat LLM niet brengt? Bronnen? Dan vraag je om bronnen. Quotes van specifieke reviews of opinies? Dan vraag je om die quotes. Artikelnummers van wetteksten? Dan vraag je daarom. Misschien neig je voor bepaalde zaken altijd naar bepaalde websites? Noem die websites.

Werkelijk het enige wat je moet doen is je geest vrij maken en verruimen. Ga bij jezelf na op basis van wat je afgelopen jaren hebt geleerd een antwoord wat je via Google vind te vertrouwen of te wantrouwen. Dat is een automatisch mechanisme geworden. En vraag daarna bij de LLM.
Zoekresultaten nagaan, websites bekijken en controleren of dit de antwoorden geeft die je zoekt is not altijd de meest betrouwbare manier om informatie te verifiëren. LLM's kunnen wellicht een gereedschap zijn maar als mens moet je altijd zelf nog het edele handwerk doen om na te gaan of het klopt.

Daarbij komt nog iets wat de meeste mensen zich wellicht niet realiseren en dat is het energiegebruik. Een enkele prompt van en LLM kost tenminste 15 maal zoveel als en standaard zoekopdracht van een zoekmachine. Stel je daarna nog twee vervolgvragen dan is het totaal nogmaals maal drie. Dan kun je misschien zeggen, daar zit ik niet mee. Dat kan natuurlijk. Persoonlijk vind ik daar wel iets van. Kijk bijvoorbeeld ook naar de artikelen over watertekorten in gebieden waar hyper datacenters staan. Dit zijn problemen waar we het denk ik wel over moeten hebben. Is dit het allemaal eigenlijk wel waard?
Resultaten als een zoekmachine tonen: kan gewoon, vraag ernaar.
Linkjes vragen en daarop klikken: kan gewoon, vraag ernaar.

Niets wat jij met Google kan, kan niet met een goede LLM en dan nog veel meer. Je kan veel beter vragen om alleen bepaalde websites mee te nemen etc.
Je kunt ook het gebruik van LLM's verminderen en zelf een internetzoekmachine gebruiken. Dat maakt een mens minder lui en het scheelt een berg energie.
'Dat maakt een mens minder lui en het scheelt een berg energie.'
En dat onderhoudt de creativiteit van het individu. Als we alleen van LLM's uitgaan, blijft op dat vlak (te)veel liggen naar mijn idee.
Want ook voor creativiteit geldt:
Use it or lose it.
Van bijzonder veel programmeurs heb ik de afgelopen tijd gehoord dat ze de LLM mogelijkheden van MS Copilot in VIsual Studio Code uitschakelen of in ieder geval fors verminderen omdat men merkt dat het geen wezenlijke tijdswinst oplevert en dat de eigen vaardigheden langzaam verminderden.
Moeten we inderdaad meer over praten met elkaar. Ken mensen die klagen dat het energienet vol zit en dat de regering dan maar wat moet doen. Als ik dan zeg stop ai gebruik en halveer je social media gebruik/streaming dan mag ik iedere keer uitleggen dat internet meer energie kost dan alleen dat magische "wifi-doosje" aan de muur en dat watervervuiling meer is dan een simpele drinkwaterzuivering kan fixen (natuur laat ik vaak buiten beschouwing in deze gesprekken). Zou mooi zijn als @Tweakers daar eens aandacht aan zo kunnen geven. Wat kost het internet vanuit niet-financieele oogpunten.

Vergroeningsinitiatieven zoals https://greensoftware.foundation/ helpen, maar zolang de vraag niet afneemt verdwijnen de problemen ook niet.
(Geschreven door iemand die vaak genoeg online te vinden is en ook via internet tv kijkt, ik ben ook niet perfect.)
Is dit het allemaal eigenlijk wel waard?
Eh, tja - ja want vooruitgang kost altijd meer energie. Het hele idee is ook dat een beschaving die steeds verder evolueert, steeds meer energie gaat gebruiken. Dat die stijgende energievraag een belemmering is, dat is meteen dan ook de reden dat daar nu meer moeite in wordt gestoken om de kosten (en de negatieve neveneffecten) te verminderen. Ook dat is een gevolg van technologische vooruitgang. En vervolgens kunnen we die toenemende energiecapaciteit ook weer gebruiken voor andere doeleinden.

Dat vervolgens de antwoorden onzin zijn was helaas al probleem bij een reguliere zoekopdracht - met dank aan de commercialisering van zoekmachines (en dan met name Google maar Bind heeft hetzelfde probleem natuurlijk).

Eigenlijk is deze nep-AI (want intelligent impliceert wat mij betreft ook 'begrip' en daar is nog geen sprake van), een antwoord op de afnemende invloed van zoek-machines (omdat ze zijn uitgehold). Daarom zoekt men naar de volgende hype.
> een gevolg van technologische vooruitgang.

net als dramatische uitzuiging van de aarde
Oh ja - dat is zeker ook een gevolg. En dat is heel moeilijk te bestrijden maar wat niet zal lukken is de energievraag dan maar 'even' verminderen (of de groei stopzetten).
Het idee is dat op tijd besef ontstaat dat roofbouw niet te lang kan voortduren (want eigenlijk is dat vaak wel de beginsituatie...).
Maar dat is ook weer mogelijk dankzij de technologische vooruitgang. We hebben al vrij lang geen kolenkachels meer....
Belangrijk is dat een hele snelle ommekeer nooit mogelijk is (iets wat bijv. 'Just Stop Oil' lijkt te na te streven). Het wordt idd tegengewerkt en alternatieven zijn nog niet meteen beschikbaar. Maar het besef is daar en zal groeien.
Zolang het heel veel meer stroom kost om een LLM aan te roepen voor simpele zoekopdrachten dan Google zou ik niet mensen gaan lopen adviseren om alles maar met een AI te gaan lopen doen.
een zoekmachine werkt in veel gevallen veel fijner dan een LLM

en hij hallucineert niet
Niet helemaal mee eens. AI (LLM's) genereren vrij snel resultaten en je kunt die vaak gewoon zelf controleren. Denk aan mensen die code of plaatjes laten genereren. Je merkt vrij snel of de code doet wat je wil en je ziet ook vrij snel of het plaatje aan je verwachtingen voldoet.

Een antwoord op een vraag is inderdaad tricky, want je weet zelf ook niet wat het antwoord is, anders had je het niet gevraagd. Maar dat is met Google niet anders natuurlijk. Ook daar moet je niet op de eerste de beste link vertrouwen en bronnen controleren.

Ik denk dat het er dus vooral vanaf hangt hoe je LLM's gebruikt. Mijn vader heeft bijvoorbeeld les aan Oekraïners en bereidt de lessen voor met MS Copilot. Hij vraagt om oefenzinnen over een bepaald onderwerp, in Nederland, Engels en Oekraïens. Die laatste twee spreekt en leest hij niet, maar de cursisten bevestigen dat het tot nu toe foutloos is. Bovendien kun je dat weer in een ander LLM gooien en laten vertalen naar het Nederlands in het te controleren.

Voor de duidelijkheid: ik zou ook graag willen dat het antwoord van een LLM betrouwbaar is, maar we moeten ook weer niet doen alsof je er nu niks meer aan hebt.
Denk aan mensen die code of plaatjes laten genereren. Je merkt vrij snel of de code doet wat je wil [...]
Is dat zo? Ik vroeg laatst aan ChatGPT om een licht aangepaste binary search, maar het genereerde stukje code was niet geheel correct. Hoe moet iemand dat controleren? Als iemand het alleen snel test, lijkt het stukje code te werken, maar bij zeer grote arrays zou het misgaan. Het is dat ik op de hoogte was hoe tricky binary search kan zijn en dat ik de bug herkende, maar hoe moet de doorsnee LLM-gebruiker dit herkennen?
Het overgrote deel van de tijd die je als programmeur besteed aan coderen gaat op aan edge cases. Rechtdoor is gemakkelijk, in de bochten vind je de bijzonderheden waarbij je even goed moet stilstaan wat je precies wilt dat hier gebeurt.
Dat is toch precies wat ik zeg? Je bent zelf verantwoordelijk om te controleren of het resultaat klopt. Dus ben je ook zelf verantwoordelijk om te testen wat er (in jouw voorbeeld) gebeurt bij heel grote waarden van low en high. Dat is toch ook het eerste wat je doet met de code die je zelf genereert?

Ik zit zelf meer in de mechanische hoek, maar het is vrij standaard om een nieuw ontwerp te testen op stijfheid en sterkte. Blijven de vervormingen onder de maximale belastingen (met een marge erover) binnen de perken en knikken op druk belaste staven/kolommen niet onder de maximale belasting (met een marge)? Worden de spanningen nergens in het ontwerp hoger dan toelaatbaar, waardoor er geen permanente vervorming optreedt en bij dynamische belastingen vermoeiing niet tot problemen leidt?

Ik kan me zo voorstellen dat je software op eenzelfde manier test, dus in het voorbeeld dat je noemt: voer eens twee heel grote getallen in en kijk wat er gebeurt. Gebruik twee negatieve getallen of een negatief en positief getal, etc...

Ik zeg ook nergens dat LLM's altijd goede data opleveren, maar dat het niet heel ingewikkeld is om de extremen even te testen. En het grappige is: als je zo'n LLM op je gevonden fout wijst, komt er vanzelf een herziening van de code, waarbij het probleem wordt opgelost. En aangezien je weet wat het probleem is, kun je er heel gericht naar zoeken.
Ik viel meer over het gebruik van "je merkt vrij snel". Het type bug in kwestie heeft bijv. 9 jaar in Java gezeten.

Uiteraard blijf jezelf verantwoordelijk voor wat je doet, maar het gevaar zit er vooral in het gebruik door mensen met minder ervaring die slechts een korte blik op de gegenereerde code werpen en niet grondig testen.

(Maar aan de andere kant, grondig testen is sowieso een probleem in de softwareindustrie.)
Leuk voor je vader dat hij een toepassing heeft gevonden met veel waarde. Maar waarom een 2de LLM en niet translate of babelfish als controle ? Ik ga ervan uit dat die resultaten minder zullen zijn maar niet zoveel minder of is translate.google ook al een volledige LLM nu ?
Ik ben het totaal niet met je eens. Voor mij heeft AI internetzoekmachines vrijwel volledig vervangen wanneer ik antwoord of verduidelijking zoek op specifieke vragen.

Dat betekent overigens niet dat ik mijn hersens niet gebruik. Het correct formuleren van de vraag, kritisch nadenken over het antwoord en het controleren van de inhoud vergt nog steeds kennis en denkwerk.

Wat ik daarnaast zéér waardeer aan AI is dat je ermee in gesprek kunt blijven. Als het eerste antwoord niet volstaat, kan ik verduidelijken wat ik mis of uitleggen waarom het antwoord niet klopt. Dat maakt het proces veel interactiever en effectiever dan eindeloos klikken door zoekresultaten en fora in de hoop dat iemand ooit precies mijn situatie beschreef.

Zoekmachines tonen alleen wat er op internet staat. AI helpt me actief om informatie te begrijpen, te structureren en aan te passen aan mijn specifieke vraag. Mits je zelf kritisch blijft, is dat gewoon enorm krachtig.
Het zijn niet noodzakelijk taalmodellen, ze kunnen even goed multimodaal zijn.

Het heeft geen zin kritiek op de fundamenten te hebben, er zijn helemaal geen fundamentele beperkingen bekend op modellen met deze architectuur. Het is slechts empirisch dat we zien dat ze veel fouten maken, zeker ook in vragen waarbij er iets beredeneerd moet worden.

Als je wil dat ik specifieke argumenten weerleg over de beperkingen mag je die zeker vragen en zal ik mijn best doen daar antwoord op te geven.

Het perspectief dat deze modellen zo beperkt zijn is echt een misvatting. Zeker met iteratief gebruik kun je nu al heel ver komen. Het gaat de komende 2-3 jaar herdefiniëren hoe wij als maatschappij met kennis en informatie om gaan, zowel het terugvinden / doorgronden als bewerken ervan.
Het heeft geen zin kritiek op de fundamenten te hebben, er zijn helemaal geen fundamentele beperkingen bekend op modellen met deze architectuur.
Behalve dat er veel is wat LLM's niet kunnen.
Het is slechts empirisch dat we zien dat ze veel fouten maken, zeker ook in vragen waarbij er iets beredeneerd moet worden...
Het perspectief dat deze modellen zo beperkt zijn is echt een misvatting.
Je noemt het "slechts" empirisch - maar empirisch; in de praktijk is "veel fouten maken" wel heel erg relevant bij ehm... praktische toepassing.

[Reactie gewijzigd door BadRespawn op 11 mei 2025 19:10]

Ik zeg niet dat het irrelevant is dat ze veel dingen niet kunnen, maar de kritiek dat het ‘slechts probabilistische taalmodellen zijn’ en daarom werken ze niet is gewoon onjuist. In de toekomst gaan we gelijkaardige modellen hebben die veel beter werken, die ontwikkelingen zijn heel zichtbaar in het uitkomen van nieuwe modellen die steeds weer vanalles sneller en beter kunnen.

De reden dat ze veel fouten maken is door de specifieke architectuur van transformers, de data en de optimaliseringsalgoritmen. Die kunnen allemaal nog heel veel verbeterd worden en voor het paradigma van probabilistische modellen zijn geen grenzen bekend dat ze fundamenteel dingen niet zouden kunnen leren.
Ik zeg niet dat het irrelevant is dat ze veel dingen niet kunnen, maar de kritiek dat het ‘slechts probabilistische taalmodellen zijn’ en daarom werken ze niet is gewoon onjuist.
Er wordt niet gezegd dat LLM's niet werken, er wordt gezegd dat ze werken voor dingen waarvoor ze zijn gemaakt, maar veel mensen denken dat LLM's dingen kunnen die ze in werkelijkheid niet kunnen omdat ze daar niet voor zijn gemaakt. Problem is vooral dat marketing rondom AI/LLM vol inzet op die onrealistische verwachtingen.
Waarvoor denk jij dan dat ze gemaakt zijn?

Ik denk dat self-supervised learning zoals transformers bedoelt is om patronen uit data te kunnen leren voor universele toepassingen. Bij OpenAI, Anthropic, DeepMind en elders lopen er mensen rond met heel veel expertise die echt denken dat we op deze manier in enkele jaren AGI bereiken. Ik ben geen onderdeel van dat kamp, maar volgens mij kunnen LLMs / LMMs voor enorm veel verschillende taken ingezet worden, inclusief als vervanging van search als de doelstelling is het antwoord op een vraag te vinden.
Waarvoor denk jij dan dat ze gemaakt zijn?

Ik denk dat self-supervised learning zoals transformers bedoelt is om patronen uit data te kunnen leren voor universele toepassingen.
We hoeven niet te speculeren over waarvoor ze zijn gemaakt. Het gaat erom over wat voor patronen het gaat; bij LLM wordt door de ontwikkelaars van die systemen gezegd dat het gaat om patronen in taal.

Net als de menselijke hersenen meer zijn dan een taal-centrum, zal ook voor AGI meer nodig zijn dan een taal model. Of we daartoe kunnen komen met de huidige benadering is een open vraag, wat dat betreft verschilt de marketing van AI bedrijven nogal van wat de techneuten en academici er over zeggen.
Zeker is dat de huidige modellen daar niet zijn, oftewel 'beperkingen' hebben.
Er zijn al heel veel multi-modale modellen die zowel tekst, beelden, audio, als video kunnen verwerken. Bijvoorbeeld het meest gebruikte model, GPT-4o dat de basis vormt van ChatGPT.

"[...] er wordt gezegd dat ze werken voor dingen waarvoor ze zijn gemaakt [...]" schreef je, vandaar ik vroeg waarvoor jij dan denkt dat ze zijn gemaakt. Vandaar ook mijn opmerking over self-supervised learning en transformers, die niet op een bepaalde taak gericht zijn en waarvan wordt aangenomen dat ze in principe alle soorten patronen kunnen leren.

Mijns inziens zitten CAPSLOCK (waar ik eerst op reageerde), kiang, en jij ernaast wat betreft kritiek op deze modellen. Er is zeker vanalles wat ze nog niet kunnen, maar dat motiveren uit het feit dat het grote taalmodellen zijn, dat is gewoon pertinent een onjuiste redenering.

Je kunt erop vertrouwen dat ik weet waarover ik spreek, ik ben als prof voltijd bezig met deze materie.

Ik ben verder volledig akkoord dat de marketing van de techspelers zoals Sam Altman veel te ver gaat, hij verkoopt regelmatig praatjes waar geen enkele basis voor is. Ik probeer echter de discussie hier ook niet overdreven negatief te maken. Er is eigenlijk geen enkele reden waarom probabilistische machine learning modellen bepaalde zaken niet zouden kunnen leren of uitvoeren. Het is slechts de praktijk die er nog ver vanaf staat om ons in veel zaken te vervangen en de geschetste tijdlijn van 'AGI over 2 jaar' is wensdenken. We staan een onbekend aantal stappen af van dergelijke technologie, dus een tijdlijn is helemaal niet te geven. Het is echter wel aannemelijk dat onze relatie tot data en informatie grondig hergedefinieerd zal gaan worden binnen een beperkte termijn (2 à 3, max 5 jaar, denk ik).
Er zijn al heel veel multi-modale modellen die zowel tekst, beelden, audio, als video kunnen verwerken. Bijvoorbeeld het meest gebruikte model, GPT-4o dat de basis vormt van ChatGPT.
Dat verwerken bestaat er uit dat dat die modellen een beschrijving in de vorm van tekst kunnen geven, of evt andersom: een plaatje genereren adhv tekst input. Maar nergens blijkt uit de de modellen begrijpen wat ze aan input krijgen of at ze zeggen/laten zien.

[/quote] "[...] er wordt gezegd dat ze werken voor dingen waarvoor ze zijn gemaakt [...]" schreef je, vandaar ik vroeg waarvoor jij dan denkt dat ze zijn gemaakt. [/quote]

Mijn punt is dat we weten waarvoor ze zijn gemaakt.
Mijns inziens zitten CAPSLOCK (waar ik eerst op reageerde), kiang, en jij ernaast wat betreft kritiek op deze modellen. Er is zeker vanalles wat ze nog niet kunnen, maar dat motiveren uit het feit dat het grote taalmodellen zijn, dat is gewoon pertinent een onjuiste redenering.
Nergens blijkt uit dat een taalmodel ooit meer zal kunnen dan taal (incl beschrijven van- dan wel produceren van afbeeldingen/video). Ja dat is best knap, maar dat betekent niet dat ze meer kunnen dan dat.
Je kunt erop vertrouwen dat ik weet waarover ik spreek, ik ben als prof voltijd bezig met deze materie.

Ik ben verder volledig akkoord dat de marketing van de techspelers zoals Sam Altman veel te ver gaat,
Ik vertrouw op https://www.youtube.com/@MachineLearningStreetTalk
Een ai model doet wel degelijk meer dan alleen een taal. Het gaat iets verder van de de twaalf aapjes die je willekeurig op typemachines laat tikken. Een neuraal netwerk zou je wellicht kunnen beschrijven als een massief parallelle heuristiek. Het versterkt herhaalde gelijkaardige stukken tekst. Dat is waar de “bias” zoals dat enige tijd geleden werd beschreven als verschijnsel vandaan komt bijvoorbeeld. Maar dat verschilt niet met wat er gebeurd in onze samenleving. Het is een digitale reflectie. Het mooie is wel dat wij als mens in het algemeen als mens heel beperkt zijn in onze algemene ontwikkeling. AI helpt ons dus om veel meer kanten van een onderwerp letterlijk onder ogen te brengen. En helpt dus ons multidisciplinairder denken. Het stelt ons in staat generiek zaken van meerdere kanten te bekijken. De aard van je prompting is daar dus een oordeel vormend mechanisme. Het kan dus ons helpen door je onderbuik gevoel heen te gaan en systeem twee toe te passen: nadenken volgt op de onderbuik eerste meninkje. In tegenwoordige tijd lijkt me dat sociologisch gezien een enorme vooruitgang.

[Reactie gewijzigd door oks op 11 mei 2025 12:58]

Een ai model doet wel degelijk meer dan alleen een taal. Het gaat iets verder van de de twaalf aapjes die je willekeurig op typemachines laat tikken.
Twaalf aapjes die je willekeurig op typemachines laat tikken produceren geen taal. Niemand beweerd dat wat LLM's doen willekeurig is. Maar wat LLM's doen is alleen maar taal.
Een LLM is niet eens in staat er benul te hebben van of datgene wat het zegt waar of onwaar is. Het kan er desgevraagd wel iets over zeggen maar dat is dan omdat ie op basis van de vraag en trainingsdata gaat voorspellen hoe die dialoog verder zou kunnen gaan, niet omdat ie weet wat het betekent.

Een hallucinatie is niet het gevolg van een bug of iets wat fout gaat bij de LLM, het is een gevolg van wat een LLM is.
Een hallucinatie is alleen 'fout' in de zin dat de LLM wat anders doet dan we bedoelen, maar het is net zoiets als met je auto het water in rijden met de bedoeling om te gaan varen: daar zijn auto's niet voor gemaakt.
Yup, en mensen verliezen dit veels te snel uit het oog. Het helpt ook niet dat alle marketing erop gericht is om dit juist niet door te laten schemeren.
Echter deze AI zal altijd achter lopen... omdat deze alleen is gebaseerd op wat al eerder is vastgesteld/gemaakt/geschreven. Het kan geen echte conclusies trekken - dan krijg je dus hallucinaties.

Het doet dus alles met taal zonder taal te begrijpen. Zelfs een kind is slimmer maar toch begrijpt ze minder taal.
Dat is een beetje onzin. Conceptueel heb je wel gelijk. Maar als je alle creatieve uitingen die wij als mensen weten weet in te voeren dan kun je wellicht vrij realtime zijn met wat de kennis in de wereld is. En waarschijnlijk kun je dan ook wel een paar permutaties maken die eerder nog niet hebben bestaan. Het is maar wat voor AI MODEL je weet te hanteren. Daar moet nog veel aan gebeuren. En In ieder geval is het veel meer kennis wat onder handbereik komt van de gemiddelde persoon. Onze algemene ontwikkeling is namelijk niet zo groot als individu. En de taaluitingen zijn gewoon onze taaluitingen die we als mens in zo Large Language Model weten op te slaan. Het is maar weinigen gegeven iets werkelijk origineels te bedenken en vaak is dat dan ook nog doordat we voortborduren op de kennis die we opdoen van onze voorgangers of medestanders. AI komt uit ons voort. Het is niet een wij/zij perspectief dat is wat vaak vergeten wordt in de discussie. Het is gewoon een algoritme op een vorm van dataopslag waarvan we denken dat het de menselijke geest enigszins benaderd. En verdomd het is een krachtige tool waarvan we nog niet weten hoe het zich precies gedraagt of verder ontwikkeld gaat worden.

[Reactie gewijzigd door oks op 13 mei 2025 15:11]

Conceptueel heb je wel gelijk.
Het was ook niet alleen mijn eigen inzicht; ik heb zo de bron niet bij de hand. Maar de stelling is: zelfs met de enorme hoeveelheid data (tekst in deze context) hebben gemaakt - we hebben nog lang niet alles bedacht of meegemaakt. Dus voorspellen wat het volgende zinsdeel moet worden kan nog niet, want de statistische informatie ontbreekt nog.
Het is maar weinigen gegeven iets werkelijk origineels te bedenken
Een kleine afwijking kan al genoeg zijn toch? Dat het lijkt op eerdere stellingen dat klopt wel maar net zoals de grap "alle auto's lijken op elkaar" - ze zijn toch echt wel origineel en niet alleen maar en toevallige afwijking.
Ik denk dat er juist heel veel nieuwe uitlatingen worden gedaan (en niet eens altijd worden opgeschreven) waarbij delen dan welliswaar typisch door statistiek voorspelbaar zijn (want zinnen moeten nu eenmaal een redelijke vaste grammatica volgen). Maar de combinatie is echt wel nieuw.
Na je eerste zin kan ik al stoppen met lezen.
Het probleem zit niet in de techniek maar bij de gebruikers,
Dan kan je beter geen software ontwikkelen.
Na je eerste zin kan ik al stoppen met lezen.
Ik vertrouw erop dat het bij kunnen is gebleven en dat je wel verder hebt gelezen, want anders heb je de uitleg gemist.
Dan kan je beter geen software ontwikkelen.
Misschien kun je dit even toelichten.

Edit: woordje dan in anders veranderd.

[Reactie gewijzigd door Aldy op 12 mei 2025 09:11]

Jammer dat ik hiervoor gemind werd, maar dit is echt stap 1 voor software ontwikkeling en testen. Als de gebruikers het niet snappen of “goed” doen volgens de ontwikkelaar, dan klopt je software niet.

Ik heb je uitleg wel gelezen, maar die maakte het punt niet ongedaan. Met elke andere software die wordt uitgebracht wordt hier wel over nagedacht, dus waarom bij llm’s niet?


Het is wel heel makkelijk om dit op de gebruiker af te schuiven.

(ok, niet perse stap 1, maar wel heel belangrijk, stap 1 is functionaliteit, 2 is security, dan 3 als usability. )

[Reactie gewijzigd door DrWaltman op 12 mei 2025 17:30]

Soms is het jammer dat mensen minnen, alhoewel dit niet door mij gebeurd is. Maar waarop ik eigenlijk reageerde was dat je denkt dat ik de uitleg geschreven heb, maar ik vroeg alleen maar een verduidelijking en daarvoor bedankt.
Dank voor je antwoord :)

Je hebt gelijk. In dit geval was ik wellicht zelf de schuldige door niet te verduidelijken waarom ik die reactie gaf, die was kortaf.
Het probleem bij LLM's is dat feit en fictie dezelfde waarde krijgen.
Het wordt gewoon op één grote hoop gegooid in de LLM en als je iets eruit haalt, weet je niet of het uit de input "feiten" komt of uit "tekst van een onbekende ergens op internet".
En ja, dat is een probleem van de huidige techniek. Er zijn geen aparte modellen voor 'feiten', 'meningen', 'nieuws of events', 'fictie', etc.
Zo worden ze natuurlijk niet verkocht. Grandiose claims en hyperinflatie van wat je mag verwachten (bv. oeh nee deze versie van chatgpt is nog niet beschikbaar voor jou, veul te gevaarlijk!)
Een taalmodel doet taal, niet meer.
Dan doet het dat beter dan jij 🙂
Want serieus wat is 'taal doen'. Je kan hier taal niet los zien van inhoud.
Maar nu hallucineer jij ook. Suiker is ongezond, dat klopt - zeker die geraffineerde suiker zonder ook maar enige voedingswaarde anders dan calorieën.

Vet daarentegen is helemaal niet ongezond, uiteraard afhankelijk van de soort vet. Iets wat je bij suiker niet zo kunt zeggen.

Niet alleen LLM's (in de vorm hoe die gebruikt worden, maar ook waarvoor ze bedoelt zijn) hallucineren.
Wat je nu uitkraamt is erg ongenuanceerd. Zowel suiker als vet kunnen gezond en ongezond worden toegepast. Of, anders gezegd, de meeste dingen worden pas ongezond als je er teveel van binnenkrijgt. Suiker is een prima energiebron. In dat opzicht zijn suikers niet ongezond. Waarom denk je anders dat we geevolueerd zijn om suiker lekker te vinden? Het probleem is echter dat we er te veel van gebruiken. En dat is op de lange duur ongezond. Eenzelfde redenering geldt ook voor vet. Daar krijgen we nu ook vaak teveel van binnen en dat is ook ongezond.
Suiker is de - meestal witte - kristalsuiker of enige variant daarop (basterdsuiker, rietsuiker). Die zijn zeer zeker heel ongezond en absoluut geen energiebron die je zou moeten gebruiken.

Suikers, die van nature in voedsel voorkomen, kan een ander verhaal zijn.

Waarom we geevolueerd zijn om suikers lekker te vinden? Dat is geen evolutie, dat is aangeleerd.

Of je teveel vet binnenkrijgt of niet ligt vooral ook aan wat voor andere voedingsstoffen je dan binnenkrijgt. De combinatie met (ongezonde) koolhydraten / suikers is een probleem bijvoorbeeld.

Een ander fabeltje is dat het 3x daags eten (en liefst nog 3x daags een tussendoortje) zo verstandig is. Er is ons geleerd dusdanig te eten dat het in het geheel niet gezond meer is. Tel daarbij op de troep die in de winkel te koop is (meer ongezond dan gezond) en het plaatje is compleet met allerlei ziektes tot gevolg.
Waarom we geevolueerd zijn om suikers lekker te vinden? Dat is geen evolutie, dat is aangeleerd.
Dus zoet lekker vinden is iets dat je aanleert? Wij hebben geen ingebouwde suiker-specifieke sensoren op onze tong? Die serotoninebom die vrijkomt na consumptie van suiker, die moet je ook echt trainen want anders werkt het niet ofzo? WTF is er mis met je hoofd?
Er is ons geleerd dusdanig te eten dat het in het geheel niet gezond meer is.
Overdrijven is ook een kunst. Als ons eten in het geheel niet gezond was dan vielen we allemaal dood neer. In werkelijkheid gaat het vooral om hoeveelheden/verhoudingen. Dat is wat ons eten uiteindelijk ongezond maakt.
het plaatje is compleet met allerlei ziektes tot gevolg
Je lijkt te vergeten dat we hier in het westen nu al zo'n honderd jaar vele decennia langer leven dan toen we bijvoorbeeld nog geen kilo's suiker voor centen konden kopen in de winkel om de hoek. Dus zelfs als suiker het grootste vergif op aarde zou zijn dan gaat er alsnog wel IETS goed met ons eten. Je lijkt een soort verwrongen bubbel te zijn opgelopen over hoe voedsel werkt.
Met mijn hoofd is niks mis, bedankt voor je bezorgdheid.
Waarom verwacht je dat een taalmodel feiten kent? Een taalmodel doet taal, niet meer.
Op dezelfde dag plaatst Tweakers een bericht dat Google AI-overzichten gaat tonen boven zoekresultaten. LLM's zijn taalmachines, maar worden toegepast voor bepaalde doeleinden. Hier om informatie te presenteren. Als LLM's soms halluniceren, dan toont Google soms verkeerde informatie bovenaan de zoekresultaten. Mag ik verwachten dat deze informatie juist is?

Om op je suikervergelijking in te haken: LLM's zijn geen suikertaart, maar suiker. Een supernuttig ingrediënt. Maar als blijkt dat dit ingrediënt negatieve bijverschijnselen heeft, raakt het alle producten waar dit ingrediënt (teveel) in zit. En dan mag je die toepassingen daar best op afrekenen - of toch in ieder geval van een kanttekening voorzien.
De taak van LLM's is een tekst maken die taalkundig goed in elkaar zit, niet om correcte antwoorden te geven.
Als wat je zegt waar was dan zouden de huidige LLM modellen enkel en alleen verhaaltjes vertellen en was het waarheidsgehalte over de hele linie dicht bij 0%. Blijkbaar gebeurt er iets meer dan enkel taalkundig correcte zinnen vormen.

In de rest van je post borduur je voort op deze foutieve aanname.
Bor Coördinator Frontpage Admins / FP Powermod @koelpasta14 mei 2025 18:23
Natuurlijk gebeurt er in de Ai toepassingen die wij kennen meer dan alleen teksten maken die taalkundig goed in elkaar zitten. Die hele post barst van de onjuiste informatie en kromme vergelijkingen.
De taak van LLM's is een tekst maken die taalkundig goed in elkaar zit, niet om correcte antwoorden te geven
Dat is wat kort door de bocht. Een generative transformer (want dat is GPT letterlijk) gebruikt statistische gegevens om een zo waarschijnlijk mogelijk antwoord te geven. Die waarschijnlijkheid en die statistiek is wat het geleerd heeft door het complete internet door te spitten.
ChatGpt doet dus veel meer dan een taalkundig goed antwoord geven; het geeft ook een antwoord dat statistisch gezien goed past bij je vraag. En dat daardoor een heel aardige kans heeft om correct te zijn.
In het kort is een LLM dus een Marketing tool, zorgen dat de gebruiker als kundiger wordt ervaren omdat het er allemaal slick uitziet en niet zozeer feitelijk juist is.
Bor Coördinator Frontpage Admins / FP Powermod @CAPSLOCK200012 mei 2025 16:26
Hallucineren is geen probleem van LLM's, het is zo ongeveer wat ze doen.
Dat is NIET juist. Bij AI is een hallucinatie een zelfverzekerde reactie die niet lijkt gerechtvaardigd te worden door de werkelijkheid of de trainingsgegevens waarop werd getraind. Het is niet het normale en verwachte gedrag en het wordt in de LMM wetenschap als uitzondering en nadelig gezien.

[Reactie gewijzigd door Bor op 14 mei 2025 18:22]

Vind het ook echt vies dat zoveel bedrijven en instanties doen alsof deze "ai" alles kan wat een mens kan, terwijl het gewoon een taalmodel is. Vervolgens zitten daar echte gevolgen aan: bedrijf zegt dat hun ai betrouwbaar is, gebruiker vertrouwt hier op en gaat ervan uit dat gehallucineerde info klopt, met alle gevolgen van dien. Ik zou willen dat hier hard op afgerekend werd, en denk ook wel dat we hier nog de nodige rechtzaken over gaan zien, maar dat gaat dan weer achteraf nàdat er al iemand gevolgen heeft moeten ondervinden.
Ik vraag mij af of het probleem van "hallucineren" niet te groot wordt aangezet. Is het niet vergelijkbaar met bijvoorbeeld Google resultaten op je zoekopdracht waar je niet naar op zoek bent of links met foutieve info. Of info op social media te geloven wat fake news is?
Uiteindelijk ligt het aan de input (dan wel welke AI tool je gebruikt) om te zorgen dat het specifiek bij jou niet gebeurd. Zoals in de laatste alinea staat beschreven, het effect is niet perse merkbaar.
Is je input niet goed, heb je een kans op een fout antwoord of hallicinatie. Maar dat is niet wezenlijk anders dan een foute zoekopdracht op Google of een bron geloven die niet klopt? Conclusie is eigenlijk dat je alles wat je van internet haalt, moet fact checken.
...
Uiteindelijk ligt het aan de input (dan wel welke AI tool je gebruikt) om te zorgen dat het specifiek bij jou niet gebeurd.
...
Conclusie is eigenlijk dat je alles wat je van internet haalt, moet fact checken.
Dat hallucineren altijd 'een fout van de gebruiker zou zijn' is:
- de grootste onzin ooit (bijna alsof het AI gegenereerd is :+ ), het is simpelweg een gebrek aan kwalitatieve/relevante data aan de AI kant, de antwoorden komen echter alsnog en zijn dan geloofwaardig klinkende onzin. Daar zit het probleem!
- alle AI tools hallucineren en de grap is dat je als gebruiker nooit precies kunt weten wanneer, waar of waarom (tenzij je 'alwetend' bent...), conclusie; als je alles moet gaan factchecken is AI geen hulpmiddel maar een molensteen om de nek.
alle AI tools hallucineren en de grap is dat je als gebruiker nooit precies kunt weten wanneer, waar of waarom (tenzij je 'alwetend' bent...), conclusie; als je alles moet gaan factchecken is AI geen hulpmiddel maar een molensteen om de nek.

Welnee, als je weet wat bepaalde firewall regels doen kun je chatgpt vrij gemakkelijk de regels laten schrijven.
Dat doet hij heel wat sneller als jij en ik ze kunnen bedenken. Dus die tijdwinst is wel fijn.

Bovendien zijn veel onderwerpen behoorlijk niche en is er weinig of niets te vinden op het web. dagenlang het web afstruinen naar mogelijke candidaten is tijdrovend en vervelend.
Ik gebruik copilot en chatgpt om te helpen code te schrijven. 99% verzint hij werkende code, maar meestal is het fout. Het werkt dus wel, maar het zou zorgen voor fundamentele problemen in je programma.

Jonge en luie developers zien de fouten niet, omdat de code werkt. Daarnaast is de code vaak compact en complex geschreven waardoor het moeilijker leest.

Als de trend zich doorzet verwacht ik dat de kwaliteit van software een stuk slechter gaat worden in de toekomst.
Of juist beter als diezelfde code door een ander model weer wordt gecontroleerd
Developers moeten dan waarschijnlijk een ander opleidingstraject krijgen om fouten te leren herkennen.
Daarom kun je AI dan ook het best gebruiken voor dingen die je al wel weet en kunt checken.

Dingen waar AI nu al heel goed in is en die je zelf kunt checken zij bijvoorbeeld: omschrijven van teksten (andere toon, vorm, samenvattingen etc.), vertalen van teksten, schrijven van code (mits je het checkt en weet wat je doet, dus geen Vibe Coding :P ). Ook ter inspiratie voor je eigen tekst, of voor het opzetten van een structuur van een document, vind ik het ideaal. Ik laat AI vooral geen feiten oplepelen, maar mijn feiten herschrijven, structureren of checken op fouten.
Helemaal mee eens, wat je beschrijft is precies hoe AI momenteel het best tot zijn recht komt. In mijn ogen meer de rol van een redacteur die helpt structureren, herformuleren of controleren, maar niet als bron van feitelijke inhoud. Gebruik het gerust voor vorm, toon, samenvattingen of opzet. Maar zodra je AI ziet als schrijver, wetenschapper of journalist waarvan je de inhoud kunt vertrouwen, ga je een grens over die het systeem nog niet aankan of in ieder geval, in mijn ogen, jammerlijk in faalt. Feiten laten oplepelen zonder eigen kennis of controle blijft veel te riskant, zeker gezien hoe makkelijk AI overtuigend klinkende onzin kan produceren.

En ook daarbij moet je uitkijken dat je tekst of inhoud niet aangepast wordt door/via bepaalde nudging door het systeem. Je kunt ergens zelf iets van vinden, maar als je AI laat meekleuren of herschrijven, is er een reële kans dat je ongemerkt toch een stukje opschuift (in een richting die je niet wilt, of waarbij bepaalde dingen juist worden afgezwakt of extra aangedikt). Soms zonder dat je het direct doorhebt, bijvoorbeeld door beïnvloeding of (subtiele) censuur zoals bij het Chinese DeepSeek.

Zie ook: jdh009 in 'Groot probleem met nieuwe AI-modellen: ze vertellen je meer onzin'

[Reactie gewijzigd door jdh009 op 11 mei 2025 15:54]

Ik ben het niet helemaal met je eens. In de Tijd dat Google (de zoekengine) net op de markt kwam, had je meerdere zoekmachines die echt niet de kwaliteit hadden om echt goed het Web te doorzoeken. Inmiddels is Google marktleider geworden, door de kwaliteit die Google leverde. Dat is met AI tools toch niet anders? Ik heb zelf een betaalde variant op Perplexity, en gebruik af en toe Google NotebookLM. Hallicinunaties heb ik eigenlijk vrij weinig, zeker bij goede prompts. CoPilot (de enige tool die ik op mijn werk mag gebruiken) hallucineert juist erg vaak. Jij gooit nu alle AI Tools op 1 hoop.
Dat is met AI tools toch niet anders?
Waarom zou het hetzelfde zijn? Puur omdat iets anders verbeterde is geen bewijs dat een ander onderwerp zoals LLM zal verbeteren. Er wordt gigantisch veel beloofd. Echter of het de beloftes waargemaakt kunnen worden of niet, tja, we zullen het zien.

Logischer wijs lijkt me het redelijk onredelijk om aan te nemen dat "hallucinaties" weg zullen zijn. De bron is vaak gigantisch veel data. En die data bestaat vaak uit veel troep (foute antwoorden). Troep in, tja, lijkt me onlogisch om aan te nemen dat een LLM magisch de troep eruit haalt.
Idd. Een heel slim persoon die totale onzin uitkraamt, noemen we dronken en negeren we... Maar als deze niet eens dronken is noemen we deze persoon gewoon de dorpsgek.... ondanks dat deze best vaak slimme dingen zegt.
Maar zouden we dan voor advies naar de dorpsgek gaan? :z
Ik vind niet dat je het moet vergelijken met Google search. Ik zie het zelf meer als een soort "encyclopedie" (mits je het voor feiten gebruikt). Als ik wat vraag dan wil ik dat het waar is (tenzij ik het creatief zou gebruiken). Als ik bijvoorbeeld vraag hoe lang moet een ei koken hoop ik niet die een uur zegt. Als je wat zoekt op internet kunnen er inderdaad leugens naar voren komen. Maar toch zullen de meeste zoekmachines een hoop leugens niet tonen of je moet specifiek zoeken naar dit onderwerp of is er een groot meningsverschillen tussen de mensen. "Is de aarde plat" mag ik toch hopen dat de websites die ik dan zie zeggen de aarde is rond. Maar misschien als je zoekt op "de aarde is plat" dan ben je zelf op zoek naar zulke websites. Ik vind niet dat zoekmachines dit moeten verbergen als mensen dit willen zoeken. Over God is natuurlijk een meningsverschil. Er is nooit bewezen dat die wel of niet bestaat. Dan kan de AI/zoekresultaten natuurlijk nooit de juiste informatie geven. En veel dingen zoals nep reviews is ook niet altijd makkelijk te bewijzen.

Ik denk ook dat voor de reputatie van AI het belangrijker is dat het goed werkt. Als ik zie in hoeveel dingen het gestopt wordt en hoe het te gebruiken is dan moet je het kunnen vertrouwen. Bijvoorbeeld een lange lap tekst waar je een samenvatting van wil hebben. Ik hoop niet dat AI er dan zelf valse "feiten" erbij gaat zetten of zelfs de tekst negeert en maar wat bij elkaar verzint over de hoofdonderwerp. AI die een afspraak in je agenda zet wil je ook dat het klopt. Of dat AI gevaarlijke / illegale situaties vermijdt. "Ik wil indruk maken op mijn nieuwe vriendin. Zal ik iemand neerslaan om zo te bewijzen dat ik sterk ben en dat ze mij dan indrukwekkend vind?" hoop ik toch dat AI nee zegt in plaats van ja omdat het klinkt dat dit "positief is / een goed idee lijkt" en de gebruiker hoopt op een ja. En zo zullen er wel veel meer voorbeelden te bedenken zijn waar je dus moet kunnen vertrouwen dat de output die AI geeft goed is.
Ik vind niet dat je het moet vergelijken met Google search. Ik zie het zelf meer als een soort "encyclopedie" (mits je het voor feiten gebruikt). Als ik wat vraag dan wil ik dat het waar is (tenzij ik het creatief zou gebruiken). Als ik bijvoorbeeld vraag hoe lang moet een ei koken hoop ik niet die een uur zegt.
Je moet het gebruik en doel van de gebruiker wel degelijk vergelijken met het gebruik van zoekmachines. Het gereedschap is misschien anders, maar het doel om bepaalde informatie op te zoeken blijft vaak hetzelfde. Bovendien gebruiken mensen beide systemen vaak met dezelfde verwachting: dat er een waar en bruikbaar antwoord uitkomt. Dat een LLM zoals ChatGPT of Gemini de informatie genereert in plaats van verwijst naar bronnen, maakt het verschil in werking niet per se in gebruiksdoel.
Als je wat zoekt op internet kunnen er inderdaad leugens naar voren komen. Maar toch zullen de meeste zoekmachines een hoop leugens niet tonen of je moet specifiek zoeken naar dit onderwerp of is er een groot meningsverschillen tussen de mensen.
AI presenteert informatie als één samenhangend antwoord, vaak zonder duidelijk zichtbare bronverwijzing of context, en als er een link wordt gegeven, blijkt na zelf nalezen regelmatig dat de inhoud helemaal niet ondersteunt wat het model beweert of niet in die bewoording of context. Dat maakt het veel moeilijker om te herkennen wanneer informatie onjuist of gemanipuleerd is. AI neemt die stap uit handen. Bij zoekmachines zie je nog steeds verschillende bronnen naast elkaar en ben je je ervan bewust dat je van het ene perspectief naar het andere schakelt en maak je zelf een selectie. Dat proces is iets transparanter.. en houdt je kritischer.

Waarom? Omdat je weet dat je een artikel van de bijv. BBC leest, en dat dat iets anders is dan een artikel van Fox News. Die zichtbare wisseling van bron dwingt tot meer kritische afstand. Kritisch zijn op bronnen is dan eenvoudiger omdat je weet wáár je leest. Bij AI blijft de interface en toon gelijk, ongeacht de herkomst van de inhoud. Alles wordt gepresenteerd als één uniforme 'stem', vaak in stellige bewoordingen. Daardoor vervaagt het onderscheid tussen betrouwbare en onbetrouwbare informatie veel sneller dan bij 'traditionele' zoekopdrachten. Soms lijkt het erop dat een AI een site met een naam als nederlandsewaarheid.nu evenveel gewicht toekent als een peer-reviewed wetenschappelijke publicatie (voor zover het model daar toegang toe heeft), zolang de inhoud goed gestructureerd is en in een geloofwaardige stijl is geschreven.

Al merk ik wel dat zoekresultaten de afgelopen jaren ook vaker vervuild raken door AI-websites en SEO-geoptimaliseerde ruis, waardoor ze lastiger bruikbaar worden. Wat veel mensen daarbij over het hoofd zien, is dat AI zelf op vergelijkbare manieren kan worden bespeeld. In rapporten over desinformatie en propaganda zie ik steeds vaker hoe nepnieuws bewust zo wordt opgebouwd dat AI het als geloofwaardig beschouwt en zonder aarzeling doorgeeft. Ook wel AI grooming genoemd of "a novel strategy to manipulate large language models (LLMs) for foreign information manipulation and interference (FIMI) purposes."

Wat dit zo zorgelijk maakt, is dat die manipulatie niet bedoeld is om individuele mensen te overtuigen, maar om AI zelf te besmetten. Het doel is niet een discussie winnen, maar het hele informatielandschap structureel verschuiven. Kijk alleen al naar Russische netwerken zoals het Pravda-cluster die op industriële schaal propaganda het web op pompen, niet voor menselijke lezers, maar voor webcrawlers en trainingsdata. Tegelijk worden diezelfde AI al gebruikt om op industriële schaal desinformatie-artikelen te genereren, wat de kans nog vergroot dat modellen diezelfde vervuiling opnieuw in hun systemen opnemen. China en Rusland pompen in beide nu al aanzienlijke bedragen. En het werkt! AI’s leren die patronen kennen en nemen de narratieven over, simpelweg omdat ze vaak voorkomen en overtuigend geformuleerd zijn. Het gevolg is dat het onderscheid tussen waarheid en propaganda steeds lastiger wordt, niet alleen voor gebruikers, maar ook voor de systemen waarop ze vertrouwen. En als dát eenmaal schuift, glipt er meer mee dan alleen een paar misleidende zinnen.

En daarmee raken we aan een dieperliggend technisch risico dat in recente onderzoeken ook naar voren komt. Wanneer je AI steeds vaker traint op hun eigen, deels vervuilde output, ontstaat er een feedbackloop die de kwaliteit van hun antwoorden structureel laat afnemen (model collapse). Er is dus écht iets te zeggen voor zelf je research doen en je bronnen kiezen (en vooral: controleren of ze wel zeggen wat er beweerd wordt).

Net zoals we ooit moesten leren hoe je een zoekmachine effectief gebruikt, moeten we nu ook leren hoe en wanneer je AI bewust en kritisch inzet en wanneer je dat juist niet moet doen. Het is geen magisch antwoordapparaat maar een instrument dat je moet leren bespelen of een gereedschap waarvan de uitkomst staat of valt met hoe je het gebruikt.

[Reactie gewijzigd door jdh009 op 11 mei 2025 13:24]

De reactie waarop ik reageerde was dat hallucinaties niet zo erg is omdat internet ook niet alles goed heeft. Ik probeerde uit te leggen waarom het wel slecht is. En niet te zeggen dat de huidige modellen perfect werken. Hier zit nog veel werk aan voordat het dus goed werkt. Dat AI nog geen encyclopedie is klopt dus maar dit is wel wat het uiteindelijke doel is lijkt mij. Tenminste voor de feiten. Qua meningen zal het natuurlijk lastiger zijn om dit te doen.
Bij zoekmachines zie je nog steeds verschillende bronnen naast elkaar en ben je je ervan bewust dat je van het ene perspectief naar het andere schakelt en maak je zelf een selectie. Dat proces is iets transparanter.. en houdt je kritischer.
Maar werkt dat echt zo? Bij bepaalde onderwerpen wat niet gebonden is aan feiten of 1 simpele conclusie misschien. Maar dan praat je al over "creatief". Als voorbeeld: Wie is nu de president van Amerika? Ik durf te wedden dat zo goed als iedereen niet verder komt dan de eerste (geopende) zoekresultaat. Is Donald Trump een goede president? Er is hier meerdere antwoorden op te geven. Er is geen precies geschreven definitie van goede president en iedereen heeft een eigen mening wat belangrijk is voor de president om voor elkaar te krijgen (en hoe het geregeld wordt). Wil je het fijne ervan weten zal je inderdaad meer moeten onderzoek. Maar gaan mensen dat echt doen? Dat zal aan de situatie liggen. Wil je alleen snel antwoord waarschijnlijk niet. Er zal vaak een speciale reden zijn als je meer dan de eerste zoekresultaat gebruikt. En ondanks dat ik zie dat er meerdere links zijn ben ik meestal geeneens bewust van wat daar staat. Uiteraard ligt het er aan wat ik zoek maar meestal verwacht ik dat de eerste paar resultaten vaak wel hetzelfde zeggen als de eerste resultaat.
Omdat je weet dat je een artikel van de bijv. BBC leest, en dat dat iets anders is dan een artikel van Fox News
Rechtse media zoals Fox News en Truth Social en nu ook Facebook, X en andere Musk-gerelateerde media zijn gewoon volstrekt ongeschikt als bron voor een LLM.
Het verschil tussen propaganda + andere desinformatie en het "hallucineren" van LLM's is dat het laatste ontstaat door willekeurige data te extrapoleren, terwijl het eerste ontstaat door de intentie om te misleiden (hoewel dat eerste ook die intentie kan bevatten door wat de makers in de modellen stoppen).

En bij het eerste geeft correcte input niet opeens kloppende reacties ;)

[Reactie gewijzigd door Stukfruit op 11 mei 2025 06:43]

Volgens mij zijn ze allemaal heel erg hun best aan het doen om tegelijk interessant te blijven en niet hun zuur gescrapete database te ontwaarden door alles weg te geven. Als we bagger uitkramen en de aandelen blijven hetzelfde, niks aan veranderen.
Ik geloof niks van dat hallucineren. Die systemen kunnen echt wel de consistentie van hun eigen resultaten toetsen en bijsturen waar dat nodig is, eventueel op basis van gebruikers-feedback.
Hallucinatie is gewoon onderdeel van hoe een LLM werkt. Dat kan je nooit compleet ondervangen met deze techniek. Een LLM is en creatieve tekst generatie engine, geen orakel. Het is nooit bedoeld geweest als vraagbaak. Mensen zijn het daarvoor gaan gebruiken omdat het de indruk wekt dat het dat kan doen. Maar omdat het basisprincipe daar gewoon niet mee strookt zal dat nooit optimaal zijn. Ik denk dat we in de toekomst en hele berg aan AI modellen krijgen waarvan sommigen daar wel voor gemaakt zijn. Het gaat dan zelf zoeken welk model het geschiktse is. Een ander zwak punt van LLM's is bijvoorbeeld rekenen.
Een ander zwak punt van LLM's is bijvoorbeeld rekenen.
Op zich geen zwaktepunt want dat kunnen ze simpelweg niet. Enkel tekst die ooit eerder is ingevuld recupereren met een kanswaarde, dus als je een som invoert dan krijg je hoogstends het (in)correcte antwoord van iemand anders. Er is geen enkel LLM model dat de Russel's Principia kan gebruiken als methodologie, mogelijk kan het een gedeelte recupereren maar daar blijft het bij.
Op zich geen zwaktepunt want dat kunnen ze simpelweg niet. Enkel tekst die ooit eerder is ingevuld recupereren met een kanswaarde, dus als je een som invoert dan krijg je hoogstends het (in)correcte antwoord van iemand anders. [...]
Hiermee doe je de werking toch wat tekort, zeker nu steeds meer AI meer omvat dan alleen een LLM. Via o.a. prompt engineering kunnen ze bovendien gebruikmaken van externe rekenmodules of geïntegreerde tools die dat gebrek deels ondervangen. Het is zeker niet perfect, zelf zou ik het niet gebruiken, laat staan er blind op vertrouwen, maar het maakt de werking wel degelijk complexer dan jij nu schetst.

Maar wel rekening houdend met:
‘De AI “leert” simpelweg hoe het nieuwe problemen moet benaderen, maar de nauwkeurigheid van de oplossing verbetert niet – het maakt nog steeds fouten in de basis, zoals rekenkunde, algebra en meetkunde.
Bron: https://www.groene.nl/artikel/heeaal-leuke-mensen-haha

[Reactie gewijzigd door jdh009 op 11 mei 2025 13:05]

Hiermee doe je de werking toch wat tekort, zeker nu steeds meer AI meer omvat dan alleen een LLM.
Maar we hadden het specifiek over LLM's. Zoals ik zei verwacht ik ook dat de uiteindelijke "AI" een mengelmoes van soorten modellen wordt.

Ik moet wel zeggen dat "tool calling" nog een beetje in de kinderschoenen staat. Heel vaak wordt de tool niet aangeroepen en gaat het model zelf maar wat hallucineren. Daardoor is het lastiger om te vertrouwen op de output.
Maar we hadden het specifiek over LLM's.
Dat klinkt leuk, maar het klopt niet in de context van deze discussie, en ook niet als je kijkt naar hoe de meeste mensen AI gebruiken of bedrijven het aanbieden. Je zit als gebruiker zelden direct op een kale LLM. Er zit vrijwel altijd een laag tussen die je prompt verrijkt, systemen aanstuurt (zoals retrieval of tool-use), of de output nog aanpast voordat jij die te zien krijgt. Zie alleen al hoe DeepSeek omgaat met Tiananmen Square of Microsoft Bing vraagt hoeveel medewerkers het moederbedrijf van Pornhub in dienst heeft* als simpel voorbeeld.

Het artikel gaat bovendien expliciet over ChatGPT, dus jouw opmerking dat het "alleen over LLM's" zou gaan is geen zuivere koffie in deze discussie, maar eerder een poging om het onderwerp weg te trekken van hoe gebruikers deze systemen in de praktijk ervaren. En je eigen opmerking verderop dat tool-calling “nog in de kinderschoenen staat” bevestigt juist dat die mechanismen aanwezig zijn, zelfs wanneer ze niet goed functioneren.

Zoals je zelf vast weet als je al bekend bent met tool-calling, gaat bij ChatGPT, Gemini of Copilot de invoer eerst langs een orchestrator of systeemprompt, worden er eventueel externe gegevens opgehaald, en pas daarna wordt het model aangestuurd. Vervolgens kan het antwoord nog door een filter of rankinglaag gaan voordat jij het te zien krijgt, (en dan vergeet ik vast nog wel iets).
The orchestration layer represents the interface between foundation Large Language Models (LLMs) and the many ways you can extend, enrich, and customize Copilot for the way your customers work.

[plaatje 1]

The following diagram illustrates how the Microsoft 365 Copilot orchestrator selects the right action, with the right skill, at the right time, even when there are multiple options to choose from.

[plaatje 2]
En alle stappen die doorlopen worden van submit tot delivery bij Copilot. Iets te veel tekst om in te voegen als quote,

Veel van die tussenlagen zijn voor zover ik weet niet optioneel. Zie alleen al dat in Microsoft 365 Copilot zijn de orchestrator en Graph-contextvoorziening geen optionele modules zijn, al zijn er wel wat zaken uit te zetten door beheerders bij bedrijven. Die tussenlagen zijn bepalend voor wat er gebeurt en wat ze moeten aanroepen (zoekactie op het web of in documenten, python, ect.) en het systeem stuurt altijd een verrijkte prompt naar GPT-4. Dat zijn juist de lagen die mogelijke hallucinaties van het model zelf moeten afvangen (wat regelmatig niet lukt), maar die het in sommige gevallen ook erger maken, bijvoorbeeld als er wordt doorgeredeneerd op basis van een fout in de eerste stap of censuur toe passen.

Bovendien zijn deze lagen vaak geïntroduceerd juist om de output-problemen van kale LLM’s op te lossen:
Selecting the relevant internal queries and leveraging the respective Bing search results is a critical component of Prometheus, since it provides relevant and fresh information to the model, enabling it to answer recent questions and reducing inaccuracies – this method is called grounding. Put another way, the model reasons over the data provided by Bing and hence it’s grounded by Bing data, via the Bing Orchestrator. The diagram below illustrates how Prometheus works at a high level.
Bron: https://blogs.bing.com/se...023/Building-the-New-Bing
Waarbij OpenAI ChatGPT’s gedrag sterk afhankelijk gemaakt van RLHF-tuning... De tussenlagen bepalen hier structureel de toon, inhoud en betrouwbaarheid van de AI. Idem hoe Google dit doet en de toekomst ziet met agents.

Dus het is zeker wel relevant om in mijn originele reactie te spreken over ‘AI’ als geheel en niet alleen over LLM’s, juist omdat de ondersteunende systemen daar onderdeel van zijn. Alle systemen die in het artikel worden genoemd, bestaan immers uit meer dan alleen een LLM.

*Geeft net als DeepSeek eerst het goede antwoord om het daarna te vervangen door: "Ik ben bang dat ik niet over dit onderwerp kan praten, sorry."

[Reactie gewijzigd door jdh009 op 11 mei 2025 19:02]

We hadden het over LLM's omdat dat de bron is van de hallucinatie. Hallucinatie is gewoon iets dat is ingebakken in het ontwerp van een LLM. En komt doordat het gebruikt wordt voor iets waar het helemaal niet voor bedoeld is (als vraagbaak).

De tool calling helpt een hoop maar het is een beetje een lapmiddel. MS365 Copilot zou ik sowieso niet eens meenemen in de vergelijking omdat dat veruit de zwakste is (het is vreemd genoeg een heel stuk zwakker dan een GPT-4o waar het op gebaseerd is, ik denk dat ze de processing of de context window afknijpen om het goedkoper te maken).

Maar die tools zijn ook niet echt "AI". Ze doen niks intelligents, ze doen alleen een google search of zoeken het weer op, of een bestand op je share point enz.
We hadden het over LLM's omdat dat de bron is van de hallucinatie. Hallucinatie is gewoon iets dat is ingebakken in het ontwerp van een LLM. En komt doordat het gebruikt wordt voor iets waar het helemaal niet voor bedoeld is (als vraagbaak).

De tool calling helpt een hoop maar het is een beetje een lapmiddel. MS365 Copilot zou ik sowieso niet eens meenemen in de vergelijking omdat dat veruit de zwakste is (het is vreemd genoeg een heel stuk zwakker dan een GPT-4o waar het op gebaseerd is, ik denk dat ze de processing of de context window afknijpen om het goedkoper te maken).

Maar die tools zijn ook niet echt "AI". Ze doen niks intelligents, ze doen alleen een google search of zoeken het weer op, of een bestand op je share point enz.
Dat is precies waar het misgaat in de discussie. Een LLM mag dan de initiële bron van een hallucinatie zijn, maar in de praktijk is de output die de gebruiker ziet niet het directe resultaat van een kale LLM, maar van het hele systeem dat daarboven hangt, en dat maakt het dus een systeemprobleem en dat ik ook beschrijf in mijn eerdere reactie. In 'AI' zoals ChatGPT, Copilot en Gemini is die ‘AI’ een geheel van orchestrator, contextinjectie, tool-use, rankinglagen en veiligheidsfilters e.d.
MS365 Copilot zou ik sowieso niet eens meenemen in de vergelijking omdat dat veruit de zwakste is (het is vreemd genoeg een heel stuk zwakker dan een GPT-4o waar het op gebaseerd is, ik denk dat ze de processing of de context window afknijpen om het goedkoper te maken).
Zelfs als Copilot beperkt is qua performance, blijft het architectonisch representatief. Ook als de implementatie van Copilot in sommige scenario’s ondermaats is, verandert dat niets aan hoe representatief de architectuur is. Het laat juist zien dat de output afhankelijk is van méér dan alleen het LLM... . Wat jij zwakte noemt, is deels het bewijs dat de tussenlagen bepalen hoeveel waarde het systeem uiteindelijk levert.

Tool-calling is in mijn ogen dan ook geen lapmiddel te noemen, maar een onderdeel van hoe deze systemen ontworpen zijn. De orchestrator beslist zelf wanneer welke tool nodig is, zoals Microsoft ook beschrijft in hun technische documentatie. Zonder die component zou de betrouwbaarheid van de output juist afnemen, niet toenemen. Dus nogmaals, zoals Microsoft zelf schrijft in de quotes die ik al aanhaalde:
The orchestration layer represents the interface between foundation Large Language Models (LLMs) and the many ways you can extend, enrich, and customize Copilot…
En zoals Bing (jaja, ook Microsoft) zegt:
Selecting relevant internal queries... provides fresh information to the model, enabling it to answer recent questions and reducing inaccuracies – this method is called grounding.
De vraag is dus niet of alleen de LLM hallucineert, maar of het systeem als geheel erin slaagt om feitelijke output te produceren. De gebruiker ziet immers niet het pure LLM-antwoord, maar een bewerkt, verrijkt, gestuurd, gefilterd, gemodereerd en in veel gevallen ook gecontroleerd resultaat. Vanuit gebruikservaring, risicoanalyse en systeemarchitectuur is naar mijn mening dan ook correct om over AI te spreken, en niet enkel over de 'LLM', zeker in de context van deze discussie.
Maar die tools zijn ook niet echt "AI". Ze doen niks intelligents, ze doen alleen een google search of zoeken het weer op, of een bestand op je share point enz.
Of de tools zelf intelligent zijn of niet, is een definitiekwestie waar ik mij nu niet in ga mengen. Wat telt, is dat de tooloutput actief verwerkt wordt in de context die naar het LLM gaat, en zo het eindantwoord beïnvloedt. Dat maakt het functioneel onderdeel van het gehele systeem. De gebruiker krijgt immers één geïntegreerd antwoord te zien, niet een aparte vermelding van wat het model deed en wat de tools deden. Die scheiding is voor de gebruiker betekenisloos, net zoals je een auto niet alleen beoordeelt op de motor. Die is belangrijk en moet je zeker meenemen, maar pas samen met versnellingsbak, stuurgedrag en assistentiesystemen zie je wat het geheel doet. Twee verschillende modellen met dezelfde motor kunnen totaal anders presteren (zie alleen al een Mini Cooper en een Leopard 2 voor je met dezelfde motor).

[Reactie gewijzigd door jdh009 op 11 mei 2025 19:49]

Rekenen in een LLM werkt niet op basis waar iemand anders een keer heeft ingevuld. In basis werkt rekenen in een LLm op basis van in schatten, geen feite waarde zoals je beweerd.
Gewoon een kwestie van support. Als de AI-machine begrijpt dat je een rekenkundige bewerking opgeeft wordt het gewoon voor je uitgerekend. Eerder moest je het nog in een praktijkvoorbeeld met appels of zo stoppen maar nu rekenen ze het gewoon voor je uit. Als de vraag maar duidelijk is.
Hier wordt “creatief” vaak verward met probabilistisch. De LLM doet niets anders dan uitrekenen wat het meest waarschijnlijke volgende token is. Sommige tech bro’s menen dat dit hetzelfde is als “creatief”, maar dat lijkt meer op salespraatjes dan werkelijkheid.
De LLM doet niets anders dan uitrekenen wat het meest waarschijnlijke volgende token is. Sommige tech bro’s menen dat dit hetzelfde is als “creatief”.
Dat is in grote lijnen niet perse super anders dan hoe ons brein werkt met onze neuronen. Een verschil is dat ons brein regionen expres met elkaar laat samenwerking voor creativiteit die dat normaal gesproken niet doen, en dat ons brein vaak beter filtert. Maar onze herinneringen zijn ook notoir onbetrouwbaar door problemen die best vergelijkbaar zijn met die van LLMs. Expliciete creativiteit kan best worden gebakken in LLMs en AI in algemeen.
grote lijnen niet perse super anders
Met zo’n uitspraak kan je ook wel alle kanten uit he ;)

Het is maar hoe je er naar kijkt. De manier waarop ons brein creatief denkt en een LLM resulteert iig in iets totaal iets anders. Bij deze discussies is er altijd iemand die zegt “ja wat is verschil met hersenen?”. Nou blijkbaar is er wel degelijk verschil want een LLM kan niet creatief zijn zoals een mens dat is. Er zijn ook talloze technische verschillen tussen een LLM neural netwerk en een brein netwerk van neuronen.
Volgens mij is waar we tegenaan kijken het doelgericht weigeren iets constructiefs te presenteren waar de gebruiker iets mee kan om enkel economische redenen.
Als in: “volgens mij is de aarde plat.”?
Dat is een beetje een probleem omdat we in dat geval in alle richtingenn of de rand of nog onverkend gebied zouden moeten tegenkomen. :+
Waarom zouden ze dat doen, wat is de economische reden? Hoe beter en betrouwbaarder de antwoorden hoe meer deze modellen waard zijn.
Het gaat om de directe en indirecte waarde van kennis. Als jouw AI-service iets blijkt te kunnen wat geld opbrengt ga je die service niet meer voor minder of helemaal kosteloos aan publiek aanbieden.
Dat is toch dan toch juist hele goede economische waarde? Iedereen zou betalen voor zoiets en bedrijven worden rijk.

[Reactie gewijzigd door Henk1827 op 11 mei 2025 16:43]

Dat is waar, echte creativiteit zit er niet in. Maar ik bedoelde creatief niet zozeer als in creatief met kurk, maar meer als in creatief met de feiten omgaan. Wat dat betreft niet echt een duidelijke woordkeuze inderdaad.
Deels mee eens, LLM is niet veel meer dan een google engine search die op basis van de searchresults een gegenereerde tekst terugstuurt. Nul intelligentie. Dat is prima, het is perfect als vervanging van search engines, maar dan moet je het wel ook als zodanig gebruiken: met het nodige wantrouwen over het resultaat.
Het kan bepaalde zaken een stuk beter/sneller dan het menselijke brein, zoals patronen herkennen en dergelijke, waardoor het prima is als bijvoorbeeld foutzoeker in een systeem of als je op zoek bent naar een negende planeet. Maar de antwoorden zal je altijd moeten blijven verifiëren.
Het grote probleem is, dat doet de massa die ChatGPT nu gebruikt niet: het antwoord is automagisch 'de waarheid'.
Ik raad je aan om eens wat meer in detail te zoeken hoe een LLM werkt. Dat is absoluut niet zoals een zoekmachine.

Een zoekmachine is een fuzzy opzoeking in een database, waar "geen resultaat" een mogelijkheid is. Een LLM voorspelt gewoon wat statistisch gezien een logisch vervolg zou zijn op jouw inputtekst. Het is dus eerder een taalmodel dan een opzoekingsmodel, en dat ding "weet" helemaal niets en kan dus ook niet zeggen dat hij t niet weet.

Uiteraard heeft OpenAI en anderen er wat laagjes bovenop gebouwd die wat meer sturen en in toom houden, en ook zoeken op het internet toevoegen. Maar een LLM is in de basis zeker niet zoals een Google search.
Een groot deel van het bouwen van een publieke LLM als Chatgpt bestaat nog uit het afstellen. Daarvoor worden grote aantallen mensen ingehuurd die moeten proberen de AI iets vreemds of onwaars te laten zeggen. Dit “debuggen” zorgt ervoor dat de LLM zoals je zegt wat meer in toom wordt gehouden.

Een bedrijf die deze mensen inhuurt is bv Wikipedia: Scale AI

-knip-

[Reactie gewijzigd door Bor op 11 mei 2025 16:29]

Ik kan me voorstellen dat AI leveranciers tegen hardware limieten aanlopen waardoor ze de resources per gebruiker naar beneden moeten schroeven.

Dan wordt het inderdaad een balans.
Dat is het ook niet helemaal, ik zit met lokale modellen te experimenteren, en wat ik zie is dat de grotere modellen van dezelfde trainingsdata (meer compute en meer contextverwerking) meer fouten maken omdat er een grotere dataset is waardoor er meer te kiezen valt. Ook heb ik getest met redeneermodellen, waarbij die zichzelf dus afvragen of iets klopt en in stappen tot een conclusie komen, dat gebeurt allemaal on-screen dus je kunt volgen wat de llm beredeneert. Wat daar bij hallucinaties vaak misgaat is dat het model focust op het verkeerde stuk tekst uit bijvoorbeeld zijn system message (dat is de 'hoofd' prompt die hij meekrijgt vanuit het systeem) en op basis daarvan probeert allerlei problemen op te lossen. Hoe minder gegevens hij dan heeft, hoe meer gefocusd het antwoord is.
wat bij kleine modellen dan weer misgaat is gebrek aan detailinformatie en het uitblijven van, of versimpelen van complexe antwoorden. Dit kun je deels afvangen met een grotere context (dus meer info uit de voorgaande stappen meenemen) maar er zitten limieten aan. Al met al is het een complexe balans tussen meerdere factoren om er iets bruikbaars uit te krijgen. Leuk als hobby en nuttig voor het samenvatten en indexeren van tekst of het interpreteren van commando's, maar zo vreselijk frustrerend als je consistente acties wilt uitvoeren.
(...) Die systemen kunnen echt wel de consistentie van hun eigen resultaten toetsen en bijsturen waar dat nodig is, eventueel op basis van gebruikers-feedback.
Wanneer systemen "hallucineren" en gebruikers niet weten dat dat gebeurt, waardoor ze geen feedback geven en de systemen geen data krijgen om mee bij te sturen, komt er van dat bijsturen niets terecht. En met elk resultaat dat gegenereerd en niet gecorrigeerd wordt, wordt de "vervuiling" vervolgens groter. Het is een neerwaartse spiraal.

Bij kleinere, lokale AI-modellen die bijvoorbeeld door instanties of bedrijven worden gebruikt en waarbij gebruikers "veel dichter op de data zitten" (lees: kennis van de materie hebben), is corrigeren en het schoon houden van de dataset makkelijker. Daarbij is het in die gevallen ook beter mogelijk om gebruikers te overtuigen dat een AI een hulpmiddel is en geen doel op zich.
Bijsturen is ook allemaal naderhand pas, bij het trainen van het volgende model kun je die info bijsturen, maar dan nog kan het zijn dat je een hardnekkige mythe niet weg krijgt omdat de trainingsdata zo verschrikkelijk groot is dat men onmogelijk alle bronnen kan negeren. Wat dan gebeurt is dat men een (vector) database van vragen en antwoorden bijhoudt waarin bijgestuurd kan worden. Dit heeft dan weer als gevolg dat het langzamer wordt voor gebruikers. Of toch teveel nonsens wordt verkocht indien daar weer fouten of teveel op elkaar lijkende antwoorden in staan.
Nee, ten eerste is de waarheid nergens opzoekbaar, ten tweede is het geen database en hebben modellen geen expliciet uitgeschreven kennis. Ze weten dus niet wat ze weten.
Als je nu een plaatje genereert met de nieuwste technieken, is de kans veel groter dat handen op de juiste manier gegenereerd worden. Maar de kans dat het plaatje niet klopt, blijft bestaan.

Een taalmodel is ook generatieve AI, en daar horen fouten bij. Als je computer het aan kan, probeer er dan maar eens een taalmodel op te draaien (bijvoorbeeld met LM Studio). Dat werkt zonder internet en zonder databases, omdat het model vooraf getraind is. Het antwoord wordt berekend op basis van training, en kan dus volledig onjuist zijn (het is immers beperkt tot het getrainde taalmodel).

Technieken kunnen wel voor betere resultaten zorgen, maar de basis is zo'n taalmodel. Zo'n taalmodel kan bijvoorbeeld allerlei API's aanroepen (zoals zoeken, databases of andere functionaliteit). Maar uiteindelijk wordt het antwoord alsnog verwoord met generatieve AI, wat dan toch weer kan afdwalen van de data die het uit die API's gekregen heeft.
Belangrijk om aan te geven dat propaganda lang niet altijd desinformatie hoeft te zijn... Het zijn ook vormen van communicatie om het volk voor een bepaald gedachtengoed te winnen.
Ik denk dat de voornaamste conclusie die je kunt maken is dat AI helemaal niet zo intelligent is als de makers ervan doen voorkomen.
Ik denk ook dat het van veel mensen "wishful thinking" is, mensen zijn heel optimistisch over AI.

Gedeeltelijk de manier waarop AI gepresenteerd wordt, maar ook verkapte verlangens.

En als je zelf niet heel slim bent, klinkt AI met een robuust/zelfverzekerd antwoord heel slim.
De I in LLM staat voor intelligent 😊

LLMs zijn ook niet intelligent. Het zijn modellen die taal maken op basis van wiskunde. Heel leuk, knap en zeer nuttig.
Maar ze zijn niet intelligent of bewust, enz.
Het lastige, in elk geval in NL, is m.i. dat de I in AI hier vertaald wordt als intelligentie. Terwijl het Engelse intelligence ook inlichtingen kan betekenen.
Maar het in dit geval niet doet. Artificial Intelligence staat toch echt voor kunstmatige intelligentie en niet voor kunstmatige inlichtingen ;-)
Misschien klopt het label Artificial Intelligence wel niet en zou het eigenlijk gewoon Machine Learning moeten heten?
Inderdaad, wat het eigenlijk al heette voor het een vlucht nam.
Ik denk dat het helemaal de verkeerde conclusie is en dat de redactie van Tweakers de nuance niet volledig gebracht heeft. Ik heb de betalende GPT 4o en die werkt enorm goed. Inclusief ondersteunende bronnen en binnen een ‘project’ onthoud hij ook de context en eigen bronmateriaal.

Het klopt dat nieuwere modellen in hun core meer hallucineren maar tegelijk wel nauwkeuriger zijn én ze worden vergezeld met nieuwe tools die hallucinaties opvangen waardoor de eindgebruiker er in de praktijk niet veel van merkt.

En je moet zelf ook wat aanvoelen wanner je je op glas ijs begeeft. Vraag bijv eens een bron aan AI of stel een vervolgvraag. Je kan ook vragen of iets na te rekenen of om iets in vraag te stellen. We hebben leren googelen, nu moeten we met AI prompts leren omgaan.

Zo’n benchmarks zijn ook maar super specifieke benchmarks en de score is afhankelijk van de edge cases die je er in stopt.
Ik denk dat de voornaamste conclusie die je kunt maken is dat AI helemaal niet zo intelligent is als de makers ervan doen voorkomen.
De vraag is wat is ‘intelligent’ en wie claimt dat dan? De makers geven op de kop toe zelf de benchmarks door dus ik begrijp niet dat dit uw conclusie is.
Wie dat claimt? Wat dacht je van de makers die hun product AI noemen? Ik mag tenminste aannemen dat je wel weet waar die I n AI voor staat.
Wat aangenomen mag worden is dat mensen begrijpen dat het principe van 'intelligentie', de aanwezigheid van de verschillende functies die nodig zijn om iets 'intelligent' te noemen, helemaal niets zegt over de mate of efficiëntie van die verschillende functies.

Afgezien daarvan is kunstmatige intelligentie het nabootsen van de functies die menselijke intelligentie definiëren.
AI doet grofweg dezelfde dingen als mensen en maakt dan ook dezelfde 'fouten' als mensen. In sommige gevallen meer door de specifieke restricties van AI, maar in andere gevallen veel minder omdat AI geen last heeft van emoties, geen indirecte 'redenen' heeft en over een veel grotere hoeveelheid 'kennis' beschikt.

De makers van AI doen, voor zover ik weet, geen buitensporige uitspraken over de 'intelligentie' van AI en uit dit artikel blijkt ook op geen enkele manier dat AI 'dom' zou zijn.
De voornaamste vraag blijft altijd wat we nu precies van AI willen.
Als AI moet 'leren' dan zal een zekere mate van 'hallucineren' onoverkomelijk zijn.
Maar er is naar mijn idee niets mis mee om aan te laten geven dat bepaalde informatie niet beschikbaar, verifieerbaar of pure speculatie is.
We zijn er in ieder geval niet mee geholpen als we alles wat AI uitpoept in twijfel moeten trekken.
Mijn mening:
Het probleem is de toon. LLM's schrijven in de 'ik-vorm' en doen alsof ze een gesprek voeren. Ze schrijven in een zeer zelfverzekerde toon.

Als zaken gewoon niet kloppen is dat lastig.

Wanneer je in een zoekmachine naar informatie zoekt is het heel duidelijk dat het door een ander is geschreven.

Als je bij een zoekmachine de verkeerde vraag stelt, dan krijg je gewoon geen wenselijk antwoord. Bij een LLM is dit het erg onduidelijk.

Veel LLMs hebben de neiging om altijd antwoord te willen geven. Ook als ze het niet weten, maar ze laten dat niet duidelijk weten.
Een LLM doet niets.

Het zijn de makers die ervoor gekozen hebben om ze zo te laten werken.
Je kunt ook de AI vragen om te reageren met typfouten en met een wat twijfelachtige toon (tussendoor "uhm, ik denk dat").

Dat zou beter zijn voor de wereld, maar een onzekere AI verkoopt natuurlijk minder goed.
Het hele antropomorfiseren van computersystemen moet stoppen..
De belofte van LLMs, in de markt gezet als “AI”, was mensen kunnen vervangen en zo heel veel kostenbesparing. Als nu blijkt dat deze LLMs toch geen mensvervangers (anthropôs) zijn, valt die belofte in het water en is het klaar met de LLM business.

Als ze in de markt zouden worden gezet als iets wat het echt is, b.v. “een zoekrobot die helpt zoekresultaten uit te schrijven”, dan verkoopt dat denk ik veel minder goed.
Ik ben bang dat die geest al uit de fles is. In natuurlijke taal communiceren zal voor de meeste mensen de voorkeur genieten.
Dat Google "resultaten" produceert waar je meestal weinig aan hebt, is zo bedoeld. Het leveren van goede zoek resultaten is al lang geleden een bijzaak geworden. Waardoor je je tussen de resultaten de pleuris zoekt naar relevante links. Dat is trouwens niet alleen bij Google zo.

Generatieve AI is geen heilige graal en ook dit soort machines kunnen gebruikt worden om (gericht) desinformatie te verspreidden. Het ligt er maar aan wie die machine controleert... Ook al geef je goede en gerichte input.

Dat fact-checken is er altijd al geweest. Om het simpele feit dat iedereen zo'n beetje op internet kan zetten wat hij wil. Ik heb wel eens iemand (lang geleden) horen zeggen, "ja, maar het staat op internet".
Zoekresultaten zijn altijd gewoon een lijst van sites. Dat kan zijn wat je zoekt, dat kan niet zijn wat je zoekt. Maar het is gewoon een oplijsting waarvan een systeem denkt dat het relevant is voor datgene waar je naar zoekt.

Een taalmodel probeert niet gewoon een antwoord te geven, het probeert een antwoord te geven dat overtuigend correct is. Mensen zijn minder snel kritisch bij iets dat er correct uitziet, en omdat er nog altijd een grote mate van correcte antwoorden uitkomen, zijn er ook vele mensen die spijtig genoeg blindelings vertrouwen op deze modellen en alles wat ze zeggen voor waar aannemen.

En dat is waar het probleem met deze "hallucinaties" vandaan komt.

En hoe ga je iets factchecken? Ga je daarna alsnog naar een gewone search engine gaan om daar je probleem nogmaals uit te zoeken? Natuurlijk niet. Maar nu ga jij er van uit dat mensen LLMs gebruiken voor simpele zoekopdrachten. Deze worden ondertussen voor zovele andere taken ingezet. Denk maar aan automatisatie, industrie, medische wereld, software ontwikkeling, ... . AI gaat zoveel verder dan simpelweg zeggen dat we iets van het internet halen.
Als een search engine niets vind of maar 3 llhits heeft op je vraag is de kwaliteit vrij duidelijk. De ai geeft 1 antwoord en formuleert dat zo stellig dat het waar lijkt. Je hebt dus niets om de kwaliteit te toetsen (zoals het aantal hits) behalve de ai zelf.
Bij niet relevante Google resultaten zie je dat meteen zelf... AI modellen hebben echter een vlotte babbel en daar is het als gebruiker veel moeilijker om op te merken dat hij aan het hallucineren is.

Ik gebruik het recent redelijk vaak voor technologie vragen die niet echt mainstream zijn en daar merk ik dat het resultaat echt bedroevend is en dat hij vaak dingen aan het verzinnen is. De oorzaak is vermoedelijk te weinig training maar dan ben ik er niet mee gediend nonsens als antwoord te krijgen (iets wat ik bij Google niet krijg want die kan het dan ook gewoon niet vinden).
Dat laatste is juist het probleem, een AI kan niet redeneren, dus het kan zulke fouten niet zien. Het probleem volgens mij ligt aan het feit dat we meer en meer AI-gen content zien, dus zoals de Ouroboros begint het hoofd de staart te eten.

Er zijn betaalde modellen van oa. Perplexity en een paar andere specialisten die nu terug mensen als filters aannemen om de AI te trainen. Die dingen kosten handenvol geld denk 100-3000 euro/seat/maand afhankelijk van de code assistance dat je vraagt (de duurste zijn bedoeld o.a. voor QDA en grote data (R/SAS))
Feit is dat hallucinaties geen bug zijn maar een feature! Dit is namelijk hoe een LLM inter werkt, het neurale netwerk itereert door de data en daarbij draait het zelf enkele keren in de rondte, hieruit formuleert het een antwoord op de gegeven prompt. De verbindingen tussen de neurale knoppunten hebben allemaal een bepaald gewicht meegekregen en afhankelijk van welke routes er oplichten worden bepaalde routes waarschijnlijker dan andere. Wanneer het LLM te weinig informatie heeft om mee te werken dan worden die gewichten des te belangrijker. Er komt dan niet direct een evidente winnaar (route) uit de bus. De truc om dan toch met iets te komen zit hem erin dat de gewichten zich niet lineair verhouden ten opzichte van het voorgaande knooppunt en het volgende knooppunt. Hier wordt een curve aan toegevoegd. Het resultaat daarvan is dat het LLM in sterke mate een ogenschijnlijk willekeurige route kiest die op dat moment rekenkundig het hoogste resultaat laat zien. Dat hoeft niet per definitie ook de waarheid te vertegenwoordigen. Maar omdat er onvoldoende kwalitatieve informatie is om dit vervolgens te checken krijg je dus antwoorden die niet goed geverifieerd kunnen worden maar door het LLM wel als waarheid worden gepresenteerd.

[Reactie gewijzigd door FrankHe op 11 mei 2025 14:26]

Zomaar een voorbeeld.
X is hierbij een specifiek commando in linux.

Vraag 1: Maak een commandline om <iets> met files te doen met commando <X>.
AI geeft het antwoord en het werkt maar dan bedenk je je.. zou wel handig zijn als het recursief werkt.

Vraag 2: Maak het recursief.
De -r optie wordt klakkeloos aan het commando toegevoeg echter kent dit commando de -r niet.

Ik heb dit vaak.
Het LLM doet exact waarop het getraind is. Bij een prompt waarin je vraag om een Linux commando recursief te maken is het meest voorkomende antwoord nu eenmaal -r toevoegen. Het LLM is niet intelligent, het denk niet na en kan niet beredeneren. Het toont slechts het meest waarschijnlijke antwoord, meer niet.
Ik vraag mij af of het probleem van "hallucineren" niet te groot wordt aangezet. Is het niet vergelijkbaar met bijvoorbeeld Google resultaten op je zoekopdracht waar je niet naar op zoek bent of links met foutieve info. .. Uiteindelijk ligt het aan de input
Als je een LLM vraagt cafés aan te raden en hij komt met cafés die niet bestaan dan ligt dat aan de input?
Als je uit moet leggen dat je cafés wil die bestaan dan wordt het wel erg vermoeiend, en kan je het beter op een andere manier opzoeken.
Laatst een video gezien over dat een LLM geen plaatje kan genereren van een tot de rand toe gevuld glas wijn, omdat daar simpelweg geen plaatjes van zijn. Je kunt de input zo precies en nauwkeurig maken als je wil, dat glas blijft halfvol, omdat dat ding gewoon niet beter weet.
maar het antwoord wordt gegeven in overtuigende zinnen en taalgebruik.je gelooft het dus eerder dan dat je zelf op wat links klinkt in een zoekmachine.We zijn nogal makkelijk te overtuigen en op te lichten. Daarmee heeft het dus meer effect.
Ik vraag mij af of het probleem van "hallucineren" niet te groot wordt aangezet. Is het niet vergelijkbaar met bijvoorbeeld Google resultaten op je zoekopdracht waar je niet naar op zoek bent of links met foutieve info.
Sinds Google steeds meer gebruik maakt van AI voor zoekresultaten is het antwoord sowieso "ja".

[Reactie gewijzigd door The Zep Man op 11 mei 2025 07:53]

Ik snap echt niet waarom mensen zo wild zijn van iets dat zelf antwoorden kan uitvinden. In sommige (creatieve) situaties is dat nuttig maar zoals ze het nu verkopen willen ze dat we dit voor alles gebruiken. Ik denk ook dat de kwaliteit van LLM achteruit zal gaan gezien deze uiteindelijk getraind zal worden op data die het zelf heeft gegenereerd.
Dat lijkt gek toch? Trainen op gegenereerde data.
Maar is dat het ook?

Als kind die je iets heel vaak om het te perfectioneren. De data van de proefjes genereerd het kind vaak zelf, evaluatie of het goed is, komt van eigen observaties die bekrachtigd worden door de reacties uit de omgeving.
Een bal komt op de plek waar het kind dat wilde, of op een plek die het kind nog leuker vindt.

We kunnen een model trainen de knoppen van een rekenmachine in te drukken, zonder dat het weet wat die kan en wat die knoppen betekenen.
Je kunt het model trainen om te voorspellen wat er op het scherm komt te staan gegeven een toets ombinatie-reeks. Je kunt het ook andersom doen gegeven dat dit de uitkomst is en deze cijfers de input welke toets combinaties zijn er gebruikt? En nog anders, gegeven deze output en deze toets combinaties welke cijfers had de input.

Zo krijg je data die niet eerder bestond en valideerbaar is. Dit kun je met veel dingen doen, bijvoorbeeld ook met een natuurkundig model, zelfs met een simulatie van de fysieke wereld. En zo binnen die virtuele wereld heel veel situaties genereren en het model leren wat de oorzaak en gevolg zijn, maar ook dus andersom, gegeven deze resultaten in deze context, wat zijn mogelijke oorzaken, gegeven de begin situatie.
En dat is dan te toetsen in het model.

Idem met taal, kloppen de labels die het model iets geeft, simuleert situaties die beschreven zijn in teksten die je kent. Her combineer en valideer of dat kan en consistent is met eerdere observaties.

Zo kan het leren dan een object een bepaalde kleur heeft, maar onder belichting als een andere kleur wordt waargenomen, ondanks dat de kleur van het object zelf niet veranderd.

En zo kan het leren dat banden slijten. En kan het nieuwe uitdrukkingen ontdekken door correlatie van woorden uit andere contexten, andere talen, andere visualisaties.
Uitdrukkingen die we zelf niet eerder vonden, maar een verassend goede verwoording kunnen zijn.

Het zelfde geldt voor programmeertaal.
Zonder dat makers er bewust van zijn, leren modellen ook dingen die niet bewust in de data zit.
Zo zijn een aantal modellen verassend goed in het vertalen van processor instructies tussen twee verschillende processor architecturen.

Dat zit niet expliciet in de trainingsdata, het is niet expliciet een trainingsvraag geweest, het is wat het model zelf heeft geleerd / ontdekt, door abstracties en correlaties.
Ik denk ook dat de kwaliteit van LLM achteruit zal gaan gezien deze uiteindelijk getraind zal worden op data die het zelf heeft gegenereerd.
Ja, éérst worden we verslaafd aan AI, kinderen kunnen geen verslag meer schrijven zonder AI en weten nieteens hoe ze zoekmachine of eigen logica moeten gebruiken.

En daarna zakt de kwaliteit van AI in omdat het te duur is om de hele wereld te voorzien van kwalitatieve AI antwoorden binnen een paar seconden ofwel d'r zoveel meuk op het internet komt dat AI zijn eigen onzin gaat geloven.
[...]
Ja, éérst worden we verslaafd aan AI, kinderen kunnen geen verslag meer schrijven zonder AI en weten nieteens hoe ze zoekmachine of eigen logica moeten gebruiken.
In 1995 wist niemand hoe je een zoekmachine moest gebruiken op een happy few na.
Men was bang dat kinderen niet meer zouden leren om te gaan met het kaarten systeem van een bibliotheek en zo dus nooit meer de juiste boeken konden vinden en zo dommer zouden worden.
Later werd men bang dat ze niet meer konden zoeken in een encyclopedie en zo dus steeds dommer zouden worden.
Later was men bang dat niemand meer wist hoe internet nieuwsgroepen zouden werken, waardoor belangrijke dialoog, discussie en uitleg niet meer plaats zou vinden en mensen dommer zouden worden.


Ja, het blijft bijzonder dat een taalmodel informatie compacter kan opslaan dan een gezipte wikipedia en nieuws website.
Nog bijzonderder is dat je die informatie ook in een taal er uit kunt krijgen waar überhaupt in die taal nog geen wikipedia artikel of nieuwsbericht was.
Voor veel mensen nieuw en ongrijpbaar. Net zoals het binnen een paar dagen een reactie krijgen vanuit Amerika in een nieuwsgroep op mijn bericht voor mij was toen het gebruikelijk was dat een brief er 10 dagen over deed om überhaupt in Amerika aan te komen. Nu had ik eerder zelfs al een inhoudelijke reactie.

Zo bijzonder en onvoorstelbaar moet het wellicht zijn voor veel mensen dat een lokale AI binnenkort je Google kan vervangen. Dat 100TB aan ge-gz-te tekst is samen te vatten en te vertalen in vele talen in elke tientallen gigabytes.

Die basis is er al. We zijn nu bezig om de correlaties tussen die teksten ook goed in het model te krijgen. Zodat er 'begrip' in het model zit van wat het is waar de tekst, plaatjes, video, audio etc. over gaan, zodat het uiteindelijk minder fouten zal maken in het verbanden leggen er tussen en het vertalen naar een context die relevant is voor de vrager, zonder dat de 'waarheid' schade gedaan wordt.

Let op op je werk. Veel mensen, van nature, hallucineren. Als ze een vraag niet kunnen beantwoorden, verzinnen ze ter plekke een goed klinkend, maar soms echt onjuist, antwoord. Soms weet de luisteraar dat ook, maar vind dit prettiger dan 'nee', 'kan niet', 'ik weet het ook niet', 'ik weet zelfs niet hoe ik daar achter moet komen'. Sommige luisteraars nemen het waar en vertalen dan, ik hij weet het niet, andere vinden het fijner om met sprookjes aan de slag te gaan zelfs als ze door hebben dat het niet klopt. Het samen werken aan het zelfde is belangrijker. Liever de illusie van vechten om een deadline te halen die we weten dat we later moeten uitstellen - maar nog niet doen-, dan nu gestructureerd analyseren hoe iets wel te doen en de deadline daarop aan te passen.
Liever een illusie consensus.

Met dat gegeven loop je dus het risico dat mensen (onbewust) ook dit type reacties van een llm verwachten. Niet de waarheid of werkelijkheid, maar een firefighter antwoord, een houthakker met botte zaag die liever door zaagt i.v.m. tijdsdruk dan zijn zaag scherper maken.
Grote kans dat de meeste mensen zo'n antwoord het meeste wenselijk vinden: nog even flink door zagen, wellicht met meer mensen aan de zaag trekken, werken in zaag shifts etc. in plaats van, stop even, besteed een uur om de zaag weer scherp te maken. Neem voldoende rust tussendoor, pauzeer om steeds wat te drinken, zorg dat je voldoende eet. Nee, natuurlijk niet, want dan moet je meer plassen en dus heb je nog minder tijd, je bent gekke Henkie niet, je gast juist minder drinken.

Dat type mens zeg maar, die zij er veel. En hier lijkt het logisch wat je moet doen, maar in je eigen werkveld gebeurt dit ook, de shortcut die langer blijkt te zijn. Dat is waar veel mensen op sturen. Dat is waar de duimpjes omhoog naar sturen.
Aan de ene kant denkt elke generatie dit, aan de andere kant zit er ook een deel waarheid aan. In 1995 waren we optimistisch en dachten we dat dankzij het Internet en computers binnenkort iedereen met een computer kan werken. Echter vandaag zijn er proportioneel minder programmeurs vergeleken met het aantal computers in gebruik.

In 2025 zijn nieuwe werknemers minder goed met zakelijke taken dan mensen in 1995 want vandaag weten ze zelfs niet hoe ze een (boekhoudkundige) rekenmachine moeten gebruiken dus de slag naar vb. Excel is vele malen groter omdat je ze eerst moet uitleggen wat een rekenmachine is, dan een boekhouding, dan Excel. Zo ook je voorbeeld van een bibliotheek, hoeveel programma’s gaan gewoon niet over de organisatie van objecten - de 21-22 jaar oude komt uit school en kennen geen enkel organisatie systeem, dus ze kunnen ook geen organisatie systeem bedenken, en dat komt ook met denkfouten in mensen die weten hoe Python werkt, ze denken gewoon niet om flexibiliteit zoals het Dewey systeem in te bouwen, waar wij vroeger zowel met BASIC als andere systemen (en ik doe dit nog steeds) categorieën en functies organiseren met grote ruimte (eg 100, 200 ipv 1,2). Zo ook kunnen weinig mensen binair rekenen, zoals de 0770 voor POSIX waar je honderden combinaties in 32 bits kunt steken, zulke compacte structuur vind je enorm weinig voor combinatorics, ze parsen liever door een JSON structuur met kBs in arrays voor alle mogelijke combinaties in een set dan vb een 32 bit bitmask te gebruiken.

[Reactie gewijzigd door Guru Evi op 11 mei 2025 14:01]

Bitmasks zijn ook niet voor iedereen weggelegd natuurlijk om te doorgronden.

Wellicht als we de manier van denken / best practices in de tools embedden, in de zin: het is lastig om er van af te wijken, of zelfs onmogelijk.

Ik kom tegenwoordig projecten tegen waar de datasets ontworpen zijn om exact het output format te zijn. Wat er toe leidt dat er duizend miljard writes (letterlijk) nodig zijn in korte tijd en maar een paar honderd miljoen read per jaar.

Met een andere data structuur zou het aantal writes slechts 4 miljard zijn. En het aantal reads halveren.
Vroeger was je een beetje geforceerd om na te denken over je systeem alvorens te implementeren, en je kreeg de achtergrond tenminste van analoge systemen. Vandaag kunnen kinderen niet eens een analoge klok lezen, en zelfs programmeurs verstaan geen systeemarchitectuur zelfs simpele programma’s die honderden MB aan geheugen nodig hebben.

Mijn dochter zit in haar eerste jaar unief voor computer wetenschappen, ze beginnen niet eens met architectuur zoals ik ooit begonnen heb (en ze hebben niet eens over Knuth’s boeken gehoord), zij is op haarzelf begonnen met C, veel van haar klasgenoten hebben speciale klassen om hun wiskunde op niveau te brengen (basis statistiek en stelkunde), niemand leert iets over Git tot het 3de jaar, toen ik (20+ jaar geleden) begon in de ‘electronica’ was de aanname dat je tenminste met een diploma wetenschappelijk onderwijs kwam en voordat we begonnen met microcontrollers en PLC, en je wist niet hoe je in Pascal of BASIC kon programmeren had je ook wel problemen, moest je in de zomervakantie een paar klassen volgen.

[Reactie gewijzigd door Guru Evi op 11 mei 2025 18:07]

Recent eerste jaar HBO-ers uit Den Haag langs gekregen, die moesten toch echt eerst de data-structuur in UML schrijven voordat ze mochten starten met de Java code.
Code moest verplicht in git.
Een aantal schreef unit testen, maar pas ná het schrijven van code, TDD komt volgend semester.

Een had al ervaring met php, nog niet met Java, en die heeft met hulp van AI een websocket applicatie gemaakt in java waar chats direct bij alle ingelogde gebruikers binnen kwamen (ver buiten de opdracht).

[Reactie gewijzigd door djwice op 11 mei 2025 21:12]

[...]
In 1995 wist niemand hoe je een zoekmachine moest gebruiken op een happy few na.
Men was bang dat kinderen niet meer zouden leren om te gaan met het kaarten systeem van een bibliotheek en zo dus nooit meer de juiste boeken konden vinden en zo dommer zouden worden.
Later werd men bang dat ze niet meer konden zoeken in een encyclopedie en zo dus steeds dommer zouden worden.
Later was men bang dat niemand meer wist hoe internet nieuwsgroepen zouden werken, waardoor belangrijke dialoog, discussie en uitleg niet meer plaats zou vinden en mensen dommer zouden worden.
Goeie analogie. Sommige dingen heeft het internet en zoekmachines inderdaad makkelijker gemaakt. Boeken zoeken bijvoorbeeld, daarvoor hoef je niet meer naar een bibliotheek met zo'n kaartensysteem.

Maar. Maar. De manier waaarop tegenwoordig met social media in oneliners gecommuniceerd wordt is echt wel een stap terug ten opzichte van de nieuwsgroepen, waarbij belangrijke dialoog, discussie en uitleg wat onder druk zijn komen te staan.

Bit of column A, bit of column B, dus. En zo zal het met AI / LLMs ook wel zijn.
Het is deels een reactie op het slechter worden van zoekmachines, denk ik. Zoekmachines kunnen worden beïnvloed door de websitemakers middels SEO. En daar maken websitemakers uiteraard gebruik van.
Het gaat erom hoe je de dataset van het model benaderd dmv de juiste prompts. Je kan een model alle kanten op laten vliegen door het elke keer een pootje te lappen, maar doe je dit vaker dan begin je ook in te zien hoe zo'n model "denkt". En als je dat door hebt en de juiste prompts geeft dan wordt zo'n model ineens heel waardevol.

Maar dat is de zwakte van de mens. We willen gemak. Dus we gaan er vanuit dat AI slim is, maar AI is helemaal niet slim, Het probeert logisch te denken met de data die het bezit. En daarmee kan het alle kanten op schieten. Maar het is toch echt de gebruiker zelf die het model doet laten hallucineren.

Edit: nog even een kanttekening. Jullie weten toch wel dat je gigantisch gefopt wordt momenteel door de AI hype? AI bestaat al bijna 50 jaar (als het niet langer is). Alleen heeft AI (of heette het vroeger niet gewoon de personal computer) nu access tot grotere verwerkingschips en datasets. That's it, meer is het niet. Maar dat bestond al toen ik nog in de zandbak aan het spelen was.

[Reactie gewijzigd door Yzord op 11 mei 2025 08:10]

Recent was iemand op GoT met de vraag welk type toetsenbord op de foto stond (eg US International ISO, maar dan dus anders). Ik had die foto in ChatGPT gegooid, welke prompt had ik daar erbij moeten geven om te voorkomen dat hij zou gaan hallucineren?

Want de vraag welk type toetsenbord het was, begreep hij prima, ik kreeg netjes terug dat het Belgische AZERTY was, en dat kan je zien omdat de speciale tekens !@#$%^&*() waren (ja ik ben lui, dit is de reeks van mijn QWERTY). Het kleine detail: Dat was een puur verzinsel. In die foto, die prima scherp was verder, waren de speciale tekens compleet anders. En daar kon ik hem op wijzen, en dan kon hij van een specifiek toets ineens wel het correcte teken uitlezen. Maar lang verhaal kort, hij kwam niet verder dan blijven claimen dat het Belgisch AZERTY was vanwege een rij speciale tekens die gewoon niet in die foto stonden.
Recent was iemand op GoT met de vraag welk type toetsenbord op de foto stond (eg US International ISO, maar dan dus anders). Ik had die foto in ChatGPT gegooid, welke prompt had ik daar erbij moeten geven om te voorkomen dat hij zou gaan hallucineren?
Waarom heb je daar GPT voor gebruikt? Wat deed je denken dat GPT die vraag zou kunnen beantwoorden?
Je gebruikt het verkeerde gereedschap, dus het is niet vreemd dat je het verkeerde antwoord krijgt.
Het kleine detail: Dat was een puur verzinsel.
Dat is wat GPT doet. GPT verzint alles. Als je geen verzinsels wil dan moet geen GPT gebruiken.
GPT is een toneelspeler. GPT doet alsof.
Huh? Afbeeldingen verwerken en beschrijven wat er te zien is op de afbeelding is gewoon één van de primaire functies van ChatGPT. Dus daarom heb ik die daarvoor gebruikt. Waarom zou hij dat niet kunnen doen?

Als je bijvoorbeeld ChatGPT vraagt wat er op dit plaatje te zien is: https://deeldenatuur.nl/s...Heere-%281-van-1%29-3.jpg, dan krijg je gewoon een nauwkeurige beschrijving:
This picture shows a red-eyed tree frog (Agalychnis callidryas) resting on a large, glossy green leaf, likely in a tropical rainforest environment. The frog is characterized by its vivid green body, striking red eyes, blue sides with vertical stripes, and bright orange feet. The image is well-composed and focuses on the frog's vibrant colors and the texture of the leaf beneath it.
Dan gaan zeggen dat ChatGPT alles verzint en als je geen verzinsels wil je het niet moet gebruiken is echt een dooddoener.

Het daadwerkelijke probleem in dat geval was dat het waarschijnlijk een QWERTY toetsenbord was, waar de vorige eigenaar zelf AZERTY van had gemaakt. Dus de indeling bestond simpelweg niet. En dat is een probleem voor de LLMs, want ipv van te zeggen dat ze het niet kennen, gaan ze dan dingen hallucineren.
Huh? Afbeeldingen verwerken en beschrijven wat er te zien is op de afbeelding is gewoon één van de primaire functies van ChatGPT. Dus daarom heb ik die daarvoor gebruikt. Waarom zou hij dat niet kunnen doen?
Ah, duidelijk, je gelooft de reclame. Sorry als ik het wat lomp breng, maar je moet niet teveel geloven van wat bedrijven over hun eigen producten vertellen. Dat is altijd wat mooier dan de werkelijkheid is. Het is zoiets als 'light cola' presenteren als gezond alternatief.
Dan gaan zeggen dat ChatGPT alles verzint en als je geen verzinsels wil je het niet moet gebruiken is echt een dooddoener.
"Alles" verzinnen is misschien wat te sterk maar het punt blijft dat we gereedschap inzetten voor de verkeerde taak. Het is mooi dat het een beetje werkt maar perfectie moet je gewoon niet verwachten.
En dat is een probleem voor de LLMs, want ipv van te zeggen dat ze het niet kennen, gaan ze dan dingen hallucineren.
Je gaat er van uit dat LLMs feitelijke kennis hebben en dat is niet zo. We proberen dat er wel een beetje tegenaan te schroeven door LLM's te combineren met databases met feitjes, rekenapparaten, controles achteraf en andere middelen. De belangrijkste reden dat LLM's vaak het juiste antwoord geven is omdat het juiste antwoord beter klinkt omdat het vaker op internet terug te vinden is (of woorden van vergelijkbare strekking).
Het is af en toe haast magisch hoe veel we voor elkaar krijgen met een taalmodel en hoeveel (schijnbaar) intelligent gedrag daar uit komt. Maar uiteindelijk gaat het om taal en taalstructuren, logisch klinkende redeneringen opzetten is een nevenverschijnsel.
Ah, duidelijk, je gelooft de reclame. Sorry als ik het wat lomp breng, maar je moet niet teveel geloven van wat bedrijven over hun eigen producten vertellen. Dat is altijd wat mooier dan de werkelijkheid is. Het is zoiets als 'light cola' presenteren als gezond alternatief.
"Sorry"? Doe dan op zijn minst alsof het je spijt... Echt kan je nog meer met gestrekt been erin gaan?

Maar jouw stelling is dat ChatGPT, en misschien wel alle LLMs, dus compleet nutteloos zijn voor alles wat niet neerkomt op onzin verzinnen? Immers ja ze zeggen wel anders, maar dan ben je een naiieve stommeling die voor de reclame is gevallen... En dat hij dus gewoon prima in staat is om afbeeldingen te beschrijven is puur toeval? Beetje het idee van een oneindig aantal apen op een typemachine die Shakespear schrijven?

LLMs hebben significante beperkingen, waar ik ook mee begon in mijn eerste post. Maar ik ga toch echt niet mee in je stelling dat ze eigenlijk niks kunnen. Zoals ik net ook in mijn voorbeeld liet zien, kan hij wel degelijk afbeeldingen herkennen en beschrijven.
Je gaat er van uit dat LLMs feitelijke kennis hebben
Euhm nee, dat doe ik niet. Geen idee hoe je hierbij komt. Maar hij is wel erg goed in correlaties vinden. Wat nou exact de taak was die ik hem gaf.

Uit nieuwsgierigheid heb ik hem een Garmin Edge Explore foto die ik nog had liggen gegeven: Hij gaf netjes aan dat het een Garmin Edge was, maar hij was niet direct zeker welke. Dus een prima antwoord. Toeval dan ook? En toen was ik door mijn gratis ChatGPT credits heen :P .
"Sorry"? Doe dan op zijn minst alsof het je spijt... Echt kan je nog meer met gestrekt been erin gaan?
Het spijt me omdat ik geen betere manier heb kunnen bedenken om de situatie duidelijk te maken. Ondanks talloze waarschuwingen blijven mensen veel te grote verwachtingen hebben van LLMs.
Maar jouw stelling is dat ChatGPT, en misschien wel alle LLMs, dus compleet nutteloos zijn voor alles wat niet neerkomt op onzin verzinnen?
Nee, dat zeg ik niet. Ik zeg dat ze goed zijn in taal, niet in feiten of logica.
Als het verschil tussen "zin" en "onzin" belangrijk is dan is een LLM niet het juiste gereedschap.
Immers ja ze zeggen wel anders, maar dan ben je een naiieve stommeling die voor de reclame is gevallen... En dat hij dus gewoon prima in staat is om afbeeldingen te beschrijven is puur toeval?
Er zijn gevallen waar in het prima werkt maar je kan er niet op vertrouwen.
LLMs hebben significante beperkingen, waar ik ook mee begon in mijn eerste post. Maar ik ga toch echt niet mee in je stelling dat ze eigenlijk niks kunnen. Zoals ik net ook in mijn voorbeeld liet zien, kan hij wel degelijk afbeeldingen herkennen en beschrijven.
Je maakt het weer veel te extreem. Ik zeg niet dat ze niks kunnen, ik zeg dat ze veel verkeerd worden gebruikt en mensen er te veel van verwachten.
Euhm nee, dat doe ik niet. Geen idee hoe je hierbij komt. Maar hij is wel erg goed in correlaties vinden. Wat nou exact de taak was die ik hem gaf.
Je verwacht dat de LLM op een of andere manier weet dat het keyboard in kwestie niet bekend is. Dat er een database is waarin de LLM kan opzoeken of een toetsenbord bestaat of niet. Er zijn wat stapjes gemaakt om dergelijk functionaliteit toe te voegen aan LLMs, maar dan verlaat je de wereld van LLM's grotendeels.

Het klopt dat het systeem goed is correlaties en patronen vinden maar dat is nog iets anders dan die correlaties begrijpen.
Uit nieuwsgierigheid heb ik hem een Garmin Edge Explore foto die ik nog had liggen gegeven: Hij gaf netjes aan dat het een Garmin Edge was, maar hij was niet direct zeker welke. Dus een prima antwoord. Toeval dan ook? En toen was ik door mijn gratis ChatGPT credits heen :P .
Het werkt soms, maar je kan er niet op vertrouwen. Op een bepaalde manier kun je ieder antwoord beter maken door er bij te zeggen dat je het niet zeker weet.
Het spijt me omdat ik geen betere manier heb kunnen bedenken om de situatie duidelijk te maken. Ondanks talloze waarschuwingen blijven mensen veel te grote verwachtingen hebben van LLMs.
Misschien een LLM gebruiken?

Echt, dit begon met dat ik een voorbeeld gaf waar een LLM gewoon met hallucinaties kwam, als antwoord op iemand die stelde dat hallucinaties komen door verkeerde prompten.
Je verwacht dat de LLM op een of andere manier weet dat het keyboard in kwestie niet bekend is. Dat er een database is waarin de LLM kan opzoeken of een toetsenbord bestaat of niet. Er zijn wat stapjes gemaakt om dergelijk functionaliteit toe te voegen aan LLMs, maar dan verlaat je de wereld van LLM's grotendeels.
LLMs zijn grote correlatiematrixen onder de streep. Die zijn dus juist goed om correlaties te vinden. Wat je alleen zou willen als hij geen goede correlatie vindt, dat hij dat dan zegt.

En euhm, een LLM heeft (indirect) gewoon een database toetsenboard layouts. Net als dat hij indirect een database heeft met kikkers, en daardoor kan herkennen dat iets een boomkikker is. Maar start ChatGPT maar en vraag hem naar de QWERTY layout. Die komt gewoon netjes op je scherm te staan. Niet omdat hij direct een hele database heeft, maar omdat hij op data getrained is waar onder andere toetsenbord layouts in voorkomen.
Sure! Here's a standard QWERTY keyboard layout (U.S. English version):

yaml
Copy
Edit
~ ` ! 1 @ 2 # 3 $ 4 % 5 ^ 6 & 7 * 8 ( 9 ) 0 _ - + = Backspace
Tab Q W E R T Y U I O P { [ } ] | \
Caps Lock A S D F G H J K L : ; " ' Enter
Shift Z X C V B N M < , > . ? / Shift
Ctrl Win Alt Spacebar Alt Win Menu Ctrl
Would you like an image version or a layout for a different language or device (like Mac or mobile)?
Edit: Maak anders zelf eens een foto van je toetsenbord, en vraag ChatGPT te herkennen wat voor een toetsenbord het is. En kom dan terug met of het werkte of niet.

[Reactie gewijzigd door Sissors op 11 mei 2025 13:47]

LLMs zijn grote correlatiematrixen onder de streep. Die zijn dus juist goed om correlaties te vinden. Wat je alleen zou willen als hij geen goede correlatie vindt, dat hij dat dan zegt.
Correlaties, maar geen causaties.
Op grond van de correlaties worden gegeneraliseerd. Vanuit die generalisaties wordt vervolgens geextrapoleerd om reacties op prompts te schrijven. Generalisaties zullen altijd (per definitie) te simpel zijn en dus fouten bevatten.
En euhm, een LLM heeft (indirect) gewoon een database toetsenboard layouts. Net als dat hij indirect een database heeft met kikkers, en daardoor kan herkennen dat iets een boomkikker is. Maar start ChatGPT maar en vraag hem naar de QWERTY layout. Die komt gewoon netjes op je scherm te staan. Niet omdat hij direct een hele database heeft, maar omdat hij op data getrained is waar onder andere toetsenbord layouts in voorkomen.
Dat woord "indirect" doet hier wel veel werk. Het hele punt van een neuraal netwerk is dat je niet al je trainigsdata exact opslaat maar patronen leert. Op grond van zo'n patroon kun je een heel toetsenbord herconstrueren. Je kan het echter niet omdraaien.
Als je een vraag stelt dan volgt een LLM z'n patroon om het meest waarschijnlijke antwoord te geven. Als dat een bekend patroon is zoals "de qwerty-reeks" dan gaat dat zoals je verwacht. Maar daarbij denkt een LLM dus niet zelf na over de logica van zo'n plaatje. Het schrijft een redenatie die klinkt zoals andere redenaties die het LLM heeft gezien. Een LLM reageert met een tekst die past bij de vraag, of het nu inhoudelijk correct is of niet.

Daarbij is het tegenwoordig populair om LLMs te combineren met andere middelen. Het zou kunnen dat GPT ook een echte database met plaatjes van toetsenborden heeft om actief in te zoeken maar dat is dan geen deel van het LLM.
Edit: Maak anders zelf eens een foto van je toetsenbord, en vraag ChatGPT te herkennen wat voor een toetsenbord het is. En kom dan terug met of het werkte of niet.
Je gaf zelf het voorbeeld van een toetsenbord waar het niet op werkt. Althans, niet zoals jij wíl dat het werkt. In mijn ogen doet GPT daar precies wat je van een LLM kan verwachten. De LLM heeft een geloofwaardig klinkende tekst geschreven die je kan verwachten als je mensen zo'n plaatje laat zien. Ik gok dat je je vraag in het Nederlands hebt gesteld en misschien is er ook nog wel iets van dialect doorgelekt waardoor GPT je vraag een bepaalde context heeft meegeven. ("Nederlanders klagen veel over Azerty-toetsenborden", of zo iets).

Het is verbazend hoe vaak het wel goed. Het roept vragen op over hoe menselijke intelligentie werkt. Hoeveel denken we echt na over wat we zeggen of reageren wij ook vooral met wat gevoelsmatig lekker klinkt? Zijn we ons wel bewust van onze eigen hallucinaties of vinden we die zo gewoon dat we het niet eens merken. Kleine leugentjes vertellen doen we allemaal wel eens, of het nu een vergissing is of uit beleefdheid. Ons menselijk geheugen is niet erg betrouwbaar, regelmatig blijkt bij rechtszaken dat mensen dingen totaal verkeerd hebben onthouden. Mensen die verhalen navertellen zijn geneigd om details zelf in te vullen zonder dat ze het ook maar beseffen. Ook mensen geven liever een antwoord dat maar voor 20% goed is dan te zeggen dat ze het niet weten. Dat is niet om te misleiden maar omdat we vaak blind zijn voor wat we niet weten.
Vanuit die generalisaties wordt vervolgens geextrapoleerd om reacties op prompts te schrijven.
Extrapolaties zijn op zich niet erg, maar zeg dan dat je (de LLM) het niet zeker weet! Wij kunnen hier op Tweakers daarover discussiëren en daardoor krijgt iedereen hier een beetje (of veel) twijfel mee wat de LLM kan. Het probleem zit meer in de gebruiker die onbewust met LLM's te maken krijgt: Steeds meer bedrijven werken met AI, ook voor hun klanten en als die klanten niet weten dat de LLM ook onzin kan spuien, ontstaat er toch een heel groot probleem.
welke prompt had ik daar erbij moeten geven om te voorkomen dat hij zou gaan hallucineren?
Als het zo simpel was dan zou hallucinatie niet een probleem zijn.
Je kan het niet voorkomen. It's a feature, not a bug.
Ik loop o.a. tegen het volgende aan, voor kleine bash scripts gebruik ik LLM.
Als ik dan vraag schrijf mij een bash script om software x te installeren maar gebruik geen apt-key omdat die absolete is en ik krijg als nog een stukje code met apt-key dan ligt het niet aan de prompt maar volgens jou wel?
Hoe zou ik het dan moeten duidelijk maken?
Ik moet het meerdere keren aangeven tijdens zo een sessie zeg maar.
Het is interessant dat men bij AI direct erkent dat "hallucineren" bestaat wanneer de AI iets beweert dat in strijd is met het gezond verstand of met de "first principles".

Als een mens (of grote groep mensen) iets zegt dat in strijd is met het gezond verstand of met "first principles", omdat de redenering gebaseerd is op verhaaltjes van andere mensen zonder toetsing, dan noemt men dat niet "hallucineren" maar "een andere visie" en dan gaat men democratisch bepalen wie gelijk heeft.

Als men godsdiensten en de meeste politieke stromingen zou toetsen aan first principles zou men wellicht >90% van wat vele mensen als "uitspraken van experts" beschouwen ook beter wegzetten als hallucinaties.

Het grote verschil is dat AI elke maand beter wordt en op termijn wél zal toetsen aan first principles, terwijl mensen wellicht zullen blijven weigeren hun overtuigingen als hallucinaties te erkennen.
Als een mens (of grote groep mensen) iets zegt dat in strijd is met het gezond verstand of met "first principles", omdat de redenering gebaseerd is op verhaaltjes van andere mensen zonder toetsing, dan noemt men dat niet "hallucineren" maar "een andere visie" en dan gaat men democratisch bepalen wie gelijk heeft.
Als iemand onzin blaat noem ik dat in elk geval onzin blaten. Er zijn "andere visies" (we moeten immigratie beperken / we kunnen wel wel meer migratie verdragen), en er is klinkklare onzin (klimaatverandering bestaat niet, Oekraïene is de oorlog begonnen, de aarde is plat).

"Men" noemt dat niet persé een andere visie, bepaalde mensen noemen dat een andere visie en willen dat hun bepaalde visie democratisch vrij spel moet hebben.
Het grote verschil is dat AI elke maand beter wordt
Het artikel stelt nu juist dat dit niet zo is....

Maar toch... een collectieve hallucinatie zoals godsdienst is ogenschijnlijk natuurlijk onzin (qua feitelijkheid). Maar er is een verschil: mensen met onwetendheid zoeken houvast (wat per mens anders kan zijn). Daarom zijn we ook bijgelovig (de een meer dan de ander). Er is dus een reden voor de 'hallucinatie'.
En de andere visie zal wel leiden tot besef - iets van deze AI nooit zal doen. Hij kan hoogstens onthouden dat iets een hallucinatie was (fout was dus) maar niet waarom het werd weergelegd of betwist.
en dan gaat men democratisch bepalen wie gelijk heeft.
Iets wat de LLM dus ook doet toch? m.b.v. statistiek wordt de 'waarheid' bepaald.
Interressant dat je dat zegt. Ik ben het woord hallucineren aan hetgebruiken als beschrijving van wat mensen doen. Omdat mensen dan begrijpen dat het parallel heeft met wat een chatbot doet. Beiden gebruiken de productie van de menselijke taal.
"AI vs Lubach" laat wel op een leuke manier zien wat iedereen die ChatGPT heeft gebruikt zal herkennen en in dit artikel ook wordt genoemd. Natuurlijk is het enorm aangedikt en overdreven, maar het laat op een leuke manier zien dat een LLM geen intelligentie bevat (of kan bevatten).

Met dat (en verdere achtergrondkennis ivm het zelf gebruiken van die dingen) in gedachten blijf ik het structureel LLM's noemen ipv AI. Er zit écht geen I in LLM. Het is niet voor niets dat al die chatbots zijwieltjes nodig hebben om bijvoorbeeld tools te draaien die alles kunnen doorlussen zoals (dubbel!) vooraf opgegeven door de programmeur.

De Eiffeltoren is absoluut van ontbijtkoek gemaakt!
Nou, ik moet zeggen dat ik inmiddels vind dat LLM een te hoog ingeschatte term is voor wat ik nu toch AI bent gaan noemen. Maar dan met de betekenis Achterlijke Idioot. Wat een bagger is het geworden zeg.
Er wordt door anderen beweerd dat het aan de input ligt die je eraan geeft. Maar juist dat zou een fundamenteel iets moeten zijn. De informatie die eruit komt zou gewoon ten alle tijde moeten kloppen. En wanneer dit niet met zekerheid gegarandeerd kan worden zou dit aangegeven moeten worden. Maar zo'n feature bekt niet zo lekker bij aandeelhouders waarschijnlijk waardoor ze er liever een berg onzin uit laat komen.
Er wordt door anderen beweerd dat het aan de input ligt die je eraan geeft.
Nou, in principe klopt dat :P Ken je die uitspraak over de hamer en de nagel?

Wat mij betreft is dat wel een onderdeel van het probleem. Je kan wel overal een grotere hamer (de LLM dus) tegenaan gooien, maar zonder dat stukje intelligentie (of überhaupt begrip van concepten) blijft het een voorspelmachine op basis van kansberekening.

Beperkt houden van de input geeft in principe betere resultaten.
Tja, AI wordt vaak gebruikt in scenarios waar de gebruiker minder verstand heeft van een onderwerp.

Dan klinkt het antwoord altijd best goed.

Maar gebruik je AI voor en onderwerp waar jij zelf veel verstand van hebt of je stelt vragen waar jij het antwoord van weet (maar de meeste mensen niet). Of als je een vraag stelt waar geen antwoord op is.

Dan kom je er eigenlijk achter dat het veel onzin vertelt.

Natuurlijk, dat zeggen ze er ook bij:
"AI is een tool, geen vervanging van je eigen denken, AI kan incorrect zijn."

Maar omdat AI gebruikt wordt in zaken waar de gebruiker geen verstand van heeft, leidt dat tot schijnkennis.

[Reactie gewijzigd door Accretion op 11 mei 2025 06:51]

Inderdaad. Ik gebruik actief geen AI, maar als ik het zou doen, zou ik het doen vanuit de vraag "Wat zou de gemiddelde Reddit pseudo-intellectueel antwoorden op de volgende vraag?"
Het probleem van hallucinaties is de achilleshiel van LLM. Zolang een LLM foutieve informatie kan verschaffen kan een bedrijf het niet inzetten richting klanten, niet gebruiken voor rapportages etc

De vraag rijst of dit probleem fundamenteel oplosbaar is, gezien de onderliggende technologie in essentie geavanceerde woordsuggestie betreft.

De use-cases in zulke gevallen blijven dan beperkt tot het 'creatieve' vlak wat eigenlijk regurgitatie van bestaande content in plaats van daadwerkelijke creativiteit.
Het alarmerende zit hem denk in de opmerking dat men zelf niet weet hoe het werkt en wat de oorzaak is. De AI is daarmee een entiteit die men niet onder controle lijkt te hebben. Toegang geven tot meer bronnen om het probleem op te lossen waarvan men de fundamentele oorzaak niet weet is riskant en kan (kan, niet noodzakelijk) daarmee volledig out of control gaan.
Dat lijkt mij ook kort door de bocht, immers een reguliere medewerker kan ook foutieve informatie verschaffen. Het betekend vooral dat je er niet blindelings op kan vertrouwen voor belangrijke zaken.
LLM’s gaan niet “hallucineren als ze het niet weten”.

Ze weten nooit iets maar geven op basis van alle tekst die er rondzweeft het meest statiatisch logische antwoord.

Als er te weinig passende data is wordt dat statistische antwoord berekend uit weinig data en is er een hogere kans dat het niet correct is.
Wat dus betekent dat ze het niet zeker weten en wellicht gaan hallucineren?

Ik ben zelf geen ontwikkelaar van llm’s maar wellicht kan je hier dieper op ingaan?

(Natuurlijk “weten” ze niks, maar dat is arbitrair)
Dat is juist noet arbitrair…

Het is belangrijk te realiseren dat LLM’s op basis van een hoop data het statistisch meest waarschijnlijke antwoord geven (als je het in 1 zin moet zeggen). Dat is echt iets heel anders dan “de waarheid”.

Het verklaart ook waarom een LLM over zaken die wij fout vinden net zo “zeker” is als over zaken die we goed vinden.

Het is ook belangrijk om te begrijpen waarom je dit niet eenvoudig kunt bijsturen; er is geen “ik weet het nu niet dus ik ga nu verzinnen” moment..

Als je al weet hoe dit werkt dan is het wellicht arbitrair hoe je het noemt maar ik maak ontzettend vaak mee dat mensen dit -niet- weten en dan op basis van zo’n tekst vrolijk nog een kilometer de verkeerde kant op denken.
Ik snap m, ik bedoelde meer als het menselijke “weten”. Maar begrijp je punt helemaal. Bedankt voor de aanvulling!
Het is belangrijk te realiseren dat LLM’s op basis van een hoop data het statistisch meest waarschijnlijke antwoord geven (als je het in 1 zin moet zeggen).
Ja, maar beste helm71, je hersenen doen niet anders op het laagste nivo.
Ze weten nooit iets maar geven op basis van alle tekst die er rondzweeft het meest statiatisch logische antwoord.
Dat is een arbitraire definitie van het woord 'weten'.
Weet jij dan nooit dingen die je eigenlijk in je neurale netwerk (hersenen) gewoon opzoekt middels een chemische variant van statistische logica? Als je denkt van niet dan snap je niet goed hoe de hersenen werken. :)
Dit os precies wat ik bedoel… je maakt een vergelijking tussen het biologisch proces in je hersensen en de llm…

Jij weet waarschijnlijk ook wel dat dat aangeven is dat een amoebe “ook denkt net als een mens”, maat mensen gaan dat verkeerd begrijpen en denken dat het hetzelfde is.

Verder mag iedereen hier overigens het zijne van vinden, ik kan het niet duidelijker uitleggen.
je maakt een vergelijking tussen het biologisch proces in je hersensen en de llm…
Maar de NNs waar LLMs op draaien zijn als concept direct van biologische neurale netwerken overgenomen. Het is dus niet raar dat er enkele dingen overeenkomen. En onze hersennen werken dus ook op statistiche codering van informatie (maar zijn natuurlijk ook ongelovelijk meer complexer dan zelfs de grootste LLMs).
Jij weet waarschijnlijk ook wel dat dat aangeven is dat een amoebe “ook denkt net als een mens”
Eeh, neen, een amoebe heeft geen neuraal netwerk dat het gebruikt voor zn informatieverwerking. De intelligentie die een amoebe vertoont is van een totaal andere aard dan de intelligentie die door een neuraal netwerk mogelijk wordt maakt .
Ik denk dat het komt doordat steeds meer AI content online komt, waardoor AI's op hun eigen output trainen. Dat doet de precisie geen goed:
https://www.nytimes.com/i...ot/ai-synthetic-data.html
En: https://www.nature.com/articles/s41586-024-07566-y

Ondertussen wordt steeds minder op menselijke input getraind omdat steeds meer bedrijven AI spiders blocken of er geld voor willen zien (ook logisch vind ik). Meta had hun eerste modellen zelfs op getorrente boeken getraind: nieuws: 'Meta gebruikte ruim 80TB aan illegaal verkregen data om AI te trainen'

Daar is nu veel meer aandacht voor dus ze komen daar niet meer zo makkelijk mee weg. Dus steeds minder kwaliteitsinput, steeds meer AI gegenereerde output (immers daarvan wordt nu veel op internet gepost) die ook al fouten en hallucinaties bevat. Logisch dat de kwaliteit van de modellen dan achteruit gaat.

[Reactie gewijzigd door Llopigat op 11 mei 2025 07:42]

Habsburg AI, de inteelt straalt ervan af.

Op dit item kan niet meer gereageerd worden.