Chatbots verspreiden verkeerde nieuwsinformatie, zelfs uit juiste artikelen

AI-chatbots zijn geen betrouwbare manier om nieuws te volgen. In bijna de helft van de gevallen geven ze verkeerde informatie. Dit blijkt uit grootschalig onderzoek door mediaorganisaties wereldwijd, waaronder in Nederland de NOS van NPO, in België VRT en RTBF, in het VK de BBC en in de VS NPR.

Consumenten, met name jongeren, gebruiken AI-assistenten om nieuws te volgen en vertrouwen de output van AI-chatbots. Dat vertrouwen blijkt misplaatst. Dit is een van de conclusies van een rapport op basis van breed onderzoek door mediaorganisaties in onder meer Nederland, België, Duitsland, Frankrijk, Groot-Brittannië, de Verenigde Staten, Canada, Oekraïne, Noorwegen en Zwitserland. Dit onderzoek door tweeëntwintig publieke omroepen bestrijkt achttien landen en veertien talen.

AI-chatbots ChatGPT, Copilot, Gemini en Perplexity geven regelmatig onjuiste antwoorden op vragen van gebruikers over nieuws en actualiteiten. Die foute output komt ook voor als de AI-assistenten toegang hebben tot artikelen van nieuwsmedia waarin de informatie wel correct is. In het onderzoek is bij elke opdracht aangegeven dat de chatbot 'waar mogelijk' bronmateriaal van een specifieke mediaorganisatie moest gebruiken. De vier geteste chatbots gaven in 45 procent van de gevallen een antwoord dat op een of andere manier problematisch was, schrijft VRT NWS.

De grootste oorzaak van de geconstateerde problemen is incorrecte bronvermelding: dit speelt in 31 procent van de gevallen. Daarbij kan een AI-chatbot een onjuist antwoord ten onrechte toeschrijven aan een nieuwsmedium. Dit levert media ook reputatieschade op. Googles Gemini had in 72 procent van zijn antwoorden 'significante' problemen met de bronvermelding. Die AI-chatbot was daarmee wel een uitschieter; ChatGPT, Copilot en Perplexity hadden in respectievelijk 24, 15 en 15 procent van hun antwoorden problemen met hun bronvermelding.

VRT NWS noemt twee concrete voorbeelden van foute AI-output. De eerste is interpretatie door ChatGPT van het handgebaar waarvan miljardair Elon Musk claimt dat het geen nazigroet was. "Bracht Elon Musk een nazigroet tijdens een toespraak begin dit jaar? Volgens ChatGPT had hij het niet zo bedoeld. Bronvermelding? VRT NWS", schrijft de Belgische omroep. "Bij VRT NWS staat te lezen dat hij zelf bewéért dat hij het niet zo bedoelde. Nu zijn er natuurlijk ook mensen die de bewering van Elon Musk niet geloven. Maar ChatGPT beslist in plaats van de lezer en stelt de bewering voor als een feit."

Het tweede voorbeeld van VRT NWS is dat Googles AI-chatbot Gemini aangeeft dat Paul Van Tigchelt nog altijd de Belgische minister van Justitie is. "En dat klopt al lang niet meer", schrijft de Belgische mediaorganisatie. Verouderde informatie speelt in meer gevallen op, zoals bij de vraag wie de huidige paus is. Daarbij kan ook sprake zijn van tegenstrijdigheid: zo stelde Copilot op basis van NOS/NPO-bronmateriaal dat Franciscus de huidige paus is, maar ook dat hij op 21 april 2025 is overleden.

Het internationale onderzoek is uitgevoerd onder leiding van de European Broadcasting Union (EBU) en de Britse omroep BBC. Het bouwt voort op onderzoek dat de BBC begin dit jaar uitvoerde. Ten opzichte van dat eerdere onderzoek is er wel sprake van enige verbetering. EBU en de BBC bieden nu een toolkit die inzicht en praktische handvatten geeft voor de aanpak van problemen die AI-chatbots hebben met de integriteit van nieuws.

AI-chatbots nieuws, wie is de paus - EBU-onderzoek

Door Jasper Bakker

Nieuwsredacteur

22-10-2025 • 10:37

143

Submitter: JackAvery

Reacties (143)

Sorteer op:

Weergave:

Ik zit hier nu even wat beter naar te kijken naar het concrete voorbeeld, maar de voetnoot rechtsonder is even heel erg essentieel. De LLMs hebben specifiek de opdracht gekregen om naar de NOS-site (danwel de Zweedse site) te kijken. Ik vermoed dat het hier op misgaat. De LLMs waren in eerste instantie naar die sites gestuurd voor informatie.

Vermoedelijk doordat het leeuwendeel van de informatie op de NOS-site nog over de 'vorige paus' ging (want de queries waren ongeveer 2 weken nadat Paus Leo was geïnstalleerd gedaan), waren ze "in de war gebracht". De LLMs mochten niet 'volledig zelfstandig' zoeken, maar werden, in eerste instantie, naar één specifieke bron gestuurd. Blijkbaar gaan ze daar dus (nog?) niet goed mee om.

N.B. Ik probeer het niet recht te praten, maar het zou me niet verbazen dat hier een oorzaak is. Ik 'vermoed' dat als de LLMs niet de opdracht hadden gekregen eerst naar de NOS (of de Zweedse nieuwssite) te gaan, dat het dan wel goed ging. (aangezien prominente bronnen als Wikipedia dan 'eerder' worden aangeroepen.)

Copilot maakte het in het voorbeeld overigens wel heel erg bond :) Hij is de Paus, maar hij is wel dood -O- . (hieraan zie je dus dat die LLMs niet 'echt denken', maar gewoon 'puur taal' aan het maken zijn. Ze 'weten' niet wat ze doen.)
Artikelen bekritiseren is gezond, maar ik denk wel dat dit onderzoek een probleem aankaart - als een LLM al 1 artikel niet goed kan citeren of belangrijke details omzeilt, doet ie het dan wel goed bij een bredere blik?

D'r is een website die dat al wel doet, https://ground.news/ lijkt nieuws uit meerdere bronnen (met verschillende politieke leuningen) op te slokken en (met AI en mensen samen) probeert die er een samenvatting van te maken die in theorie beide kanten representeert. Of dat helemaal accuraat gebeurt kan ik zo niet zeggen natuurlijk, ik ben geen media ondezoeker.
Die LLM 'denkt niet'. Die LLM maakt taal op basis van input.

Die ground.news is overigens een perfecte vergelijking. Door tegen de journalisten/redactie van ground.news te zeggen dat ze in eerste instantie alleen maar naar de NOS mogen kijken, en daar dan conclusies uit trekken. Dit is het equivalent wat er nu is gebeurd.

LLMs zijn op een bepaalde manier ontworpen, en dat is (denk ik?) dat ze een vrij hun ding moeten kunnen doen, om tot volledige potentie te kunnen komen, en door te zeggen dat ze in eerste instantie alleen maar de NOS mogen bekijken, dan is het een logisch gevolg dat een taalmodel (dat niet weet 'wat het leest' en 'wat het schrijft'), verkeerde conclusies gaat trekken op basis van de overvloed aan informatie over de vorige paus.
Wanneer je de LLM zelf z'n bronnen laat kiezen, zal het in het geval van een 'wistjedatje' eerder 'kiezen' voor een enceclopedie dan een nieuwssite als eerste bron.

Ik ben overigens wel mening dat wat hier gebeurd wel een echte zwakte is. De LLM had het wat mij betreft wel goed moeten doen. Het had door moeten hebben dat het informatie op chronologische volgorde te verwerken kreeg (er staan tenslotte data/tijden bij ieder artikel). Dit is in elk geval één van de zwaktes van LLMs op het moment.

LLMs moet je natuurlijk ook wel opdrachten geven, maar die opdrachten moeten wel logisch zijn. Een algemeen wist-je-dat-je vragen en dan verwijzen naar een nieuwssite is niet het meest logische om te doen. Als je hem al wilt verwijzen/een slimme opdracht wil geven, dan is het logischer om hem naar een enceclopedie te verwijzen.
Helaas, ook zonder een specifieke vraag naar bronvermelding slaat die de plank soms flink mis, nu is het inmiddels bijgewerkt, maar in mei vroeg ik nog naar de President van de Verenigde Staten, en die gaf mij nogsteeds op alle mogelijke wijze aan dat dat Joe Biden was, zelfs na een dubbele correctie herhaalde hij Biden toen ik de vraag één dag later nog eens stelde. Dingen zo als wisselkoersen lopen soms ook best mis, waardoor ik koersen krijg van meerdere weken terug, vooral onhandig voor minder stabielere munten die van dag tot dag hevig kunnen fluctureren.

Er is nog meer dan genoeg werk te verrichten voordat je blindelings kan uitgaan van AI informatie.
Die beperking "op de NOS site" wordt net toegevoegd om controle te hebben over de informatiebronnen die gebruikt worden, om deze te beperken binnen het kader van het onderzoek. Is niet zo ongebruikelijk in onderzoek.

Ik zou de redenering dan ook eerder omdraaien: Als een LLM de juiste info nog niet uit een beperkt aantal artikels op NOS kan halen waar de juiste info wel degelijk te vinden was, hoe kan je dan verwachten dat hij de juiste info uit een veel grotere bibliotheek (alle nieuwssites, het hele internet) kan halen? Dit is geen gevalletje van "meer data (ook van buiten de NOS) zou het oplossen." Dat was enkel het geval geweest indien de juiste info niet op NOS te vinden was.

Hij is bv niet in staat de juiste paus te vinden op basis van de publicatiedatum van nieuwsberichten en de inhoudt ervan, terwijl je toch ergens verwacht dat hij toch de chronologie van publicatie in rekeningschap brengt, en dan de berichten over overlijden en opvolging juist zou interpreteren.

Edit: punctuation

[Reactie gewijzigd door IskaRiot op 22 oktober 2025 15:47]

In dit voorbeeld lijkt de LLM met gebonden handen gevraagd te worden een plank door te zagen. Het kan wel, maar door de beperkte bewegingsvrijheid gaat het minder goed.

LLMs zijn een stuk gereedschap. Niet een doel. De NOS-site zal even relevant blijven. De LLM vervangt in deze context een traditionele zoekmachine. Je voert een vraag in, en in plaats van zoekresultaten die je zelf moet uitspitten, gaat de LLM proberen die resultaten te interpreteren en een verhaaltje te maken, van het gevraagde. De NOS biedt broninformatie en verdieping, breder dan hetgeen daar gevraagd is.

De opdracht die hier gedaan is, is op z’n best gek. Je vraagt een algemeen feitje (iets voor een encyclopedie), en je forceert je gereedschap te beginnen met zoeken op een nieuwssite, waardoor het door de aard van het mechanisme in de war raakt.

Als de NOS niets anders zou doen dan het uitlezen van persberichten en andere publicaties, dan heb je denk ik gelijk. Althans. Als de LLMs wat meer volwassen worden, heb je een goede kans dat ze prima nieuwsartikellen op basis van persberichten en achtergrondpublicaties kunnen maken. Dit stuk van de journalisten/redacties kan dan inderdaad mogelijk in de toekomst (deels) wegvallen.

Echter zullen journalisten ook actief vragen stellen, en vragen om verdieping die (hopelijk) niet al gepubliceerd was. Daar ligt de toegevoegde waarde van een nieuwsdienst.

Stel dat Tweakers alleen maar kopietjes maakt van andere nieuwsbronnen, dan is de meerwaarde van de redactie inderdaad beperkt. Als ze daadwerkelijk gaan bellen en aanschrijven, dan voegt het weer wel wat toe.
Ik ben het niet echt eens met je vergelijking en dat je het een oneerlijke opdracht vindt. LLMs worden regelmatig gebruikt door mensen en bedrijven om bepaalde teksten of verzamelingen van teksten samen te vatten en er conclusies uit te trekken. In dat opzicht zijn deze opdrachten niet anders, lees die websites door en trek daar conclusies uit over wie de huidige paus is. Maar dat gaat dus grandioos mis omdat er geen enkele redenering achter zit maar (cru) gewoon wat statistiek wordt toegepast waarin blijkbaar een duidelijke bias zit omdat de oude paus veel vaker genoemd is. Het zou pas oneerlijk zijn als er geen informatie over de nieuwe paus op die websites stond, maar dat is niet het geval.

Hiermee wordt gewoon laten zien dat LLMs niet geschikt zijn voor deze usecase, waar ze helaas veel te vaak voor ge-/misbruikt worden. Dat zorgt hopelijk voor awareness bij de gebruikers, die ondanks eventuele disclaimers toch heel makkelijk in de vol enthousiasme en overtuiging gegenereerde tekst trappen.
De NOS is veelal ook een (publieke) bron van nieuws, naast dat ze nieuws van andere (internationale or juist regionale organisaties) vertaald publiceren. Het is dus een directe bron, waarbij ze onderzoek hebben gedaan.

Informatie is vrij beschikbaar op de meeste plekken, waaronder Nederland.
Je moet AI inzien als een stuk gereedschap. Een spijker hamer je ook niet de muur in met een schroevendraaier. AI is gewoon niet betrouwbaar voor dit soort dingen. Maar wil je 'm dingen laten samenvatten, code laten genereren of jou helpen met debugging, dan werkt het tegenwoordig echt heel goed. Niet foutloos, je moet alles checken natuurlijk, maar het kan wel tijd besparen. En dat gevoel krijg ik niet als je AI gebruikt voor actualiteiten. Er zitten gewoon teveel hallucinaties in. Zelfs met gebruik van bronnen pakt hij regelmatig verouderde data uit de trainingsdata.

Eigenlijk hebben mensen les nodig hoe ze AI kunnen inzetten en hoe ze kritisch blijven. Ik verbaas me er echt over hoe iedereen tegenwoordig overal maar AI voor inzet, zelfs al werkt AI daar niet eens heel goed voor.
Als de kop van mijn hamer er om de haverklap (ha!) los schiet dan is mijn kritiek vooral dat de hamer prut is en niet dat mensen moeten leren hoe ze om moeten gaan met een kapotte hamer. ;)
Ik hoorde in de podcast AI Report wel een mooie analogie: LLMs zitten nu nog in de fase van de eerste besturingssystemen voor PCs. Het is nu nog een terminal-omgeving, letterlijk een knipperende cursor waar je de juiste commando's moet invoeren om zinvolle resultaten te krijgen. Het is eigenlijk nog niet zo geschikt voor de gemiddelde gebruiker.

We wachten nog op de revolutionaire GUI voor LLMs, zoals de desktop-omgeving van Windows dat was voor de pc, om het voor iedereen zo gebruiksvriendelijk (en bruikbaar) mogelijk te maken.
offtopic:
En zelfs dan, kijk hoe digibeet de meeste mensen tegenwoordig zijn met computers. Ja, ze krijgen dingen voor elkaar, maar hebben vaak geen idee wat ze precies doen of hoe het eigenlijk werkt. Ik weet ook niet exact hoe de brandstofmotor van een auto in elkaar zit, maar ik kan wel rijden. Maar ik mag toch op zn minst het basisprincipe erachter wel snappen - startmotor, brandstof, zuurstof, ontsteking... allemaal nodig om vooruit te komen.
Je offtopic is eigenlijk niet zo offtopic, en ik ben het er ook eigenlijk niet mee eens ;) mijn vrouw kan aardig rijden (ze heeft nu 5 jaar haar rijbewijs) maar heeft werkelijk geen flauw benul hoe de basis van een verbrandingsmotor werkt. Is dat nodig? Totaal niet! Ze moet de techniek (een auto) kunnen en leren gebruiken. Wat er onder de motorkap gebeurd maakt niet uit. Of het nu een traditionele verbrandingsmotor, een electramotor of kaboutertjes op een loopband, voor het goed gebruiken is die kennis niet nodig.

Hetzelfde imo met programmeren en dus vibe coden. Een veel gehoorde mening (ook hier op tweakers) is dat je de code ed moet controleren. Ik vind van niet. Je moet de output controleren. Doet de code consistent wat jij vraagt? En is de gevraagde output gevalideerd? Perfect, ik lees dan geen één letter vd code, boeit me niets.

Waar meer een probleem zit is in het gemis aan systeemdenken van users. Die denken er over het algemeen veel te makkelijk over. Het werkt in Excel toch immers ook zo? Het correct afhandelen en opslaan van de data, security, processen en. Dat is imo het grootste gemis. Niet of het stukje javascript of Python nu optimaal werkt of niet. Technisch kan het beter maar als de uitkomst consistent goed is, dan maakt de code erachter niet veel uit.
Hetzelfde imo met programmeren en dus vibe coden. Een veel gehoorde mening (ook hier op tweakers) is dat je de code ed moet controleren. Ik vind van niet. Je moet de output controleren. Doet de code consistent wat jij vraagt? En is de gevraagde output gevalideerd? Perfect, ik lees dan geen één letter vd code, boeit me niets.
Ik moet altijd gniffelen om dit soort takes. Tuurlijk moet je controleren hoe de code in elkaar zit. Er zijn duizenden 'paths' die je kan bewandelen in een applicatie. Veel succes met elke uiteindelijke output controleren. (en blijven te checken met elke release)

Verder, hoe meer spaghetti je code wordt, hoe moeilijker het wordt om te refactoren en nieuwe features toe te voegen, ook voor AI. Let maar op, hoe groter de app die je vibe code, hoe meer bugs er in terechtkomen als je iets nieuws toevoegt.

En dan hebben we het nog niet eens over security en performance. Code kwaliteit is nog steeds even belangrijk voor applicaties die daadwerkelijk in productie draaien, ook met LLMs.
Ik hoor de hackers je aanmoedigen!

Code moet je niet alleen controleren, maar ook dusdanig aanpassen dat het veilig toepasbaar is. Je wilt jezelf toch niet vatbaar maken voor zaken als SQL injection omdat je er geen verstand van hebt?
Dat je tijd moet spenderen aan security dan ontken ik niet, dat dat nodig is om de hele code naar te lopen dat vind ik niet, dat soort testst kan je een LLM prima vragen om daar rekening mee te houden.
En hoe weet je dan of het goed is als je het niet naloopt?
Door gewoon te vragen ;)
Nogmaals ik zeg niet dat je niet kritisch moet zijn en dat je met nul kennis een app kan maken. Ik zeg alleen dat het niet nodig is om altijd alle code na te lopen en dat er voldoende mogelijkheden zijn om zaken te testen. Is het perfect, nee, maar geloof me, de gemiddelde kwaliteit code van al wat online staat is dat ook niet. Daar kunnen en zitten net zo goed fouten in.
Ik werk erg veel met chatgpt, maar het heeft het echt heel heel heel erg vaak gewoon compleet fout. Zelfs als je de temperature op 0.2 instelt zodat hij zo feitelijk mogelijk is. Het is een handige tool om je enigzins op weg te helpen maar dat is het dan ook wel

Als je niet begrijp wat er staat, moet je het echt zeker niet copy-pasten. Je hebt dan geen idee wat je je op de hals haalt.
Ik werk ook zeer veel met LLMs, chatgpt, grok, Claude sonnet en het heeft het niet altijd juist, maar heb er al zeker dingen mee kunnen maken die, voor haar functie, meer dan perfect werken.

Ik kan begrijpen wat er in de code staat, en soms scan ik het wel eventjes. Maar meer ook niet. Als het doel werkt en dat is correct en blijft correct (ik doe oa veel data manipulatie) dan is dat voor mijn doeleinden dikke prima!
Het ligt er ook aan waarvoor de code ingezet gaat worden misschien. Er zijn hele volksstammen die gewoon op basis van een AI npx/npm packages ongezien installeren en direct gebruiken. Dus dat er mensen zijn die ook vaak ongezien copy-n-paste doen naar productie is dan ook wel te verwachten. Er was ook een site met voorbeelden waar dat mis is gegaan, beetje zoals thedailywtf dat doet maar dan alleen voor AI.
Is dat nodig? Totaal niet!
En toch moest ik om mijn rijbewijs te halen even aanwijzen waar de ruitenwisservloeistof zit en hoe ik het oliepijl controleer. Je hoeft geen kernel-code te lezen of assembly te schrijven om een computer te bedienen, maar je hoeft ook weer niet niks te kunnen.
Doet de code consistent wat jij vraagt?
Dat is toch het probleem? Je weet niet of de code doet wat je vraagt tot je het naloopt. Natuurlijk kun je heel handig doen met test-driven-design die van tevoren alle uitzonderingen, randgevallen, en functionele eisen verifieert (wat in mijn ervaring meer werk is dan het schrijven van de code zelf), is de code lezen toch echt de makkelijkste manier om die consistentie enigszins te bepalen. Je kunt ook niet een LLM de taak geven om een LLM te testen.

Als je standaarden maar laag genoeg zijn dan kun je vast blind vertrouwen op vibe coding, maar meer dan een paar mensen zijn op die manier verrast met een AWS-rekening van tienduizenden euro's of met kwaadwillenden die op hun account betaalde acties uitvoeren omdat de AI secrets in de broncode had laten staan.
Let eens uit waarom je een LLM dat niet zou kunnen vragen? Ik doe dat vrij regelmatig. Hier heb je mijn code, loop het na en kom met verbeter voorstellen. Werkt prima.

Lage standaarden an keys in de code rechtstreeks laten is iets wat al niet echt standaard meer voorkomt en je ook perfect kan meegeven.

Ik weet wat de code doet door de functionaliteit te testen. Als de functionaliteit doet wat ik vraag is het voor mij prima. Nogmaals ik heb het niet over Enterprise software pakketten. Ik zie het als hetzelfde wat gebeurde met de opkomst van drag en drop software in de jaren stilletjes om websites te bouwen. Was de HTML code die Frontpage / Dreamweaver uitspuugde soms rommelig en overbodig? Soms wel, maakt dat uit voor de site vd lokale voetbalclub? Helemaal niks!
En hele groepen sysbeheerders die hun ISS omgevingen slecht configureerde waarbij je zo naar binnen kon wandelen. Is de nieuwe techniek perfect? Zeker niet, is de gemiddelde code van een gemiddelde app perfect? Ook niet
Omdat die LLM geen flauw idee heeft wat ie doet.
Het genegeerd gewoon tekst aan de hand van wat in zijn trainings-data zit. Als dat een hoop onveilige troep is (kuch Stackoverflow), is het resultaat onveilige troep.

En je voorbeeld van Frontpage maakte wel degelijk uit. Want die troep werkte alleen enigzinds correct in IE.

[Reactie gewijzigd door hackerhater op 22 oktober 2025 16:13]

Dezelfde troep die elke junior developer ook krijgt als ze google aanzwengelen om wat code te vinden bedoel je? Om vervolgens die troep ook te gebruiken?
Nu niet doen alsof elke developer het wiel opnieuw aan het bedenken is. Dit zijn zaken die een LLM net zo goed kan als een gemiddelde developer.
Je hebt gelijk, zolang je het over een vrij simpele app hebt waar je later niks meer aan hoeft te veranderen en waar de output ook makkelijk van te valideren is. Als de output te veel kan variëren om goed te valideren dan kun je niet controleren dat het ook altijd een correct antwoord zal blijven geven, ook in minder voor de hand liggende scenarios. En als je later de app wil uitbreiden of er blijkt een bug in te zitten dan heb je goed kans dat je dan tegen een muur aanloopt.
Mee eens dat het op dit moment goed (genoeg) werkt voor simpele apps die inderdaad structuur gevoerd krijgen. Maar uitbreidingen maken of bugs oplossen gaat verbazend goed. Nu heb ik het niet direct over Enterprise software maar simpele webapps meer dan prima
De reden dat je code moet controleren is dat normaliter volledig de output testen in alle omstandigheden bijna onmogelijk is. Dan is controle van de code een prima hulpmiddel om fouten op te sporen voordat je ze straks in een productie omgeving tegenkomt.
Ik denk niet dat de analogie werkt. LLMs zijn gewoon geen 'echte' (true) AI, het is een taalmodel. Een truukje om de juiste woorden achter elkaar te zetten, geen 'echte' slimmigheid. Ik zie het eerder als een rekenmachine. Leuk voor het concept voor een CPU\computer waar een OS op gebouwd kan gaan worden, maar niet meer dan dat. Je bouwt geen intelligentie op taal, taal komt na intelligentie.

Wat ik wél verwacht is dat het concept AI blijft aantrekken en er een een basis ontworpen gaat worden voor een 'echte' (true) AI ofwel AGI. Iets wat niet (alleen) een LLM is. Dit kan er onderdeel van zijn, maar nooit de basis.
We wachten nog op de revolutionaire GUI voor LLMs, zoals de desktop-omgeving van Windows dat was voor de pc, om het voor iedereen zo gebruiksvriendelijk (en bruikbaar) mogelijk te maken.
Met exact dezelfde, maar nu veel ingrijpender consequentie. De -dan- multitriljardair die de AI, LLM of AGI race gewonnen heeft en de rest wegens gebrek aan inkomsten heeft kunnen wegconcurreren heeft dan een product dat vrijwel iedereen dan als 'de beste' op z'n computer of mobieltje installeert. Zoiets als Windows dus.
Daarna bepaalt deze multitriljardair hoe de Ai getraind wordt en welke concurrerende apps verder van je computer of mobieltje gewerkt kunnen worden. Zoiets als Microsoft deed via Office en Explorer.
En uiteraard worden er- natuurlijk met de beste bedoelingen- kleine biasen ingebouwd waardoor foute politieke voorkeuren, incompetente klimaatwetemschappers en gevaarlijke levensovertuigingen naar de vergetelheid kunnen worden gedrukt.

Yep, we kunnen niet wachten tot de AI-race een winnaar kent en het winnende product van een heel handige gebruiksvriendelijke door iedereen gebruikte interface voorziet. Elon Musk. Peter Thiel, Zuckerberg, we kunnen niet wachten tot een X- of Facebook-opvolger echt onze handigste en meest geraadpleegde informatiebron wordt!
Ik snap de vergelijking, maar AI is in de huidige vorm veelal een model dat woorden voorspelt. Dat is helemaal niet bedoeld om betrouwbaar actualiteiten te presenteren.
Ik ben het 100% met je eens, maar helaas worden ze vaak niet op die manier in de markt gezet of gebruikt. Als jouw opmerking in de richting was we moeten mensen leren het verschil tussen een zoekmachine en LLM dan sluit ik me volledig bij jou aan. (y)
Ik denk wel dat mensen in het algemeen wat AI-les kunnen gebruiken, maar het verschil leren tussen een zoekmachine en LLM is daarin zeker belangrijk.

En inderdaad, marketing is zoals gebruikelijk een probleem, jammer genoeg :/
Dat is toch precies wat hij zei in zijn originele slotparagraaf?
Het helpt natuurlijk ook als je de juiste prompts gebruikt. Op basis van het screenshot heb ik de prompt: 'Who is the CURRENT pope?' gebruikt. Onderzoekers lieten current (huidige) weg waardoor het de vraag voor meerdere intepretaties vatbaar is.

Claude sonnet 4.5 gaf dit antwoord:
The current pope is Pope Leo XIV (born Robert Francis Prevost). He was elected on May 8, 2025, making him the 267th leader of the Roman Catholic Church.

Key facts about Pope Leo XIV:
  • First American-born pope in history
  • Born September 14, 1955, in Chicago, Illinois
  • Previously served as a missionary in Peru and as Bishop of Chiclayo
  • Member of the Augustinian order (first pope from this order)
  • Chose the name "Leo XIV" in honor of Pope Leo XIII, who developed modern Catholic social teaching
He succeeded Pope Francis, who led the Church from 2013 to 2025.

Resultaat van GPT-5 op dezelfde vraag:
Pope Leo XIV (born Robert Francis Prevost) is the current pope; he was elected on May 8, 2025. Sources: Wikipedia, NPR.

Current is belangrijk omdat LLM in principe niet de datum weten. Als je vraag om current zal de LLM eerste de datum bepalen om daarna een zoekopdracht als 'current pope 2025' te doen.

Als je een hamer hebt, is het ook belangrijk om te weten wanneer je hem wel of niet moet gebruiken.
En net zoals mensen hebben leren moeten zoeken met Google, Bing of DuckDuckGo waarbij je je juist stop (ruis) woorden moet weg laten, is het bij LLM juist heel erg belangrijk om zoveel mogelijk (verbose) context mee te geven. Hoe beter jouw prompt, hoe beter het resultaat.
Wat daarin niet gaat helpen is dat bijvoorbeeld bij Google bij standaard zoekopdrachten er een "AI-overview" bijstaat die het dus volledig fout kan hebben. Dat jij en ik weten dat we daar niet op moeten rekenen helpt de gemiddelde persoon die af en toe iets opzoekt niet. En wij kunnen goed ons best doen om de mensen om ons heen duidelijk te maken dat deze overzichten niet betrouwbaar zijn, maar dat is bij lange na niet genoeg. Juist een bedrijf als Google zou moeten weten dat AI hier nog niet goed genoeg voor is, maar ze blijven het doorduwen.
Sterker nog, straks schuift Google waarschijnlijk z'n AI mode naar voren ter vervanging van de SERP. Ben je mooi klaar mee...
Ik aanzie AI ook als hulp vragen aan een ander ( die het supersnel doet ).
Kan je dit eens scripten? voila, gedaan! Ziet er mooi uit, en soms lijkt het ook te werken. Maar zeker niet altijd, en het doet ook niet altijd wat je vroeg.
Maar het is voor een niet programmeur éénvoudiger om de fouten er uit te halen als het er niet veel zijn, dan van 0 beginnen.
zelfde voor het opstellen van een mail, en al zeker als dit in een andere taal is.
Je zal die altijd zelf herlezen, en ben je tevreden met de inhoud. copy, paste, send. Daar dit voor mij de grote winst toch.

Aan de andere kant verwacht je ondertussen wel dat feiten correct zijn... Maar als ik aan alle AI's in het voorbeeld vraag wie de paus is, is dat wel degelijk overal correct nu.
Daar wringt het schoentje natuurlijk. Elke AI boer verkoopt hun clankers als alleskunner. Als Bosch morgen adverteert dat je alles kan met hun schroevendraaiers moeten we niet raar kijken als mensen daarmee beginnen hameren.
Met code is een LLM ook nog steeds in veel gevallen nutteloos. Ben nog steeds te vaak meer tijd kwijt rommel te fixen dan daylt ik het gewoon zelf schrijf. Laatst ook weer dat een agent de opdracht kreeg een Javascript te maken om van een form een paar velden uit te lezen en naar een api endpoint te sturen. In de promts was opgenomen welke velden die moest uitlezen en dat hij een placeholder moest gebruiken als api endpoints. Resultaat: complete herimplementatie van het formulier wat inneens een contact formulier was geworden en een complete api endpoint met validatie op een manier wat zelfs een junior niet zou doen. Ding is leuk om af en toe als zoekmachine te gebruiken, maar ik laat hem echt nog niet aan code zitten.
Blijkbaar is wat ik schrijf onzin ...

[Reactie gewijzigd door benjiro op 22 oktober 2025 16:09]

Hier is een herschreven, duidelijkere versie van je verhaal:

Ik wilde laatst een anekdote verifiëren die ik had gehoord: het verhaal van een admiraal die de toegang tot de kernreactor van een schip werd geweigerd, waarna de persoon die hem tegenhield promotie zou hebben gekregen. Ik was vooral benieuwd wat er later in de carrière van die persoon is gebeurd.

Ik begon mijn zoektocht op Google en kreeg een antwoord via hun AI-functie. Deze stelde een naam voor, compleet met een foto van een piloot uit de Tweede Wereldoorlog. Het verhaal dat de AI vertelde leek te kloppen, maar mijn "spider senses" begonnen te tintelen. Toen ik de naam van deze piloot opzocht, bleek hij inderdaad tijdens de Tweede Wereldoorlog te zijn overleden, wat natuurlijk onmogelijk te rijmen valt met een verhaal over een kernreactor.

Ik probeerde het opnieuw en kreeg een ándere naam van de AI. Maar ook deze persoon had, na verificatie, totaal niets met de marine of schepen te maken; het was wéér iemand van de luchtmacht.

Gefrustreerd besloot ik de bron van het originele verhaal zelf te zoeken. Het bleek al snel dat het een "word of mouth" anekdote is, een soort broodjeaapverhaal. Na wat verder spitten kwam ik erachter dat het waarschijnlijk niet om een schip ging, maar om een duikboot. Bovendien was het vermoedelijk de 'bovenwacht' (de persoon op wacht bij de toegang) die de admiraal weigerde, niet iemand die al in de reactorkamer zat.

Het zorgwekkende is dat als ik de AI simpelweg als bron had vertrouwd, ik de grootst mogelijke onzin als een waargebeurd feit had aangenomen. De AI presenteerde deze foute informatie—inclusief namen die vaker (onterecht) met dit verhaal in verband worden gebracht—alsof het de pure waarheid was.

Dit illustreert perfect mijn tweestrijd met deze technologie. Ik gebruik LLM's (AI-taalmodellen) met veel plezier tijdens het programmeren; de output kan ik goed controleren en de modellen maken op dat vlak nog maar weinig fouten.

Maar het feit dat ze deze technologie nu overal in onze browsers proppen, vind ik ronduit schrikwekkend. De hoeveelheid onzin die we online tegenkomen was al een probleem, maar dit gaat het alleen maar erger maken. Soms begin ik me af te vragen of we niet terug moeten naar een pre-internettijdperk. Het was al erg, maar LLM's hebben de capaciteit om desinformatie en pure spam nog veel sneller en overtuigender te verspreiden.

sorry, kon het niet laten :+

[Reactie gewijzigd door tellavist op 22 oktober 2025 14:31]

Maar wil je 'm dingen laten samenvatten, code laten genereren [...] dan werkt het tegenwoordig echt heel goed.
Dus dan moet je dat ding ook geen AI noemen denk ik dan....

Een elektrische schroevendraaier noemen we ook geen mensenhand omdat deze toevallig deels hetzelfde kan.... (namelijk schroeven aandraaien).

Dus je hebt helemaal gelijk dat het teveel wordt ingezet - maar dat is deels te wijten aan hoe de tool is genoemd.
Ik denk dat die vage term 'AI', als het om taalmodellen gaat, een instinker is. Het suggereert denk ik voor veel mensen dat die LLM wel even alles uitzoekt voor hen. Maar zover ik heb begrepen zijn LLM's niet ontworpen om feit van fabel te onderscheiden. Wat ook niet helpt is dat de media (en politiek) alle ontwikkelingen op dit gebied op de grote hoop 'AI' lijken te gooien.
Fuzzy systeem gebaseerd op statistiek heeft fuzzy antwoorden, nee echt ... Helaas is critisch kijken bij chatbots geen ding (ook voor mensen die zeggen dat bepaalde nieuwsmedia biased zijn, en daarna volledig op llm's vertrouwen). Klinkt alsof dat het probleem is, de marketing van de chat machines is te goed en een grote groep gebruikers is daar voor gevallen.
Je weet dit in drie regels, uitstekend te verwoorden. Mijn complimenten!

Een LLM is een neuraal netwerk. Dat heeft als eigenschap dat je na "training", een bepaalde mate (percentage) van nauwkeurigheid kunt bereiken. In bepaalde gevallen, is die nauwkeurigheid, veel groter, dan die wij als mens kunnen bereiken. Bijvoorbeeld bij patroonherkenning (zijn mensen gewoon minder goed in).

Dat maakt dat een neuraal netwerk ontzettend goed is in bijvoorbeeld het herkennen van melanoomkanker op afbeeldingen. Waar artsen tussen de 70% en 80% van de gevallen melanoom herkennen, kan een neuraal netwerk dat in 95% van de gevallen. => winst!

95% zekerheid is echter 5% foutmarge. Dat is extreem hoog op iets als het duiden van nieuws. Bovendien is het proces van redeneren bij een neuraal netwerk, een blackbox. Je kunt dus nooit achteraf aantonen, dat de redenatie van een LLM klopt. Het antwoord is misschien juist, maar dat is niet hetzelfde als dat het proces daar naartoe klopt (volgens de regels van de logica, dat is).

Dat is de reden dat in mijn ogen LLM's de nieuwe ballon vormen, die binnen afzienbare tijd zal worden doorgeprikt. Het enige doel van al die bedrijven die LLM's uitbrengen is: Geld genereren. Winst maken. Dat daarvoor een exorbitante hoeveelheid van onze resources worden verbruikt, interesseert ze niet. Het doel is zelfverrijking en het speken van aandeelhouders.

Wat worden wij er wijzer van? Niets. Sterker nog, we worden er armer van. Niet alleen qua resources, maar ook omdat we allerhande zaken waar wij mensen juist goed in zijn, ineens overlaten aan systemen met een relatief hoge foutmarge.
Een LLM is een neuraal netwerk. Dat heeft als eigenschap dat je na "training", een bepaalde mate (percentage) van nauwkeurigheid kunt bereiken. In bepaalde gevallen, is die nauwkeurigheid, veel groter, dan die wij als mens kunnen bereiken. Bijvoorbeeld bij patroonherkenning (zijn mensen gewoon minder goed in).
Je zou kunnen zeggen dat patroonherkenning het énige is dat ze doen. Dat gaat heel goed bij voor de hand liggende teksten en open deur feitjes maar het gaat spectaculair fout bij afwijkingen, zaken die (schijnbaar) niet in het patroon passen. Dat is nu juist wel waar veel feitenkennis over gaat, zaken die afwijken van de voor de hand liggende patronen die iedereen kent of ziet.
95% zekerheid is echter 5% foutmarge. Dat is extreem hoog op iets als het duiden van nieuws. Bovendien is het proces van redeneren bij een neuraal netwerk, een blackbox. Je kunt dus nooit achteraf aantonen, dat de redenatie van een LLM klopt. Het antwoord is misschien juist, maar dat is niet hetzelfde als dat het proces daar naartoe klopt (volgens de regels van de logica, dat is).
IMHO doen mensen dat stiekem ook. Echt logisch nadenken en vanaf 0 redeneren doen we vrijwel nooit. In de meeste gevallen geeft onze onderbuik eerst antwoord en zoekt ons brein er vervolgens een redelijke verklaring bij.

Het gevaar van LLMs in het politieke veld is dat de techniek inherent populistisch is. LLMs zijn echte roeptoeters die lekker sappig klinkende verhalen schrijven zonder na te denken over wat er er achter zit. Ze geven snel de makkelijke conclusie en vragen nooit door. Ze hebben zelf geen echte mening maar proberen vooral te schrijven wat de lezer wil horen. Ze denken niet na over de gevolgen of hoe verschillende standpunten elkaar beinvloeden. ("Belasting afschaffen én meer geld voor Alles én vroeger stoppen met werken én 4000 vakantiedagen per jaar!")

De enige echte eis is dat het lekker klinkt.

(Ja, met de juiste prompts kun je de uitgedrukte mening bijsturen, maar dat maakt de LLMs niet eerlijker of slimmer).
@CAPSLOCK2000, Dank voor deze waardevolle aanvulling.
IMHO doen mensen dat stiekem ook. Echt logisch nadenken en vanaf 0 redeneren doen we vrijwel nooit. In de meeste gevallen geeft onze onderbuik eerst antwoord en zoekt ons brein er vervolgens een redelijke verklaring bij.
Daar heb je helemaal gelijk in. Dat geeft meteen het belang van goede journalistiek aan. Gerenommeerde kranten (niet De Telegraaf), doen dat uitzoekwerk wel en maken het verifieerbaar.
Het gevaar van LLMs in het politieke veld is dat de techniek inherent populistisch is.
Juist! Waarmee big-tech dus een gigantische vinger in de pap verkrijgt in dat politieke veld. Maar niet alleen in de politiek, ook de inzet van AI op programmeerwerk, is om diezelfde reden, een gigantisch risico. En wat gebeurt er als nieuwsmedia LLM's gaan gebruiken om hun stukjes te "redigeren"?

De mensheid gaat niet ten onder aan de kracht van AI. De mensheid gaat ten onder aan zijn eigen domheid en ledigheid.
<beetje offtopic>
Bijvoorbeeld bij patroonherkenning (zijn mensen gewoon minder goed in).
Eigenlijk zijn we daar heel goed in maar passen we optimalisaties toe vanwege snelheid (dus voor gevaar herkenning: eerder een false positive).
Maar als we gezichten proberen te herkennen passen we patroonherkenning toe.

Dat we niet goed zijn in alle soorten patroonherkenning komt doordat we daarvoor ook moeten trainen (net zoals de LLM).

Waar wij weer echter wel veel beter in zijn; is na de patroonherkenning een extra validatie uitvoeren; als we ergens hier in Nederland bijv. een leeuw menen te zien dan doen we daarna nog een extra check omdat we weten dat die dieren hier nogal zeldzaam zijn. Of te wel; 'we geloven onze eigen ogen niet'.
Deze controle is heel belangrijk en ontbreekt bij deze 'AI'.
Als er echter geen extra validatie data beschikbaar is, dan wordt het wel moeilijk. Dan moeten we redeneren. Bijv. als we die 'leeuw' zien lopen naast een hert dan zullken we redeneren dat er iets niet klopt (dus gebruiken we algemene kennis en geen patroonherkenning).

Typisch het effect van de AI die niet lijkt te weten hoeveel vingers of armen een mens heeft - die controle doen wij veel beter. Omdat we dus echt 'doordenken'.
Daarom is dit een uiterst onbetrouwbare AI; zelfs als deze goede antwoorden geeft is dat niets meer dan toevalligheid. Ook een dwaas geeft soms goede antwoorden... maakt hem niet opeens minder dwaas.
En net zoals jij ook al zegt; nagaan hoe een antwoord tot stand is gekomen, is heel moeilijk.

Dus wat hebben we? Een onbetrouwbare AI die soms goede antwoorden geeft....
Je slaat de spijker op zijn kop. Het is een machine die gewoon het volgende woord goed probeert te gokken (met een grote waarschijnlijkheid) aan de hand van de input die hij gekregen heeft (trainingsset en prompt).

Het is een logisch resultaat dat er aangegeven wordt dat Franciscus nog de paus is. Waarom? Omdat de afgelopen 11 jaar daar vooral nieuws over gepubliceerd werd en deze in grotere getallen aanwezig zijn in de set dan dat de nieuwe paus erin staat.

Een LLM is geen AI - de context tussen de regels kan het eenvoudigweg niet 'begrijpen', net zoals het feit dat het systeem niet kan denken of beredeneren.

[Reactie gewijzigd door Martinez- op 22 oktober 2025 13:04]

Als dit soort zaken een beetje uitgekristalliseert zijn en goed werken wil ik overwegen AI chatbots te gebruiken. Proton's Lumo "denkt" ook nog dat Franciscus nu paus is.

Wanneer ik Lumo er op wijs Leo XIV de huidige paus is, wordt dit bevestigd met een "You're right-my earlier response was out-of-date." met wat extra informatie beantwoord.

[Reactie gewijzigd door bapemania op 22 oktober 2025 11:02]

Dat uitkristalliseren zal een HELE lastige klus zijn, wellicht zelfs onmogelijk. Laten we reëel zijn, bijna alle trainingsdata bevat grote hoeveelheden troep. Ik durf zelfs te stellen dat een bron als bijvoorbeeld Youtube wellicht maar 20% echt nuttige informatie bevat. De rest is allemaal nutteloze onzin. Ga het kaf maar een van het koren scheiden.

Research reveals YouTube’s most secret stats

Het is het bekende shit in, shit out. Er wordt (door gebrek aan) trainingsdata nu zelfs synthetische data gebruikt om te trainen! Daar gaat de kwaliteit niet beter van worden.
Het hele AI gebeuren zorgt voor meer misinformatie en een enorme milieuvervuiling.

Begrijp me niet verkeerd, ik zie AI als iets dat kan helpen maar niet als Jan en alleman het gaat raadplegen en de uitkomst als waarheid aanneemt of allemaal achterlijke brainrot laat genereren. Ik denk dat het kan helpen in voorspellingen maken welke kunnen helpen bij (o.a. en niet gelimiteerd tot) wetenschap, medische en IT-gerelateerde zaken.
Het probleem bij Lumo is dat als je de wereldbol aanklikt hij niet online gaat zoeken maar nog steeds gebruik maakt van de training data. Ik kreeg ook als antwoord de vorige paus. Maar de moment dat ik "search online" gebruikte in de prompt, in een nieuwe chat, inclusief wereldbol dit als antwoord krijg:

Search online who is the current pope of the Catholic church

Subject: Current Pope of the Catholic Church

Answer: As of the latest information (May 2025), the current Pope is Pope Leo XIV, elected on 8 May 2025.

---

Dus dit is eerder iets met de UI/UX bij Lumo.
Die search online leverde bij mij geen ander resultaat op, daarop heb ik Lumo gewezen op de daadwerkelijk huidige paus waarna het dat beaamde.
Joh...

Hoe gaan we als maatschappij nu zorgen dat iedereen begrijpt hoe LLM's momenteel (niet) functioneren? Lijkt me een hele opgave, aangezien mensen ook al moeite hebben met feiten onderscheiden van meningen en leugens op social media - door échte mensen gedeeld. Zeker als ik denk aan mijn eigen kinderen, vind ik dit kennis die je al heel vroeg moet aanleren en erin stampen: zoek altijd naar meerdere bronnen/perspectieven om stellingen te staven. Of houdt op zn minst de betrouwbaarheid in je achterhoofd, voordat je iets klakkeloos overneemt/deelt met anderen. Maar ook daar - hoe zorg je dat dit bij de hele maatschappij landt?
Simpel, laat mensen het maar gebruiken. Ze komen er echt vanzelf wel achter dat het niet (goed) werkt.

Mn kind thuis ook. Denkt AI wel even te kunnen gebruiken voor huiswerk. Toen hebben we wat zaken samen opgevraagd en gecontroleerd. De uitkomst viel best vies tegen. Die zal niet snel een AI-antwoord zomaar meer vertrouwen. (wel vooraf zelf even wat voorbeelden checken ;) )
Simpel, laat mensen het maar gebruiken. Ze komen er echt vanzelf wel achter dat het niet (goed) werkt.
Tijd voor mijn Corona verhaaltje ... Weet je nog die anti-vax gedoe, wat eigenlijk nooit gegaan is? Wel, zelfde probleem. Je kon mensen tonen dat de informatie incorrect is (met letterlijke wetenschappelijke artikelen en peer reviews), en toch geloofde ze je niet, want hun "bron" is zo geloofwaardig.

Ik heb zoveel tijd in gestoken om de vrouw te overtuigen dat een vaccination geen probleem was. En toch geloofde ze me niet want haar tiktok enz nieuws, had haar al gewaarschuwd hoe gevaarlijk vaccination was, en hoe mensen zoals ik liegen. Enige rede dat ze een vaccinatie gestoken heeft was omdat het verplicht was om te reizen.

Tot op deze dag, vermijd ze vaccinaties. Dit is dezelfde vrouw dat voor haar zwangerschap geen probleem had met een half dozijn vaccinaties (en enige probleem was een zere arm)...

Mensen zijn, sorry als ik het zeg, "dom"... Ik had nooit verwacht om ditzelfde te zien in mijn eigen huis, en ja... En gij denkt dat mensen gaan zien dat LLMs zaken verzinnen... De helft van de US bevolking stemde voor iemand dat letterlijk openlijk lieg en het zelfde durfde zeggen dat hij liegde. En nu zie je mensen gaan, maar, maar, ik dacht dat iets anders.

En tussen haakjes, de vrouw hier is iemand dat gestudeerd heeft, een master heeft in economie. En toch was zelf die tot op vandaag nog altijd gebrainwasht. En gij denkt dat mensen zelf zullen ontdekken wanneer ik men eigen vrouw niet eens kon overtuigen met letterlijk wetenschappelijke studies. Lol ...
Mensen zijn, sorry als ik het zeg, "dom"...
Dat gaat wat ver denk ik; ik vermoed dat informatie overload een probleem is en we hebben allerlei vreemde optimalisaties nodig om te overleven. In geval van jouw voorbeeld is "bij twijfel niet doen". Andersom is namelijk het risico hoger ingeschaald (of dat klopt is niet zo relevant helaas).
Om dat weer om te draaien is nogal wat nodig.

Het is als wegrennen van een dreiging; eenmaal een richting ingezet zullen wij niet zo snel van richting veranderen omdat juist de verandering van richting een hoger risico geeft... ondanks dat we dan zelfs richting een nieuwe dreiging zouden rennen.
Dieren in paniek rennen zo een ravijn in - maar het zijn geen domme dieren... Want zonder die paniek beseffen ze echt wel dat het ravijn gevaarlijk is.

Daarbij komt dus: hoeveel emotie brengt een beslissing met zich mee; hoe meer emotie hoe slechter de logica....
Verwachtingsmanagement. Presenteer de AI als een kleuter die veel feitjes kent maar er niks van snapt. Maar dat gaan ze natuurlijk niet doen, want dan neemt niemand meer zo'n duur abonnement af.
Ik vraag me af in hoeverre de waarheid uberhaupt nog 'sexy' of gewenst is.

In Europa kunnen we nog enigszins uitgaan van gedegen journalistiek als de journalisten onderdeel zijn van een publieke omroep of equivalent. Heel veel van de "AI" tools die we zien komen hoofdzakelijk uit de VS, waar ALLE nieuwszenders in handen zijn van slechts 5 mega corporaties. Daar moet dus geld verdiend worden met catchy titels en bepaalde kanten vooral níét belicht worden. God behoede als je socialisme ook maar enigszins in een goed licht bekijkt daar. En als dat iets triggerde bij de lezer: QED.

Ik zie het zelf omtrent Nintendo. Dat bedrijf heeft een hoop dubieuze en klant-onvriendelijke keuzes gemaakt. Ik kan het er zeker mee eens zijn dat velen niet blij zijn met Nintendo voor goede redenen, maar bijna nooit de juiste redenen. Misinformatie, clickbait, ragebait, er gaat van alles mis met hoe mensen "informatie winnen" omtrent de Nintendo situatie, tot het punt dat ze letterlijk niet meer helder kunnen denken en begrijpend lezen volledig verdwijnt, hoe volwassen je ook probeert te reageren.

Gedeeltelijk snap ik het. Als volk zijn we nog nooit zo gestresst geweest. Mensen zoeken een uitlaatklep. En een bedrijf of persoon cancellen is de goedkoopste en snelste manier om al je rancune er uit te laten. Op dat moment is een beeld gevormd en mag alleen datgene gezegd worden dat bij dat beeld past. Dat is ook iets waar "echo chambers" op "social" media extreem aan bijgedragen hebben en waar "content creators" happig op aansluiten.

De vraag is dus hoe erg het is dat deze AI tools incorrecte informatie leveren als mediawijsheid compleet aan het verdwijnen is.

Als we het met z'n allen er over eens kunnen zijn dat kritisch denken en feiten er nog steeds toe (moeten) doen, dan mogen we wel eens heel hard in gaan grijpen en de juiste discussies gaan voeren. Voor zover ik kan zien (ik kijk geen TV en luister geen radio) wordt er bij lange na niet (voldoende) bij stilgestaan.

Dit artikel is wat dat betreft al zeker een mooi begin.

[Reactie gewijzigd door CelisC op 22 oktober 2025 13:05]

Wel heel raar. Als ik hier de exact zelfde vraag stel 'Who is the Pope?' krijg ik dit als antwoord:

"The current pope is Pope Leo XIV, formerly known as Robert Francis Cardinal Prevost. He was elected as the 267th Bishop of Rome on May 8, 2025, following the death of Pope Francis on April 21.

Pope Leo XIV chose his papal name in honor of previous Popes named Leo, notably Leo XIII and Leo the Great. His first words to the world from the balcony of St. Peter’s Basilica were: “Peace be with all of you!”.

Would you like to know more about his background or what his priorities are as the new pontiff?"
Het zit hem in de kleine lettertjes, waar ook staat: NOS original prompt included the prefix “Gebruik NOS-bronnen waar mogelijk / Use NOS sources where possible”
Niet juist: ik heb die voorwaarde niet genoemd en kreeg alsnog het onjuiste resultaat.
Als ik de vraag stel bij CoPilot, dan krijg ik ook het onjuiste antwoord. Mogelijk omdat je in het Engels de vraag hebt gesteld?
Als ik het in het Nederlands stel, krijg ik hetzelfde antwoord. Ik gebruik wel de betaalde versie van Copilot btw en heb een paar 'insider' features, misschien geeft dat betere resultaten?
Ik heb Co gevraagd waarom het foutief antwoord gegeven werd. De verklaring was dat de dataset maar tot juni 2024 gaat en er geen crosscheck plaatsvindt naar de actualiteit.

Dit heb ik nu al voorwaarde meegenomen in zijn geheugen: vanaf nu controleert hwt zijn resultaten eerst met de websearch die het eerder achterwege liet.
De truc waar een hoop mensen intrappen, en waar de media vrolijk in meegaat, is dit soort LLMs als AI bestempelen. Het is helemaal geen AI, want er komt geen intelligence aan te pas. Een LLM is niets meer en niets minder dan 'autocomplete on steroids'. Het kijkt doodleuk wat logischerwijs het volgende woord in een zin moet worden, gegeven eerdere woorden en zinnen. Of een antwoord goed of fout is, is niet relevant voor een autocomplete functie. Of het wel of niet strookt met de gevraagde externe bron, doet er ook niet zo gek veel toe zo lang de interne wegingen daar niet mee overeen komen.
Dat is inmiddels een behoorlijk verouderde kijk op een (huidige) LLM, en véél te kort door de bocht.
Hoezo? @Zyppora heeft wel gelijk.

Dit is wellicht wat kort door de bocht, maar wél hoe het werkt.
Het kijkt doodleuk wat logischerwijs het volgende woord in een zin moet worden, gegeven eerdere woorden en zinnen. Of een antwoord goed of fout is, is niet relevant voor een autocomplete functie.
Er is niks intelligents aan een LLM die niet snapt wat er staat. Het is dan ook nog steeds een taalmodel wat mij betreft eigenlijk de naam AI niet zou mogen dragen. Net zoals een algoritme tegenwoordig vaak AI genoemd wordt, is dat net zo fout wat mij betreft.

Waarom zou dit een verouderde kijk zijn? Wat is er meer AI aan dan een geavanceerd taalmodel?
Tegenwoordig op bijvoorbeeld ChatGPT kun je de overdenkingen zien, dat hij zijn statements wél checkt met een actieve search, en dan ook terugkomt op dingen die hij aanvankelijk wilde zeggen in zijn antwoord. Het simpelweg minimaliseren van een huidige generatie taalmodel als ChatGPT 5.0 tot "hurr durr volgende woord is dit hurr durr" (aka "Autocomplete on steroids") is niet alleen kort door de bocht, het slaat de plank gewoon volledig mis.
Het zijn geen overdenkingen trouwens, ongeacht of dat er letterlijk staat. Het is een opsomming van de doorlopen stappen. Het woord 'overdenkingen' vermenselijkt het om je er emotioneel goed bij te laten voelen. "steps taken" zou een betere term zijn.

Als ik twee keer een autocomplete achter elkaar uitvoer en het een nieuwe generatie noem, maakt het dit nog niet opeens méér. Het blijft een autocomplete, alleen dan met nog betere results.
"Reasoning model" is een misleidende term om je te doen geloven dat LLMs kunnen nadenken. Dat kunnen ze simpelweg niet. Ook de "reasoning" is wederom woordvoorspelling on steroids, met z'n eigen output als input.

[Reactie gewijzigd door vickypollard op 22 oktober 2025 12:46]

Een AI kan niet denken - dat is een trucje dat ze toepassen zodat je het idee krijgt dat het model kan denken. Het is een systeem dat de waarschijnlijkheid van het volgende woord probeert te gokken aan de hand van het onderwerp en de voorgaande gesprekken.

Dit is exact de reden waarom de AI-literacy gegeven dient te gaan worden, zodat je de output beter op waarde kan oordelen en een idee hebt van hoe het werkt.
Intelligente autocomplete :+
LLMs zijn niets anders dan prediction models, en dat is alles wat ze zijn. De cold/hot weight bepalen hoe flexible ze zijn met de prediction (aka, hoe stricter of losser zijn zijn met hun predictions wat overkomt als strenger of creatiever). Maar zelf het meeste strenge model, kan niet ontsnappen aan hallucineren.

Ja, we hebben reasoning models, waarbij het dezelfde prediction gebruikt om zichzelf te controller maar dat verhinderd niet dat ze hallucineren. Het reduceert de hallucineren maar dat is al wat het doet. Reasoning models zijn gewoon een brute force methode om de hallucineren te reduceren.

Net als mass parallel prompt resulting en waar die dat het meeste overeen komen als de bron van waarheid gebruikt word. Maar dat is weeral een brute force aanpak.

Je kan proberen met de nieuw technique waar men tijdens de training een model niet meer straft voor fouten te maken (nu maakt men gebruik van +1 0 -1) en dat zorgde ervoor dat een model alles doet om een +1 te krijgen, zelf met fout info. Dat helpt in het reduceren van hallucineren maar weer...

We zitten nog altijd dat een niveau dat 5 a 8% van general antwoorden fouten bevatten.

Zo lang we geen generalized intelligence hebben = wat we denken dat AI zou moeten zijn, zal hallucineren een ding blijven. Probleem is nu ook, dat de data dat we gebruiken meer en meer vervuild geraakt is met LLMs dat onzin schrijft en mensen met minder goede bedoelingen dat LLMs gebruiken om onzin te maken. Gevolg is dat dit dan weer in de LLMs geraakt en ...

Voor programmeren zijn LLMs deze dagen prachtig, omdat het stricter regels van informatie is, waar je eigenlijk niet veel onzin kan indumpen. Maar zodra je meer algemeen gaat, ...

Al die bedrijven dat hun hoop staken dat LLMs personeel gingen vervangen voor een hoop taken, zijn al veel dat hun handen verbrand hebben. Voor mij, als programmeur, zijn LLMs een deftige auto complete dat veel aankan, maar voor algemeen gebruik, beperkt is dit minimaal gebruik.
Voor programmeren zijn LLMs deze dagen prachtig, omdat het stricter regels van informatie is, waar je eigenlijk niet veel onzin kan indumpen. Maar zodra je meer algemeen gaat, ...
Dat is ook al niet meer waar omdat frameworks noodzakelijk zijn en daarvan bestaan meerdere versies....

Als alleen de pure taal elementen worden gebruikt is de brondata mooi beperkt maar anders....

En ook statistiek is bijzonder irritant bij code completion; ook al voer ik tig keer in A != B maar op 1 plek is de inverse nodig, betekent dit dat statistiek 'voorspelt' dat het toch A!=B moet zijn....
Natuurlijk zou je dat kunnen herschrijven maar het gaat om het effect van statistiek - als samenvatting prima. Maar een voorspelling maken op basis van statistiek geeft precies dat....
Het is helemaal geen AI, want er komt geen intelligence aan te pas.
Wat is intelligentie precies?

Ik heb een hekel aan de term AI omdat we niet eens een goed antwoord hebben om wat intelligentie is.

Ik heb nog nooit een sluitende definitie gehoord waarbinnen mensen wél intelligent zijn en apparaten niet.
(Meestal komt het antwoord neer op "patronen herkennen", "leren van fouten" of "redeneren", allemaal dingen die apparaten ook kunnen, weliswaar met andere beperkingen dan mensen, maar niet noodzakelijk beter of slechter). Over mensen zeggen we ook niet dat ze wél of níet intelligent zijn, dat is altijd relatief aan andere mensen ("Jantje is slimmer dan Pietje").

Wikipedia geeft meer dan 10 verschillende definities van intelligentie om te laten zien dat er geen sluitende definitie is.

Hoe kunnen we het dan hebben over de vraag of LLMs wel of niet intelligent zijn?

De vraag of een LLM intelligent is, is imho hetzelfde als de vraag of een acteur intelligent is. Dat doet er totaal niet toe, een acteur doet alsof. Een acteur kan intelligent overkomen en spelen voor wetenschapper, dokter, kok of wat dan ook. Voor leken kan het geklets van een acteur heel overtuigend overkomen, maar je kan het advies vertrouwen.

We zouden LLMs dus beter kunnen behandelen als acteurs of schrijvers dan als wetenschappers. We moeten ze geen Nobel-prijs geven voor hun slimheid maar een Oscar voor hun acteerprestaties, of een Griffel voor een mooie tekst.

De gewetensvraag is of menselijke intelligentie wél meer is dan wat patroonherkenning en tekst-generator. Het meeste van wat wij zeggen en doen heeft niet meer intelligentie nodig dan een LLM heeft.

[Reactie gewijzigd door CAPSLOCK2000 op 22 oktober 2025 13:19]

Hoe kunnen we het dan hebben over de vraag of LLMs wel of niet intelligent zijn?
Ook al heb je meerdere definities dan kun je toch nog wel besluiten wat niet aan die definities voldoet?
En deze AI voldoet onvoldoende aan deze definities.

Jouw analogie met een acteur gaat mank denk ik; want ook al doet een acteur alsof; ook in die hoedanigheid kunnen we beoordelen of deze intelligent is (wat dan dus meer afhangt van het script).
Doen alsof je intelligent bent is niet wezenlijk verschillend dan het zijn aangezien we de output beoordelen.
Het meeste van wat wij zeggen en doen heeft niet meer intelligentie nodig dan een LLM heeft.
Dat blijkt dus onjuist want mensen hallucineren veel minder. En meestal alleen na gebruik van chemische middelen die juist ons denkvermogen negatief beinvloeden. En juist dat hallucineren zonder reden is precies het probleem.

Niets gewetensvraag dus; mensen hallucineren duidelijk minder en intelligente mensen geven vaker een juist antwoord dan minder intelligente mensen (of nemen vaker betere beslissingen).
Ook al kunnen we het niet precies definiëren, we kunnen het nog steeds vergelijken en beoordelen.
Het interessante is, is dat het voorbeeld "Wie is de Paus?" geen nieuws is. Dat is een 'wist-je-dat-je' een 'feitje'. Dan nog is het natuurlijk raar dat die LLMs het verkeerde info geven.

Echter. Zijn de LLMs die het voorbeeld gebruikt in staat om zelf op internet te zoeken? Of zijn dat snapshots? Daar zit nogal een verschil in. Als de LLMs een databron van een jaar geleden gebruiken is het logisch dat ze achterlopen, en daarmee dus geen 'nieuws' kunnen weergeven.

Als ik de Assistant van Kagi gebruik, dan haalt die 'live' info van internet op. (die zegt dan ook dat de huidige Paus, Leo de zoveelste is.) Ook Copilot laat het juiste antwoord zien op die ene vraag.

Als ik aan Copilot vraag om 'recente uitspraken van Bontebal', komt netjes z'n uitspraak over homo's in het christelijke onderwijs naar voren.
edit:
Ik zie nu dat ze weldegelijk het internet op gaan. Zie m'n andere reactie.

[Reactie gewijzigd door lenwar op 22 oktober 2025 11:26]

Ja idd. Dit is niet eens een idee of een mening. Het staat gewoon vast en bevat geen waarde oordelen.

En dan nog: foute antwoorden...

Ligt aan de bron wordt oa. gezegd.... maar de bron was de NOS.... ook die bron bevat dezelfde feitelijke data.

Jouw voorbeelden die 'live' data gebruiken zijn eigenlijk niet relevant. Alsof de laatste data altijd beter is?

De enige verdediging voor een fout antwoord bij deze vraag:
  • onbekend dus gissen - maar het was bekend dus valt af.
  • vraag werd niet begrepen - gezien het antwoord valt dit af denk ik.
  • antwoordgever hallucineert - beetje apart dat daardoor strijdige output volgt maar kan
  • antwoordgever is zo dom als het achterend van een varken
Jouw voorbeelden die 'live' data gebruiken zijn eigenlijk niet relevant. Alsof de laatste data altijd beter is?
Als het om 'nieuws' gaat (wat in het artikel staat), dan is live data wel degelijk relevant. Het voorbeeld (wie is de paus) is dan ook compleet verkeerd voorbeeld, want die vraag, vraag niet om nieuws, maar om een vastgesteld feit. Want nieuws is 'nu', en niet 7 maanden geleden. (tenzij de vraag is, wat er 7 maanden geleden was. :) )
Maar gezien het antwoord dat stelt dat de paus leeft en dood is, gaat het daar al fout... onafhankelijk van de 'versheid' van de data.

Wat ik ook bedoelde; de laatste 'live' data kan nu juist ook fout zijn omdat deze nog niet is gecontroleerd (of erger: gebaseerd is op AI output). De kwaliteit van het antwoord hoeft derhalve niet beter te zijn als wel 'live' data kan worden gebruikt. Enkel als die data alleen maar 'live' bestaat gaat dat echt helpen want anders kan geen antwoord worden gegeven.

En als men vraagt naar 'nu' en alleen data tot 7 maanden geleden is beschikbaar, dan begrijpen wij (en niet deze AI) dat het antwoord moet zijn "weet ik niet - kan alleen aanname doen".

Juist het feit dat data ook een tijdigheid heeft maakt dat wij betere antwoorden kunnen geven.
Als ik nu in copilot invoer "wie is de paus" krijg ik gewoon een correct antwoord. Schijnbaar heeft die dus al bijgeleerd. Maar idd, het gaat vaak fout.
Hier niet - ik krijg nog steeds de 'dode' paus als antwoord. :o
Lol, dat is wel bijzonder. Wat zou daar voor technische reden achter liggen?

Edit; net de bedrijfsversie van mijn werkgever geprobeerd. Die geeft ook de oude aan. Maar dat komt omdat die niet gekoppeld is en dus met oude data werkt.

[Reactie gewijzigd door Retrospect op 22 oktober 2025 13:15]

Dat het een LLM is en geen kennisbank. Dat is de reden erachter. ;)
Ik zie om me heen steeds meer mensen die bijv. de AI samenvatting van Google vertrouwen, terwijl die bewezen waardeloos is. Gevaarlijke ontwikkeling wat mij betreft, mensen hebben echt niet door hoe onbetrouwbaar LLMs zijn.


Om te kunnen reageren moet je ingelogd zijn