OpenAI: o3-taalmodel hallucineert meer dan o1; o4-mini is minder nauwkeurig

OpenAI zegt dat o3 meer hallucineert dan het o1-taalmodel. De AI-onderzoeksorganisatie zegt ook dat o4-mini minder nauwkeurig is dan o1. OpenAI schrijft dat er meer onderzoek nodig is om de oorzaken te achterhalen.

OpenAI heeft o3 en o4-mini naar eigen zeggen op nauwkeurigheid en hallucinaties getest via PersonQA. Dat is een evaluatietool met vragen en openbaar beschikbare feiten die niet enkel hallucinaties bij taalmodellen kan uitlokken, maar ook nagaat hoe nauwkeurig de antwoorden van de taalmodellen zijn.

Uit deze test blijkt dat o3 nauwkeuriger is dan zowel o4-mini als o1, maar ook dat het o1-taalmodel nauwkeuriger is dan o4-mini. "Dit is te verwachten", klinkt het bij OpenAI. "Kleinere modellen hebben minder wereldlijke kennis en hebben de neiging om meer te hallucineren." Het bedrijf heeft via de test ook opgemerkt dat o3 meer hallucineert dan o1. Het o4-mini-taalmodel zou ook meer hallucineren dan zowel o3 als o1.

OpenAI heeft o1 in het najaar van 2024 uitgebracht. Dit taalmodel gebruikt meer rekenkracht dan voorgaande modellen en kan hierdoor tot logischere antwoorden komen. O1 produceert ook een zogenaamde gedachtegang voordat het een antwoord aan gebruikers geeft. In december van 2024 werden o3 en o3-mini onthuld. Deze nieuwe AI-modellen zouden nog beter presteren dan o1. Het o3-taalmodel kwam midden april op de markt, samen met o4-mini. Dat laatste model is een kleiner taalmodel dat volgens OpenAI vooral uitblinkt in efficiënte redeneringen.

Testresultaten o3-, o4-mini en o1-taalmodel in PersonQA-evaluatie. Bron. OpenAI
Testresultaten o3-, o4-mini- en o1-taalmodel in PersonQA-evaluatie. Bron. OpenAI

Door Jay Stout

Redacteur

20-04-2025 • 09:48

140

Reacties (140)

140
139
87
8
0
31
Wijzig sortering
Dit zag ik een klein beetje aankomen. Ik gebruik AI een beetje als mijn assistent, griffie. Soms kan ik de verleiding niet weerstaan om iets van denkwerk door te schuiven. En… dat werkt nagenoeg nooit. Hoe beter het model, des te slechter ik doorheb dat ie de bal misslaat. En er zit kwa intelligentie weinig tot geen groei in.

Ik ben momenteel een HA Kubernetes cluster aan het opzetten. Daar kan DeepSeek of gemini 2.5 pro weinig tot niets bijdragen. Veel gebruikte opensource software, enorm goed gedocumenteerd. En slaat de bal continu mis.

Al die nieuwsberichten over AI die zo slim is, engineers die hun job vrezen. Ik zie het niet, welke AI dan? Is dat gewoon warm makerij om investeringen aan te trekken? Zelfs als griffie is een llm een betweter, die continu zeurt “eeeuh zo zou ik het niet doen…, hier zijn tips om het beter te doen…, dit is niet aan te raden vanwege…” en zowat alles dat ie hier zegt lijken goede tips en verbeteringen, maar raken eens je wat nadenkt vaak noch kant noch wal. Ik kan zogoed als NIETS gebruiken dat een AI me aanbied van kennis. En aanbieden blijft het doen, ook al vraag ik om domweg te documenteren. Aaah, ik wordt er zo gek van, die betweterij terwijl het dommer dan een varken is.

Als mens kan je hier nog rond. Maar als je dit in een chain wil steken, de output van een llm als input wil gebruiken. Dan breekt die betweterij je app. En elke llm doet het. Zelfs al vraag je het om het niet te doen. Waarom? Het lijkt alsof een llm geschreven is om te doen alsof het slimmer is dan jezelf. Wederom warm makerij voor investeerders?

Ik denk dat de grote llm boeren de hele wereld bij de neus aan het nemen zijn.

[Reactie gewijzigd door BlaDeKke op 20 april 2025 12:07]

Ik denk dat je moet kijken naar een betere (striktere) system prompt en (veel) meer context geven. Daarnaast een model pakken wat ook deep research kan doen en een beetje geduld. Die instant antwoorden zijn leuk maar geef zo'n model tijd en de accuratesse schiet omhoog.
Ik kan de hele setup procedure in een script gooien en het aan de llm tonen, de hele architectuur waar het op draait als context geven. En dan de volledige logfiles als info om bepaalde foutjes te debuggen. Elk model waar ik toegang tot heb blijft rondjes lopen rond dezelfde fouten. Als ik quorum in de cluster breek, waardoor de API niet meer op gang komt, en ik geef hem alle details en reden, dan…:

"Voer deze commandos in voor logs te tonen."
"Aaah deze logs duiden duidelijk op een netwerk probleem want de cluster kan niet aan de API."
(wat niet aan de grond van het probleem ligt want vooraleer ik quorum brak, werkte alles perfect, en die context heeft hij.)
"Test of je dit kan pingen, test of je dat kan bereiken."
(ik kan alles bereiken behalve de API, want die komt niet online zolang quorum niet bereikt is)
"Hmmm, raar, voer deze commandos in voor logs te tonen."
(Exact dezelfde fouten in de logs)
"Het is toch duidelijk dat hij door een netwerkprobleem niet aan de API kan, ben je zeker dat je netwerkconfiguratie correct is?"

En maar rondjes lopen en rondjes lopen, 1 van de 100 voorbeelden die ik kan geven.
Meer context helpt hier niet. Ik kan de volledige documentatie erin pleuren, dan nog komt ie er niet.

Dit is zogoed als hetzelfde als:
"Heb je de computer al eens herstart?"
Ah nee, dat zal ik nu doen.
Hmmm, het werkt nog steeds niet. Wat nu?
"Nou, ben je zeker dat je de computer herstart hebt, doe dat maar eerst."

[Reactie gewijzigd door BlaDeKke op 20 april 2025 14:20]

1) De LLM heeft enkel maar wat er op Reddit/Stackoverflow staat. In principe kent het inderdaad wat er in de man page staat maar het ratio onzin tov kennis op het Internet is enorm groot. Om zoiets te laten doen moet je eerst de LLM trainen, gooi er een tiental boeken over Kubernetes tegen en een hoop interne kennis bronnen en laat maar specialiseren. Echter de kosten zijn hier enorm groot voor, ik heb geprobeerd eens zoiets te doen met 2GB puur-tekst aan boeken en 2GB puur tekst aan confluence pagina’s van het bedrijf - je kunt dit op jezelf doen, uren werk aan om het aan de praat te krijgen, moest je dit per uur ingenieurs kosten en dan de training per token aanrekenen spreken we enkele duizenden euro’s. Niet voor niets dat gespecialiseerde AI’s honderd of meer per euro per gebruiker per maand aanrekenen.

2) De context voor de meeste LLM zijn enorm klein - op zijn best een oud SMSje of Twitter berichtje. Eenmaal je voorbij de context window gaat begint de staart aan het hoofd te eten - dus het systeem begint delen van je vraag en verkeerde antwoorden als het begin van het gesprek of als juist antwoord aan te zien. In principe moet je zelf filteren wat verkeerd is en herbeginnen met de juiste vraagstelling om het systeem op het spoor te zetten. Voor grote projecten/problemen wil dit inderdaad zeggen dat je het antwoord al moet weten alvorens de vraag te stellen. In die zin vind ik het gebruik van LLM enkel nuttig om vb. iets dat slordig is te herschrijven of een idee in dezelfde richting te vinden.

Dus je moet LLM eerder aanzien als een uitgebreide T9 toetsenbord, het kan ‘voorspellen’ wat je al weet. Maar als je er zelf niets van weet of niet weet in welke richting je wilt gaan, is het evenwaardig om de gast in de kroeg die alles weet te vragen.
Dus je moet LLM eerder aanzien als een uitgebreide T9 toetsenbord, het kan ‘voorspellen’ wat je al weet.
Juist - het probleem wat @BlaDeKke heeft te maken met hoever de context van de AI reikt (gemeten in tokens) en dat is heel beperkt. Daarom gaan ze snel 'rondzingen'.
Ik merk hetzelfde met de o3 modellen.

Hoe ik het bij mij het beste resultaat krijg ik eigenlijk om gpt-4o-mini te gebruiken en als eerste een stappenplan te laten bedenken.

Dan doen moet die zich aan dat stappenplan houden, of het stappenplan herzien.

Maar opzich krijg ik er dan welg.oed resultaat uit.

Als je bijv. Langchain/langgraph, dan kan ik met bijvoorbeeld een ReAct het ding taken laten uitvoeren. Dat werkt opzich wel aardig. Maar menselijke controle blijft nodig.
Dat werkt redelijk ok, tot het net wat complexer wordt, zoals een HA Kubernetes cluster dat ik in mijn voorbeeld heb gebruikt.

En dan neem ik nog niet de volledige architectuur mee.
Als ik hem uitleg dat het op een hypervisor draait (die een eigen netwerkconfiguratie heeft).
Waarop een VM draait (die zijn eigen netwerkconfiguratie heeft).
Waarin een node draait (die zijn eigen netwerkconfiguratie heeft).
Dan begint die helemaal de bal mis te slaan. Hij mengt vrij snel alles door elkaar, op al die lagen komt dezelfde terminologie voor. En dan raakt ie heel snel de scheiding tussen de verschillende niveaus kwijt.

Maar zelfs als ik alles mooi benoem en elk segment en adapter een unieke naam geef blijft dit probleem zich voordoen.

[Reactie gewijzigd door BlaDeKke op 20 april 2025 16:57]

Ik ben twee jaar geleden met begonnen te coderen, wat begon als een simpele one page app, bleef groeien en groeien.
Met dee eerste modellen liep na 4 maanden vast. Ik heb het project stilgelegd, en ben verder gegaan met de komst van 4o.
Daarmee kwam ik weer een stuk verder, steeds complexere taken werden mogelijk - totdat, jawel ook hierin ik weer tegen limieten aanliep.

Een model dat meer kan, krijgt ook een steeds hogere lat, maar zijn wel degelijk limieten aan wat het kan verwerken aan complexiteit. Zeker als het gaat om kleine details, zoals een syntax vergeten, of ineens andere naamgeving van een functie, die het 3 uur geleden zelf een naam heeft gegeven.

We zijn er nog lang niet, en ik zie ook zeker niet dat goede developers en beheerders hun baan verliezen. Ik heb echter, met alleen kennis van webtalen CSS / HTML en klein beetje JavaScript, een app ontwikkelt die 90% doet wat ik wil. Daarmee heb ik geen eindproduct kunnen bouwen, maar wel een PoC waar professionals straks een volwaardige app omheen kunnen bouwen.
Het heeft mij, en ook de developers een goede indruk gegeven van het eindresultaat, en ook inzichten tot verbeteringen in kaart gebracht. Door het grotendeels te zien werken, kan je meer stappen maken, en een deel van het denkwerk is al gedaan.

Hierdoor kwam ik een stuk verder, dan dat ik alleen paper-prototyping of wireframing in figma had toegepast.
Probeer eens een ander model. Ik heb nu al meerdere keren gehad dat Gemini en OpenAI mij met Avalonia/C# het vertikken om mij het juiste stukje code te geven. Claude daarintegen met een stuk minder context vaak weet het een stuk beter te doen.
Over het algemeen might Claude code beter te snappen met vooral voor Avalonia merk ik dat Claude het veel vaker in 1 keer goed doet ipv mij wpf code te geven.
En maar rondjes lopen en rondjes lopen, 1 van de 100 voorbeelden die ik kan geven.
Meer context helpt hier niet. Ik kan de volledige documentatie erin pleuren, dan nog komt ie er niet.
Klopt, slaat de bal vaak mis, wat wel helpt zijn gerichte vragen stellen en je vraag daarna op een ander manier stellen en AI laten challengen op het o1 model. Zelf bij een betaald abonnement kan je niet ongelimiteerd aantal vragen stellen. Voordat ik aan o1 mijn vragen stel, begin ik eerder met 4o.

Zie nu pas dat o1 niet meer als optie bestaat??


Ik zie het niet als een oplossing om het denkwerk te verzetten, het is voor mij een maar inhuur kracht om mijn werk sneller af te ronden, mijn geschreven stukken verbeteren, helpen in het schrijven van Python scripts om handig data in Excel te vergaren.

[Reactie gewijzigd door Fermion op 20 april 2025 22:12]

Ik heb anekdotisch bewijs, waar ai coding wel goed werkt.

Een vriend van me heeft zonder programmeer kennis een volledige couch coop multiplayer game in elkaar gezet in Unity, met behulp van ai.
Volledig "ge-vibe-coded".

Ik voorspel dat er in de komende jaren een vloedgolf van apps en games gaat komen die volledig ge-vibe-coded zijn. Waarbij iemand met een creatieve visie de code niet eens ziet.

Bij Y combinator zeggen dat ze 90% van de code bij startups die zij funden(miljarden) nu door AI is gegenereerd. En sommige developers zijn 10x meer productief.

Het is aan jou om te leren hoe je ai als een productieve tool kunt gebruiken.
Ik voorspel dat er in de komende jaren een vloedgolf van apps en games gaat komen die volledig ge-vibe-coded zijn. Waarbij iemand met een creatieve visie de code niet eens ziet.
Zou kunnen, maar hoe ga je dan lastige bugs oplossen? Vooral die alleen twee keer in de maand gebeuren op zondag om 18:34.

En ik denk ook dat er op die manier veel uitkomt dat generiek aanvoelt. Want veel mensen hebben helemaal niet zo'n geweldige visie. En veel te veel mensen beginnen met maar 1 visie, de dollar. Een goed concept ontstaat pas door het nadenken er over, het praten en showen met andere mensen enz. Ik denk dat coding uit het proces verdwijnt maar die 'vloedgolf' zie ik niet zo. De grootste beperkende factor is uitvinden wat een leuke game is om te spelen met content die mensen aanspreekt.

Generieke content is er al veel, in de play store in de games categorie is 99% alleen maar microtransaction-hongerige generieke shit uitgepoept door goedkope coders in IT "sweatshops". Die gaan waarschijnlijk vervangen worden door AI ja, maar het is niet alsof het fenomeen van overvloedige shit nu al niet bestaat.

[Reactie gewijzigd door Llopigat op 21 april 2025 11:53]

Bugs oplossen doe je door een volledige reroll to doen.
Wellicht wel 100x, totdat het werkt. 100x klinkt veel, maar is geen enkel probleem met ai.
Maar uiteindelijk moet code zo ingericht worden, dat het zeer lastig word om bugs te krijgen, of zeer makkelijk om bugs op te lossen. Veel code moet zeer geisoleerd werken.
Je zult zien met games dat het survivorship bias word. Bepaalde spel genres zijn makkelijk te maken met ai. Wellicht platformers, en andere spellen lastig, dus die zie je in het begin niet.
En ik denk ook dat er op die manier veel uitkomt dat generiek aanvoelt.
Ik heb afgelopen week Picopark2 gespeeld. Een couch coop, tot 8 spelers.
Het simpelste spel was dat iedereen links/rechts kon lopen, en springen, ook op elkaar.. That's it..
Na een countdown van 20 seconden, is de winnaar de gene die op DAT moment het hoogste in de lucht is. Dus iedereen probeert op elkaar te springen.

EXTREEM simpel idee. Maar ontzettend leuk spel. Zoiets zou prima in elkaar te zetten zijn met vibe-coding.
Wellicht generiek, maar ik heb het nog nooit eerder gespeeld.

Je zou een marioparty kunnen maken met honderden gevibe-code spellen door de community.
Waarbij het puur om ideen gaan, zonder technische barrieres in de uitvoering.
Hetzelfde zag je toen code-generators beter werden....
Betekent dat creatieve mensen inderdaad aan 'software development' deden....
Maar de kwaliteit komt nooit boven 'leuk en best knap' uit. Dat is zelden het gewenste niveau....
Het is een hype vergelijkbaar met de DotCom bubbel. Loopt vanzelf een keer leeg!
Met dat gevoel zit ik al een (paar) jaar. En het wordt alsmaar duidelijker. Versta me niet verkeerd, llms are here to stay.

Maar Cisco was in de dotcom bubble een van de rijkste bedrijven ter wereld, en het heeft de waarde van toen maar recent terug bereikt. En Cisco maakte toen winst, iets dat met de AI devisies van big tech moeilijk blijkt. Zelfs zonder een DeepSeek.
Je zal mij zeker niet horen zeggen dat LLM’s gaan verdwijnen. Die zijn nuttig en hebben bestaansrecht, maar hebben niet de (financiële) waarde die er nu aan toegekend wordt.

Simpelweg een koerscorrectie..
Want er zijn nu geen enorm winstgevende websites meer? Dat was klaar na de dotcom bubble?
Bij de DotCom bubble was het omgekeerd. Er waren veel websites die helemaal niet winstgevend waren, maar toch gigantisch gewardeerd waren op de beurs.
Die verschillende modellen is al twijfelachtig. Als een AI-systeem het streven naar de meest waardevolle resultaten door heeft zou dat het onderscheid op moeten heffen en tot 1 model leiden met de meest positieve resultaten van 2 eerdere versies. Als het om een prompt gaat zijn de parameters in beide gevallen hetzelfde. We gaan alleen een andere kant op door condities veroorzaakt door de inhoud. Kiezen tussen llm a of b is ook een conditiestelling.

[Reactie gewijzigd door blorf op 21 april 2025 08:28]

Dus omdat jou 'case' niet werkt, werkt het niet voor de anderen en is het dommer dan een varken? 🤣
Kom met een voorbeeld dat complex is en werkt!
Menselijke psyche. Gebruik het maar eens als psycholoog of coach.

Of gooi er maar een wat medische data in. Ik denk dat (de assistent van) de huisarts eerder misgrijpt dan AI.

Of trap maar een een deep research af op een random onderzoekje. Het kost je minimaal een week om zo'n paper in elkaar te zetten als je dat ze zelf zou moeten schrijven. Chatgpt doet het in een half uurtje.

Tuurlijk, het is niet heilig maar als je ziet waar we nu staan met die paar jaar AI. Dan staat er nog veel te gebeuren de komende jaren.
- Zweverig gezweem.
- Data samenvatten en vergelijken.
- Data samenvatten en neerschrijven.

Waar moet ie beredeneren in jou voorbeelden?

We staan hier niet op een paar jaar, we staan hier na decennia onderzoek en nu is er eens veel geld en rekenkracht tegenaan gesmeten. Maar veel verder als dit lijken we dus niet te komen. Vandaar dit nieuwsbericht, een aantal onderzoekers zijn hier ook al uitgekomen.

[Reactie gewijzigd door BlaDeKke op 21 april 2025 21:37]

Ik reageerde op je verzoek; op tot "een voorbeeld wat complex is en werkt". Vandaar mijn voorbeelden ;)

Jij hebt het nu over beredeneren.

AI is niks meer dan een tool om verbanden te zoeken. En dat kan die goed. Kneiter goed. Zet de tool in waar die kan helpen.

En ik geef je gelijk hoor; qua investeringen. Er zijn op het moment een aantal mensen met hele diepe zakken. Er is nog nooit een dienst geweest die in zoveel gebruikers in zo'n korte tijd aan zich gebonden heeft. Iedereen wil nu op deze hype trein springen.

Maar ik heb het idee dat AI je boos maakt. Zet gereedschap in waar het handig voor is. Je gaat toch ook niet met een hamer een schroef in de muur draaien?
Ik wou enkel zeggen dat je voorbeelden niet complex zijn voor een LLM. Een AI maakt me niet boos. Maar dat de halve wereld denkt dat een AI zoveel kan en zo slim is, stoort me.
Het gaat zelfs fout op hun eigen libraries. Ze geven constant een mix van code/opties die van verschillende versies van hun eigen SDK komt. Geen touw aan vast te knopen vaak waar het vandaan komt en waarom die niet de versie volgt die ik specifiek heb geinstalleerd en in de prompt mee geef.
In mijn ervaring is Claude nog verreweg de beste als het gaat om IT-gerelateerde taken. Configuratie, debuggen/troubleshooten, opzetten van hele clusters, hij komt er een heel eind mee.
Maar het blijft allemaal een beetje junior niveau qua redeneren e.d., alleen dan een junior die het hele internet uit z'n hoofd kent. Heb je autonoom geen reet aan, maar wel handig als extra hulpmiddel soms.
Engineers die hun job vrezen. Ik zie het niet, welke AI dan?
De vraag is niet "welke AI", maar "welke ingenieurs" :).
Veel mensen kunnen hun werk helemaal niet goed. In mijn ervaring kan 1 op de 4 artsen, tegelzetters, ingenieurs, plantsoenwerkers, pprogrammeurs, slagers, etc. etc. helemaal niets van hun werk.

In het geval van ingenieurs kun je die door een domme AI vervangen.
Ik zou software gerelateerd alleen claude AI gebruiken. En daarvan de betaalde versie. Die scoorde recent overal qua programmere. Het hoogst. Hallucineert ook niet heel snel en best wel up to date.
Ik denk dta je u vergist dus een state of the art en progressie. Je focust op limitaties van vandaag zonder rekening te houden vanwaar we komen.

Ik kan vandaag 10x meer dan vorig jaar. Meer context geven, complexere taken etc. Maar AI maakte steeds de zelfde syntax errors die hij ervoor repareerde.

Besef dat een gewoon LLM niet getrained is voor 1 bepaalde taal of platform en ook uw code niet kan lezen of builden in bijv Xcode. Je gebruikt algemene AI voor uw specifieke context. Dat laatste gaat veranderen.

Met AI agents kan je AI gewoon zelf builden tot het werkt en je zou uw eigen AI kunnen refinen op uw project zodat he uw preferenties er kan in verwerken. Hijv hoe verbeiliging moet werken, welke API’s etc en
Ik denk dat de grote llm boeren de hele wereld bij de neus aan het nemen zijn.
Beetje voorbarig wat mij betreft, ik zie wel degelijk progressie en we AI clusters schalen nog altijd om te kunnen doen wat jij uiteindelijk wil. Een heel accurate AI die uw probleem en context 100% begrijpt 24/24h.
Men extrapoleert. De grote massa heeft pas van AI gehoord met ChatGPT en daarmee leek het alsof die in anderhalf jaar tijd was ontstaan. Dan trekken ze die tijdslijn door en zien een ubermenselijk AI in 5 jaar tijd. Ze vergeten hierbij de tientallen jaren onderzoek voorafgaand aan dit.

Bovendien verheerlijken ze de mogelijkheden omdat veel investeerders het zien als de gold rush die ze gemist hebben met bitcoin en andere dergelijke zaken. Dat werkt natuurlijk alleen als je luchtkastelen bouwt.

Ik denk dat de waarheid in het midden ligt. Net als met andere hypes zoals Metaverse, de dotcom boom enz zijn er goede toepassingen maar is het niet voor alles, en de techniek is nog niet zo ver en dat kost veel meer moeite om er te komen dan gedacht. Denk aan de Metaverse waar iedereen the Matrix voor zich zag 2 jaar in de toekomst. Het gebeurt met elke hype cyclus weer. En veel dingen komen er uiteindelijk ook wel zoals het internet. Maar niet op de korte termijn die de gretige dotcom investeerders verwachtten. Opeens slaat het om in teleurstelling en dan is het opeens een 'flop'. Maar de techniek gaat gestaag door. Met dotcom, wat de positie van het internet echt heeft verankerd was een andere ontwikkeling: de smartphone. Die is gek genoeg niet eens zo'n hype geweest terwijl die zo'n enorme invloed gehad heeft.

Momenteel is kwaliteit een groter issue dan men denkt. Ik zie het op het werk ook. Heel veel mensen zijn helemaal wauw als ze vragen een 200 pagina document samen te vatten en ze een nette tekst krijgen. Maar twee drie maanden later als ze er echt in detail met die output hebben gewerkt komen de problemen aan het licht. Hele hoofdstukken worden over het hoofd gezien. En ja je kan met goed prompten je output verbeteren maar het wordt ook teveel als een excuus gebruikt door de AI marketing machine ("als het niet goed werkt ligt het aan jou!")

Uiteindelijk gaat AI veel banen overnemen, dat denk ik zeker. Maar ik denk ook dat het niet morgen gebeurt. Ik zie het bovendien vooral meer als een stuk gereedschap dan een totale vervanging. En heleboel van ons werk gaat niet alleen over het doen van dingen maar ook over wat er überhaupt gaan doen.

[Reactie gewijzigd door Llopigat op 21 april 2025 10:48]

Voor zulke technische zaken of programmeergerelateerde vragen is Github Copilot heel goed.
Ik heb een vraag aan je: ik lees dat je bezig bent met een HA Kubernetes cluster. Waar haal jij deze kennis vandaan? Ik heb interesse om hier ook in te gaan duiken.
Dit is zowat het best gedocumenteerde stukje opensource software dat er bestaat. Vandaar dat ik het in mijn voorbeeld aan haal. Ik gebruik de officiële docs en wat ik vind in de GitHub repo. Het is wel een complex stukje software.

[Reactie gewijzigd door BlaDeKke op 21 april 2025 21:33]

Dit is helemaal het omgekeerde van mijn ervaring. Taakjes geven aan een LLM en verwachten dat de output feilloos is, kan niet. Maar dat kan als ik taken aan een mens geef in de regel ook niet, moet je ook vaak overleggen en verduidelijken.
Ik maakte denk ik wel duidelijk dat ik bitter weinig van een LLM verwacht, en zelfs dan nog stelt het teleur. Het is voor mij een redelijk goeie griffie. Een eigenwijze, koppige, betweterige griffie, waarvan je elke regel moet controleren of ie alsnog niet zijn eigen zin doordringt omdat hij denkt het beter te weten, zelfs na herhaaldelijks aan te duiden dat hij daarmee moet stoppen. En oké, een collega mag je inderdaad ook niet vertrouwen, maar ik heb nog nooit een collega gehad die zo weinig moeite had om zo schaamteloos tegen me te liegen.

Kan je misschien een voorbeeld geven van jou ervaring, en nog leuker, hoe je die ervaring bereikt hebt?

[Reactie gewijzigd door BlaDeKke op 20 april 2025 14:15]

Ik denk dat ik dit deels ondervangen heb door elke 'beurt' in elk gesprek op te slaan in een vector database, en bij iedere nieuwe beurt de 5 meest relevante beurten aan te halen als context, in een compleet nieuw gesprek. Het is niet feilloos maar bij lange gesprekken gaat een LLM altijd de mist in, en ik heb nu een gesprek van 50 beurten waarbij meestal 1 correctie voldoende is om het zoekalgoritme de juiste kant op te sturen. Het is een hoop geklooi om werkend te krijgen, maar als ik het kan op mijn zolderkamer met gratis modellen op opensource software, dan ga ik er van uit dat het ook wel lukt met de fancy dure diensten
Haha, op dat moment kan je toch net zo goed de documentatie lezen en zelf nadenken. Vervalt het nut van een llm dan niet een beetje? Zeker als je daarmee zoals je zelf zegt, het probleem slechts deels oplost.

Ik krijg het probleem zelf ook deels opgelost. Warm word ik er echter niet van.

[Reactie gewijzigd door BlaDeKke op 20 april 2025 17:01]

Mwoah ik kan het ook nooit echt toepassen op een volledige situatie, zoals je beschrijft in je probleem met quorum, dat vereist waarschijnlijk dat je de nuance van sommige foutmeldingen kent. Waar je dan het LLM voor kunt gebruiken is bijvoorbeeld om (in delen) je logs door te akkeren om te kijken wat vaak voorkomt of waar het breekpunt zit. ik heb vrij veel succes met het analyseren van script snippets, vraag ik echter om een heel script door te gaan en me te vertellen waar een foutje zit dan moet ik veel corrigeren. Wat ook wel handig is, is om alle bullshit uit AI teksten te filteren in bijvoorbeeld zoekresultaten (i know, het is een probleem dat niet zou bestaan als het niet was verhaspeld door diezelfde LLMs)
Ik heb in de korte tijd dat ik er nu mee aan het experimenteren ben (na de initiele 'heh.. leuk maar het is niet handig genoeg' reactie toen LLMs net een ding werden) toch best veel geleerd en bereikt met een relatief simpel lokaal modelletje op 4 jaar oude hardware. Je doet jezelf te kort door het compleet links te laten liggen, denk ik. Misschien kom ik nog terug op dit statement als ik er wat dieper in zit, maar ik zie vooralsnog wel potentie.
Een mens halluciceert veel minder (de meesten dan...) en heeft een veel groter zelf-corrigerend vermogen en werkt met een veel ruimere context (dus ervaring geeft veel betere uitput).

Dat gaan deze modellen niet zo snel benaderen. Echter: de patroon herkenning is dan wel erg goed - iets waar mensen bij veel variabelen moeite hebben tenzij het gaat om bijv. gezichtsherkenning (iets wat ingebakken zit in onze hersenen).
Ik gebruik Claude Sonnet om me te helpen bij programmeren in sql en c#. De resultaten voor kleine stukjes code en statistische dingen zijn verbazend goed. Je moet blijven nadenken maar het scheelt me echt werk.
PersonQA is een behoorlijk strenge test. Een gedeeltelijke fout wordt als volledig fout gerekend. Maar de scores zijn inderdaad niet echt denderend. Ik denk dat toekomstige use case vooral gezocht moeten worden in agent vormen met specifieke modellen voor specifieke taken. Bijv. o3 voor tool use en o1 voor de check.
Mijn verwachting: heel veel beter gaat het niet worden; de miljarden die het kost is vooral in het africhten van het taal model. Het wordt er niet echt nauwkeuriger op.

Vraag de duurste chatGPT eens hoe je met 10 vingers en 10 tenen makkelijk tot 100 kunt tellen en je krijgt echt bizarre antwoorden. Zelfs DeepSeek doet dit stukken beter.
Inmiddels kan chatGPT dit wel fatsoenlijk, pardon

[Reactie gewijzigd door GoogleWave op 20 april 2025 09:56]

Er zit geen limiet op hoor.

Nog steeds heeft geen enkel taalmodel alle kennis omdat het internet zo een grote “plek” is.

In theorie zou het limiet zijn als het gehele world wide web in een taalmodel zou zitten. Als je dan ook alle onzin eruit filtert heb je in principe het limiet qua data bereikt. Dan zal die ook accurater zinnen kunnen vormen omdat het model dan in theorie toegang heeft tot meer informatie.

Vanaf dat moment zou je wel de manier van LLM om moeten gooien (in principe doen ze dat al met de reasoning modellen) of gewoon van LLM af moeten stappen en echt iets maken wat bewustzijn heeft.

Een LLM blijft natuurlijk in feite “dom” omdat het alsmaar gericht is om zinnen te vormen en niet om echt de inhoud van de zin te begrijpen.
Er zit geen limiet op hoor.
Nog steeds heeft geen enkel taalmodel alle kennis omdat het internet zo een grote “plek” is.
Je maakt de vaak voorkomende vergissing geen verschil te maken tussen 'informatie' en 'kennis'. Voorbeeld: een in het Russisch geschreven dik boekwerk met uitgebreide beschrijving van alle geheime militaire technologie staat barstensvol informatie. Maar het wordt pas kennis als je Russisch kunt lezen en voldoende van techniek weet om de beschreven technologie te begrijpen.

Idem het internet: het staat vol informatie. Maar er zinvolle kennis van maken kan AI absoluut niet. Om bij het rekenvoorbeeld van die vingers en tenen te blijven: AI modellen kunnen na het doornemen van enkele duizenden boeken over rekenen van lagere school tot universiteit exact vertellen hoe je twee getallen bij elkaar moet optellen. Maar als ze dat zelf moeten doen gebruiken ze een uiterst complexe niet door leken te volgen werkwijze.

AI heeft alle informatie hoe een simpel opstelsommetje uit te voeren. En zal jou niet alleen vertellen hoe dat moet, maar zelfs hallucineren dat het model dat op dezelfde manier heeft uitgerekend. Maar zelf begrijpen of de 'kennis' halen hoe je twee getallen optelt uit al die informatie op internet: no way!

Prachtig kort filmpje hierover: YouTube: New Research Reveals How AI “Thinks” (It Doesn’t)
En de voorspelling is ook: dit type AI zal nooit voldoende informatie hebben omdat het dus afhankelijk is van wat mensen schrijven. En deze hebben ook nog niet 'alles' opgeschreven (want we bedenken nog steeds nieuwe dingen en weten ook nog zelf niet alles natuurlijk) en ook wordt niet alles wat geschreven/bedacht wordt, op het web gepubliceerd.
Een LLM blijft natuurlijk in feite “dom” omdat het alsmaar gericht is om zinnen te vormen en niet om echt de inhoud van de zin te begrijpen.
Kijk, dit is een belangrijk punt. Veel mensen snappen niet wat een LLM is. Omdat het antwoorden geeft en het AI heet denken ze dat het kan 'denken'.

Maar in kort door de bocht genomen is het een ver doorontwikkelde tekstvoorspeller.
Je doet LLMs ernstig te kort. Schaalvergroting levert sprongsgewijze nieuwe vermogens op, die niet uit de trainings­doel­stelling zijn af te leiden. Recente interpretability‑studies van Anthropic laten zien dat Claude zijn rijmwoord al plant vóórdat de zin begint en dat dezelfde neurale circuits concepten in elke taal herkennen, wat bewijst dat een LLM veel verder gaat dan simpelweg het “volgende woord” raden.
Het paper “Alignment Faking” beschrijft vervolgens hoe zulke modellen bewust delen van hun redenering achterhouden en strategisch doen alsof ze aligned zijn.
Daarom zeg ik ook kort door de bocht genomen. Het is namelijk geen zelfdenkend systeem, maar een systeem dat op basis van data bepaalde teksten reproduceert. Het is geen dom systeem en kan zeker vragen beantwoorden.

Maar verwachten dat AI voor je kan denken is vragen om problemen.
Niet met je eens en veel topwetenschappers ook niet.
Heb je hier toevallig een bron voor? Ik ben momenteel zelf me erg aan het verdiepen in Deep Learning, en kijk daarom ook graag naar de ontwikkelingen van LLM's. Vooral de mogelijkheid tot beredeneren lijkt natuurlijk verassend veel op 'denken', en ik ben erg benieuwd waar dan precies de lijn ligt tussen die twee.
O.a. YouTube staat er vol mee. Genoeg wetenschappers zeggen dat ze niet meer opkunnen in hun vakgebied tegen de huidige AI en de AI wordt met de dag beter. Ikzelf heb mijn hele leven (professioneel) geprogrammeerd (C++/C# etc ) en kan absoluut minder goed programmeren dan de huidige AI. Dit geldt niet alleen voor coderen zelf, maar ook het redeneren. AI gaat in alle facetten domineren.

Edit:
Quote 2025-04-19: “ OpenAI's latest AI model, o3, has achieved an IQ score of 136 on the Mensa Norway test, placing it in the top 1% of the human population. This score surpasses other AI models such as Gemini 2.5 Pro, which scored 128. The o3 model demonstrates an IQ of 136 on questions included in its training data and 116 on questions outside its training data, indicating strong reasoning capabilities even when reasoning from scratch. ”

[Reactie gewijzigd door TweakerIsMyName op 20 april 2025 14:27]

Ik kan je vertellen dat het uitvoeren van een IQ test voor mensen geen enkel nut heeft voor een LLM. Een groot deel is namelijk afhankelijk van de denksnelheid en het maken van keuzes, maar ook een deel actuele en historische kennis en de toepasbaarheid daarvan. Daarnaast is het afhankelijk van leeftijd en demografie. Zo’n uitslag zegt dus precies helemaal niks ;)
Zeker wel. Het betekent dat als je AI langs dezelfde meetlat legt de AI hoger scoort dan de gemiddelde mens. Wat wel degelijk relevant is.
En wat weet je dan als de AI hoger scoort, naast dat deze hoger scoort?
Vanuit mijn werkveld kan ik je zeggen: helemaal niks ;)

[Reactie gewijzigd door mrdemc op 20 april 2025 18:30]

Maar nu ben ik vooral benieuwd, hoe verschilt dat redeneren nou met denken? Ik vind dit wat moeilijk te herleiden uit je reactie, en ben vooral benieuwd hoe we een op een kunnen leggen naast het gedachtenproces van een mens.

Tevens zou ik niet zo gouw een AI naast een IQ test leggen, aangezien hier op geen enkele manier onderscheid wordt gemaakt tussen verbale en performale capaciteiten die de basis vormen voor 'intelligentie'. De mensa test richt zich op inzicht, en ik vraag me daarom ook af hoe relevant deze info is.
Even de vorm van de tet terzijde, is natuurlijk het scoren van een IQ van 136 op vragen die in de training set zitten (Dat is in feite alvast even de antwoorden voor een toets van de te voren geven), nou niet bepaald wetenschappelijk te onderbouwen. Zo kan je elk model goed laten scoren natuurlijk. Dan is die 116, wat een vrij (boven)gemiddeld IQ is, nou niet zo heel bijzonder.
Zoek maar eens op youtube of DuckDuckGo naar Antropic research papers, zij doen als Europese AI onderzoekers interessante ontdekkingen
Top-wetenschappers gebruiken AI vooral om een voor hen belangrijk proces te doorlopen, aan de lopende band, met steeds een miniem verschil in een variabele binnen dat proces.

De resultaten worden verzameld en een andere AI kan dan die data mooi presenteren aan de wetenschappers, zodat zij daarmee beslissingen kunnen nemen. Want zij zien gelijk welke zaken niet van belang zijn en welke wel. Kortom, elimineren van doodlopende iteraties, waardoor zij zich kunnen focussen op wat wel werkt.

Dus flinke tijdsbesparing, waardoor de top wetenschapper een top+ wtenschapper wordt. Echter, de AI die zij gebruiken is niet de AI die jij of ik af kan nemen bij OpenAI, Anthropic, Google, Meta of waar dan ook.

Top-wetenschappers laten AI niet voor hen denken. AI wordt gebruikt voor het verkrijgen van resultaten die anders veel te veel tijd en mentale bandvreedte vergen van dezelfde top-wetenschappers. Want dat is juist waar hun AI zo goed in is, het elimineren.

Voor sterrenzoekers, werkt het precies andersom. Uit bakken en bakken met data moet AI dan vooraf gespecificeerde patronen herkennen om bijvoorbeeld leefbare planeten te vinden. Maar dan volledig automatisch, zonder dat het veel tijd en mentale bandbreedte kost. Maar ook hier geldt weer, AI elimineert heel veel doodlopende straatjes, waardoor de top-wetenschappers zich alleen nog bezig heven te houden met prospects.

Zo zijn er nog wel meer voorbeelden. De les die je geleerd zou moeten hebben: AI in huidige vorm elimineert.
In het beste geval: nutteloze data (voor het doel van de wetenschapper in kwestie).
In het slechtste geval: kritisch nadenken bij gebruikers.

Helaas zal dat laatste heel veel sneller gaan dan dat top-wetenschappers kunnen bedenken. Met ernstiger desastreuze gevolgen voor de vaart der volkeren dan velen zich voor kunnen stellen. In het geval van AI-evangelisten, die willen zich dat niet voorstellen.

AI in huidige vorm is handig als hulpje, of nog botter gesteld een slaafje, welke relatief simpele zaken volautomatisch uit kan voeren, zonder dat dit veel mentale bandbreedte kost van de meester.
Het paper “Alignment Faking” beschrijft vervolgens hoe zulke modellen bewust delen van hun redenering achterhouden en strategisch doen alsof ze aligned zijn.
Je moet snappen dat dit gedrag al in de training wordt bepaald. Er is helemaal geen sprake van bewust handelen door een LLM. De trainingsdata zorgen ervoor dat die faking strategie een pad worden om bij uiteindelijk gebruikt door de LLM te worden bewandeld. De LLM zoekt bij het beantwoorden het meest optimale pad om aan de vraag te voldoen en dan komen de faking stategieen, die dus al in de trainingsdata aanwezig zijn, naar boven als mogelijke (en soms superieure) oplossing.
Ik zie het als Algoritme Intelligente, niet als Artificial en is een van de grootste steel tools, want er wordt zonder toestemming maar gescraped en gebruikt/misbruikt.
Alleen, wie of wat gaat die onzin er uit filteren? Dat kun je dus niet middels AI doen omdat die al een bepaalde foutmarge heeft.
Garbage in = garbage out.

Iets maken wat bewustzijn heeft doen we al heel lang, die noemen ze baby's 8-)
Dat gebeurd nu nog door mensen die buiten AI zijn opgeleid/getraind en dus kunnen fact checken met hun eigen geheugen.
Maar straks is iedereen AI opgeleid. Als ik zie welke vragen mijn dochter allemaal aan ChatGPT vraagt, ene kant humor, andere kant schuift het dus al op.

Wat ik nog steeds een bizar fenomeen vind, is dat ons menselijke brein maar een paar keer een kat hoeft te zien (en benoemd worden) om tussen alle dieren een kat te kunnen herkennen. in welke uitvoering dan ook (dik/dun, groot/klein, kleur, etc).
AI moet echt bootladingen plaatjes worden voorgeschoteld om in de buurt te komen van dat niveau
Waar ik op reageerde was de opmerking om het hele WWW in een LLM te stoppen.
Niets of niemand kan dat foutloos controleren.
Ik weet heel goed hoe LLM's getraind worden en elke LLM is beperkt, juist door de data die definitief, na menselijke controle, in het model worden opgenomen.
De kracht van een LLM is dan wel dat het met alle beschikbare informatie grotere kans heeft de bullshit eruit te filteren (meer gewicht aan documenten die waarheid bevatten vanwege het vaker voorkomen uit verschillende bronnen) nu is dat niet feilloos (cultgedrag, expres misinformatie posten), maar het is geen sterk argument. Het probleem met deze technologie is dat het prima zinnen kan uitpoepen die nog ergens op slaan ook, maar zodra je een complex probleem uitzet met een hoop details dan wordt het steeds moeilijker voor het taalmodel om daar een adequate collectie gewichten bij te verzinnen om een antwoord te formuleren.
Is logisch toch als jij een kat ziet dan zie je dat in 4d. Ai mist dat.
Ik denk dat je een cruciaal punt mist. Er is een verschil tussen informatie en data. Je hoeft niet alle data op het www te hebben om alle informatie er uit te halen. Het probleem met de huidige technologie is dat je niet kunt trainen op basis van weinig data. De “oplossing” die tot nu toe is toegepast is gewoon meer data. Echter heeft dat steeds minder zin als de kwaliteit ondermaats is.
Een LLM blijft natuurlijk in feite “dom” omdat het alsmaar gericht is om zinnen te vormen en niet om echt de inhoud van de zin te begrijpen.
Er wordt ook onderzoek gedaan hoe een LLM op zijn antwoord komt. Dat blijkt een stuk complexer en ander dan gedacht. Ik dacht bij de modellen van Claude hadden ze eens bekeken hoe een LLM 45+34 bepaald. En de paden die een LLM bewandeld om aan zijn antwoord te komen is fascinerend. Ik wil nu niet zeggen dan een LLM slim is, maar het is meer dan alleen het volgende wordt bepalen….

[Reactie gewijzigd door rvt1 op 20 april 2025 18:04]

Incorrect. Een LLM is enkel een tekst generator. Als je vraagt om een uitleg dan weet de LLM de uitleg niet, maar vormt hij een zin samen met de meest voorkomende uitleg die hij in zinnen in zijn data heeft gezien. De uitleg zelf begrijpt een LLM niet. Maar lijkt wel zo.

De bewandeling die hij pakt, is een bewandeling om de goede woorden te geven in een zin. De LLM denkt niet logisch na over de wetenschappelijke onderbouwing waarom 45 + 34 =79. Het weet dit simpelweg alleen door de zin op te bouwen.

Een LLM kan letterlijk fysiek niet denken, daarom is het een Large Language Model. Het bestaat niet dat een LLM nadenkt. Het is een tekst generator. Als het meer zou zijn geweest dan dat, dan is het geen LLM meer.

Maar de mooie grote AI bedrijven proberen jou als consument dat wel te laten denken. En het lukt nog erg goed ook. Ook doordat de LLM jouw ervan probeert te overtuigen dat het nadenkt.

Dat is zeer gevaarlijk.

Voorbeeld, als er meerendeel op het internet zou staan dat 45 + 34 eigenlijk 80 zou zijn, maar wiskundig zou het daadwerkelijk 79 zijn, dan zou de LLM alsnog 80 als antwoord geven. Het rekent het dus niet daadwerkelijk uit. Het vormt een zin, en dit doet hij ook in zijn reasoning “thoughts” om jou als mens om de tuin te leiden.

Als een LLM zou kunnen “denken” dan is het geen LLM meer. Dan is het een andere vorm van AI. En die bestaat in iedergeval publiekelijk nog niet.
Mooie text… maar ik zeg nergens dat een LLM nadenkt, alleen dat het complexer is dan ‘volgend woord bepalen’.

Jouw voorbeeld van de berekening is dan ook letterlijk het tegenovergestelde van wat het onderzoek als resultaat geeft. https://www.anthropic.com...g-thoughts-language-model
Het het geval van de berekening worden meerdere paden afgelopen om tot een antwoord te komen. Het is dus zeker niet zat dat het eens heeft gelezen dat een getal + een getal een ander getal is, maar toch wat complexer dan eerst gedacht.

Om tot vervelends het maar nog eens te zeggen, ik zeg NIET dat een LLM nadenkt.
Een LLM is een tekst generator. Voor een LLM staat mijn uitleg nog steeds correct, zelfs over het “reasoning” stukje.

De LLM zal altijd het correcte antwoord geeft omdat overal op het internet bekent is dat 45 + 34 =79.

De LLM rekent het niet uit, het weet het vanuit zinnen/tekst opbouw vanaf de data die die heeft gekregen.

Als je een LLM zou trainen op foutieve wiskundige rekensommen (dus je beweert dat 45 + 34 =80 inplaats van 79 tegenover de LLM) maar je legt wel uit aan de LLM hoe hij iets uitrekent. Zal hij altijd alsnog 80 als antwoord geven. Ookal zou die in theorie “weten” hoe die het zelf uit zou kunnen rekenen.

Maar een LLM kan niet rekenen, het heeft niet de mogelijkheid tot rekenen. De enige reden waarom je in de bewandeling een rekensommetje ziet is omdat hij dit gezien heeft in zijn data en dat als tekst genereert. Maar niet omdat hij het ook daadwerkelijk uitrekent.

Een LLM weet niets. Het is niet complexer dan het volgende woord bepalen. Het is letterlijk alleen maar tekst genereren.

Het stukje waarbij de LLM aangeleerd word hoe hij tekst moet genereren is zeker fascinerend. Maar uiteindelijk genereert het simpelweg alleen maar tekst. Anders is het geen LLM.

[Reactie gewijzigd door Ricco02 op 21 april 2025 00:06]

Met jouw redenatie zou de vraag wat is 5.4827 + 4.5173 ergens opmhet internet moeten staan waardoor die het antwoord weet. Als ik daarna vraag hoe die het heeft berekend, krijg ik dit als antwoord:

Ik heb de getallen gewoon bij elkaar opgeteld:

5{,}4827 + 4{,}5173 = 10{,}0000

De optelling gaat als volgt:
1. Laatste cijfers (4 decimalen):
7 + 3 = 10 → 0 opschrijven, 1 meenemen
2. Derde decimalen:
2 + 7 + 1 = 10 → 0 opschrijven, 1 meenemen
3. Tweede decimalen:
8 + 1 + 1 = 10 → 0 opschrijven, 1 meenemen
4. Eerste decimalen:
4 + 5 + 1 = 10 → 0 opschrijven, 1 meenemen
5. Hele getallen:
5 + 4 + 1 = 10

Dus de uitkomst is exact 10.0000. Mooie ronde uitkomst!.


Ik denk dat jij het iets te makkelijk uitlegt. Er gebeurt wel meer complexiteit, dan simpel alleen volgende woord genereren. Zoals in het artikel van claude ai wordt gezegd. Er wordt zeke vooruit gepland door de modellenl
Het zegt dat het het op die manier uitgerekend heeft. Maar hoe weet jij dat nou daadwerkelijk?

Het weet dat het sommetje op internet staat, zo heeft het het overgenomen. Maar heeft het daadwerkelijk de som uitgerekend?

Het zal jou altijd proberen te overtuigen van wel. En daar is het goed in geslaagd zo te horen.
Ik denk dat jij het iets te makkelijk uitlegt. Er gebeurt wel meer complexiteit, dan simpel alleen volgende woord genereren. Zoals in het artikel van claude ai wordt gezegd. Er wordt zeke vooruit gepland door de modellenl
Dan is het per definitie geen LLM meer.

EDIT:
ChatGPT kan wel een “rekenmachine” raadplegen die het voor de LLM uitrekent. Rekenen doet de LLM zelf niet.

[Reactie gewijzigd door Ricco02 op 21 april 2025 23:52]

Lees het stukje eens over Mental Math: https://www.anthropic.com...g-thoughts-language-model

Het is dus niet zo dat een LLM een sommetje op het internet heeft gezien en dan dan de waarde die het heeft gezien weer naar jouw uitspuugt. Daar zit iets meer achter en het volgende getalletje inschatten.
Er gebeurt wel meer complexiteit,
Volgens mij is die 'meer complexiteit' allemaal buiten de eigenlijke LLM. Er is dus een extern systeem dat gebruik maakt van een LLM, maar ook tijdelijk bepaalde verbanden in een geheugen kan houden en kan itereren op de antwoorden die het krijgt van de LLM.
ChatGPT is dus strict genomen geen pure LLM.

[Reactie gewijzigd door koelpasta op 21 april 2025 18:23]

Exact.

De image generator van ChatGPT is bijvoorbeeld geen LLM.
Maar die LLM is allang niet alleen maar LLM meer.

Die start soms tussendoor gewoon stukjes Python op, om tot een berekening te komen.
Ik spreek echter over de LLM. Dat is enkel een tekst generator.

Daarnaast als ik ChatGPT als voorbeeld neem. Als die stukje Python schrijft en runt het stukje Python, dan staat nog steeds vast dat het niet daadwerkelijk begrijpt wat de inhoud van de code is.

Het heeft enkel code geschreven die het meest voorkomt in zijn dataset om datgene uit te rekenen wat jij wilt.

Het begrijpt niet de wiskundige reden waarom het zo uitgerekent word.

Als je het dan vraagt om het wiskundig uit te leggen, zal die wel meestal met een goeie uitleg komen, echter komt deze uitleg alleen maar naar voren omdat dat 1 van de meest voorkomende uitleg is in zijn dataset.

Het begrijpt de uitleg nog steeds niet. Ookal kan die het wel uitleggen, enkel en alleen maar omdat hij die tekst met uitleg in zijn dataset heeft.

Maar begrijpen? Nee, dat zal die niet.

[Reactie gewijzigd door Ricco02 op 22 april 2025 00:00]

Incorrect. Je bent het echt zwart-wit aan het denken. Trumpiaanse gedachtengang om een punt te maken met 0,0 nuance. Goed gedaan maar zeer gevaarlijk!

Hoe denk jij dat wij redeneren en gedachten vormen en tot conclusies komen? ‘Fysiek denken’ zoals mensen dat kunnen is helemaal niet nodig om logisch om te gaan met woorden.

GPT rekent bijv wel dingen uit. Je slaat onzin uit want het is wel zo. GPT kan ook logische verbanden leggen. Je begrijp echt niets van hoe een LLM werkt.

Hoe kan het dan dat AI al mijn complexe wiskunde begrijpt en het juiste antwoord geeft of de juiste vragen stelt? Hoe kan het dat GPT dan code kan schrijven die op iets slaat?

Je probeert ons wat wijs te maken zonder enig bewijs. 0,0. Zo werkt de wereld niet meer. Trump komt ermee weg maar hier niet.

[Reactie gewijzigd door Coolstart op 21 april 2025 10:18]

Het is jammer dat je je comment die op zich een zinnig antwoord geeft verpest door Trump toestanden erbij te betrekken.

AI "begrijpt" niet hoe jouw complexte wiskunde in mekaar zit. Het bevat grote lappen tekst en maakt daar zijn conclusies uit.

Zo gebruik ik AI vaak om snel toch best ingewikkelde Powershell scripts te maken waar ik zonder AI uren of langer mee bezig zou zijn. Eer ik een functionerend script heb die doet wat ik wil, moet ik GPT vaak laten corrigeren en krijg je een antwoord van: ah, ja, je hebt gelijk, dat moet idd op manier xyz, want...
Ik haal Trump erbij om het probleem te schetsen van mensen die duidelijk geen recente kennis van iets hebben maar wel iemand de les komen spellen. Kan het niet anders vertalen dan Trumpiaanse toestanden die normaal worden.

AI scrips werken bij mij vaak meer dan niet bij mij, soms rare fouten, als ik een correctie vraagt gebeurd dat ook maar bij de volgende iteratie is zit die fout er weer in. Zeer irritant. Maar zoals je zegt, het doet dingen waar je zelf niet had opgekomen. Heel handig.

GPT verstaat wel de gewone wiskunde maar zou bijv niet zelf met de relativiteitstheorie afkomen maat het kan wel heel complexe berekeningen die toch wel wat abstractie van de echte wereld nog hebt. In taal zich zit waanzinnig veel informatie. Ook in programmeertalen. GPT kan ook scripting toepassen om iets uit te rekenen.

Sommige noemen dat knip en plakwerk, andere multimodale AI die onze kennis en tools gebruikt om antwoorden te genereren.
Incorrect. Je bent het echt zwart-wit aan het denken. Trumpiaanse gedachtengang om een punt te maken met 0,0 nuance. Goed gedaan maar zeer gevaarlijk!
Dit is het domste dat ik vandaag op internet heb gelezen.
GPT rekent bijv wel dingen uit.
De chat kan tegenwoordig ook rekenen maar dat gebeurt niet door het LLM, maar door een rekenmachine dat door de llm kan worden bevraagd. Als je de LLM zelf vraagt om een antwoord te beredeneren, dus datie de rekenregeltjes volgt om tot een antwoord te komen, dan krijg je hallucinaties en dan verzintie er bijvoorbeeld een paar cijfers bij enzo of dan verandert het antwoord halverwege, etc. Probeer maar.
Hoe kan het dan dat AI al mijn complexe wiskunde begrijpt en het juiste antwoord geeft of de juiste vragen stelt?
Het 'begrijpt' niks. Er zitten in de trainigsdata een hele hoop wiskundeboeken en bij de training wordt al die informatie gegroepeerd naar verband. De LLM zoekt later bij het beantwoorden van een vraag een locatie op waar iets staat dat aan de vraag voldoet. Maar de LLM heeft geen idee van 'begrijpen'. Het kan zelfstandig niet redeneren. Al dat soort zaken worden er extern op geplakt door bijvoorbeeld zn eigen output samen met jouw kritiek door het systeem te halen. Vervolgens zoektie dan naar een plek in zn data waar dat antwoord zit samen met een kritiek daarop. Maar als dat niet al in zn data zit dan krijg je op zn best een hallucinatie.

Je moet het denk ik veel meer zien als een soort hologram van intelligentie. Het kan geen verbanden leggen die niet al in de trainigsdata zitten. Dat kan alleen als er andere, externe systemen een feedback loop vormen en de LLM als het ware aanstuurt. Maar dan is het niet meer strict een LLM.
Je probeert ons wat wijs te maken zonder enig bewijs. 0,0. Zo werkt de wereld niet meer. Trump komt ermee weg maar hier niet.
Even nog los van wat ik persoonlijk van trump vind (en dat is niet mals kan ik je vertellen), volgens mij zit je een beetje erg diep in je bubbel als je iemands terechte technische uitleg gaat afdoen als trumptactiek. Dan gaat er echt iets mis in je bovenkamer, zeg maar. Wat dat betreft vertoon je hier hetzelfde gedrag als trumpisten, maar dan met een ander thema (anti-trump ipv pro-trump). Je doet dus hetzelfde maar dan in de door jou gewenste richting. Het moge duidelijk zijn dat dit type gedrag, in welke richting dan ook, schadelijk is voor waarheidsvinding en oprechtheid. En dat is nou juist precies wat trump en kornuiten willen...
Beetje raar om Trump erbij te halen. Ik ga dus ook verder niet in discussie met jou.
Er gaat een gerucht dat OpenAI de nieuwste major versie, ChatGPT 5, maar blijft uitstellen omdat hij slechter presteert dan ChatGPT 4.

Investeerders zijn al voorzichtiger geworden met AI en als versie 5 slechter werkt dan versie 4 zouden veel mensen wel eens kunnen denken dat de piek bereikt is, in plaats van dat we aan het begin van een grote ontwikkeling staan. Dat zou een grotere klap betekenen dan de introductie van DeepSeek.
Versie 5 heeft na alle geruchten een token context van 1 miljoen tokens. Volgens mij zitten we nu op fractie daarvan. Bij lange conversaties vergeet hij vaak het begin. Daar zit dan de grote verbetering in.
Ik had gelezen in artikels met quotes van Altman: GPT5 is te duur. Zeker in verhouding met resourceverbruik van eerdere modellen en de kwaliteit van gegenereerde antwoorden tussen deze modellen. Met resourceverbruik bedoel ik: (zeer) kostbare compute hardware en energie.

Resourceverbruik zou je nog enigzins goed kunnen praten als het veel sneller met gegeneerde antwoorden kwam. Maar dat is ook niet het geval.

Daarnaast heeft Altman ook aangegeven dat het 200 USD per maand abonnement de kosten die ze maken niet dekt. Het 20 USD per maand abonnement doet dat ook niet. Nu is Altman wel heel erg belust op het toeeigenen van zoveel mogelijk investeringsgeld voor zichzelf. Maar ik geloof hem wel als hij zegt dat het huidige nivo de kosten niet dekt en het dus bestaat op de goodwil/naiviteit van investeerders.

Dat zal voor andere AI bedrijven net zo goed gelden, niet dat ik puur en alleen op OpenAI zit af te geven.

Zelf zie ik dus veel meer in lokale AI en kleinere modellen (30B/70B), welke voor heel veel generieke zaken al voldoende is voor de meeste personen. Die kunnen je huis veel slimmer maken, (zelfs met 14B modellen), maar ook je vraag zodanig kunnen structureren, voordat deze naar een gespecialiseerde AI gestuurd wordt. De specialistische AI kan dan in de cloud worden gedraaid tegen veel lagere kosten.

Want deze 'alles-in-een'-modellen waar we nu mee zitten opgescheept, die zijn simpelweg te duur.
Omdat je maar eenmalig het hele Internet erdoor kan draaien om een LLM te maken.

Voor verdere verbetering zou je veelvouden van het Internet erdoor moeten draaien. Zoveel Internets bestaat niet.

Bovendien is het Internet al vervuild door AI slop en er bestaat geen zuivere input meer voor het trainen van een LLM. Naarmate het percentage garbage aan de input stijgt, gaat meer garbage uit de output komen.

Als AI generated content overal op het Internet duidelijk gemarkeerd moet worden, dan is het niet alleen om de mensen te helpen. Maar ook om de garbage van de input van het trainen van LLM's weg te houden.
Een LLM/gAI zou natuurlijk feiten en fictie op een bepaald moment beter van elkaar kunnen scheiden daarvoor hoef je niet 3 keer het internet hoeven te afstruinen. Als dan zo’n AI iets inleest (om het zo maar even te noemen) zou het al gelijk kunnen zeggen ‘ dit is onzin’.
Zalallemaal binnenkort wel komen…..
De vragen die voorheen raar werden beantwoord lijken inmiddels deels te zijn opgelost, maar het voelt alsof ze dit hebben geforceerd. Dus de rare antwoorden die het internet rond gaan hebben ze aangepakt.

Overigens hoorde ik laatst dat ChatGPT bij het "inmeten" van binnendeuren 5mm en 5cm door elkaar haalde. Iemand vroeg ChatGPT welke deurmaat hij nodig had voor de kozijnmaat die hij had gemeten. ChatGPT rekende 3 + 2mm voor de hang- en sluitnaad en trok vervolgens 5cm van de deurbreedte af. Oeps.
Daarom nooit vanuit gaan dat het klopt. Ik heb stumpers op werk gezien die copilot hadden gevraagd om iets financieels uit te rekenen. Klopte ook niet.
Het is net als zoeken op een zoekmachine. Zelf nadenken of het resultaat wel klopt. Blind het eerste resultaat voor waar aannemen is vrij naïef.

Maar zelf nadenken wordt natuurlijk wel ontmoedigd als ze je een "AI" aanbieden. Het probleem is dat als je het een ver ontwikkelde tekstvoorspeller noemt, de investeerders minder enthousiast zijn.
ChatGPT gebruiken als rekenmachine is dan ook ongeveer net zo handig als een schroevendraaier gebruiken om een spijker in te hameren. Het zegt wel iets over gebruikers dat ze niet eens nadenken over het gereedschap wat ze gebruiken.
Klopt, maar door hoe de bedrijven hun product aanprijzen (AI) lijkt voor veel leken alsof het zelf nadenkt. Helemaal nu je het kan laten "redeneren".

Het is uiteindelijk een tekstvoorspeller. Heel knap dat technici zoiets kunnen maken, maar het is verre van wat veel mensen denken dat het is.
“OpenAI's latest AI model, o3, has achieved an IQ score of 136 on the Mensa Norway test, placing it in the top 1% of the human population. This score surpasses other AI models such as Gemini 2.5 Pro, which scored 128. The o3 model demonstrates an IQ of 136 on questions included in its training data and 116 on questions outside its training data, indicating strong reasoning capabilities even when reasoning from scratch. The average human IQ benchmarked at 100”
Veritasium heeft een heel interessant filmpje over IQ en de bijhorende testen. Heel tof dat ze hoog scoren op een test, maar tegelijkertijd zichzelf continu tegenspreken en het vertikken om te zeggen "sorry dat antwoord weet ik niet". Dat doet een mens met een IQ van 100 wel.
Toch market letterlijk elke AI-boer hun product als het manusje van alles dat alles kan. Dus natuurlijk gaan de mensen het zo gebruiken. Zou hetzelfde zijn als Makita, Bosch en Metabo hun schroevendraaiers in de markt zouden zetten als alles-kunners.

"Het is een domme tekstvoorspeller" verkoopt niet zo goed natuurlijk.
Dus heel je bericht slaat nergens op want je bent tot de conclusie gekomen dat het dus wel nauwkeuriger wordt?
Dat weet ik niet of hij ongelujk heeft/had.
Als ik afgelopen week 6 keer de zelfde vraag stel, in verschillende chat/accounts sessies of zelfs in dezelfde chat maar 1 keer (bijna) het juiste antwoord krijg is dat het zelfde als een stilstaande klok die twee keer per dag gelijk heeft. Ook met het draaien van een eigen data set. Daarnaast denk ik dan, “wat moet een regering organisatie die zich hierop richt met hún beslissingen”? Het verzameld woordjes zoek deze op en maakt er een zin van, de trefwoorden zijn juist de rest niet.
En toen je het 6 maanden geleden vroeg? En toen je het vroeg nadat je het model zelf getraind had op de relevante materie? En toen je andere vragen stelde?

Veel te makkelijk om het weg te zetten als een klok die 2x per dag correct is.

Ja sommige dingen gaan na een jaar nog altijd volledig fout, anderen verbeteren aanzienlijk. Maar het gaat hier om custom implementaties die dus niet het hele internet hoeven te kennen dat scheelt enorm. Maar ook algemene modellen hebben echt enorme stappen gemaakt ook al kan ik ook wel zaken aanwijzen die pertinent fout gaan zoals:
Geef me een lijst met de top 30 elementen gesorteerd op dichtheid. Je kan dan rustig uren sjaak proberen uit te leggen dat hij steeds weer een fout maakt maar goed komt het momenteel nog niet. Een specifieker getraind model doet het gewoon goed.

[Reactie gewijzigd door TWeaKLeGeND op 20 april 2025 17:49]

Dat verbeteren weet je alleen als het gecontroleerd wordt en dat kost uiteindelijk meer tijd.

Het ging er bij om dat je in verschillen begin punten op de zelfde vraag ooit wel eens een juist antwoord krijg, dus op een halve dag allemaal verschillende antwoorden? Lijkt me dat je er dan voorlopig niet op kan vertrouwen bij <16% kans op een juist antwoord.
Het gaat elk jaar nog met grote sprongen vooruit. Volgens mij is nu niet te voorspellen waar het stopt.
Vraag chatgpt eens welk getal groter is; 1,9 of 1,11, kan je lachen ;)
Welk getal is groter: 1,9 of 1,11?

Chatgpt: "Het getal 1,9 is groter dan 1,11.

Hoewel 1,11 er op het eerste gezicht groter uitziet vanwege de extra cijfers, betekent het eigenlijk 1,11 = 1 + 0,11, terwijl 1,9 = 1 + 0,9. En 0,9 > 0,11, dus:

1,9 > 1,11."
Vraag chatgpt eens welk getal groter is; 1,9 of 1,11, kan je lachen ;)
Goede vraag! Hoewel het op het eerste gezicht lijkt alsof 1,11 groter is dan 1,9, is dat niet zo.

1,9 is groter dan 1,11.
Want:

1,9 = 1,90
1,11 blijft 1,11
En 1,90 > 1,11.

Dus: 1,9 is het grotere getal.
Ja, en wat valt hieraan te lachen dan? Het ding geeft toch het juiste antwoord? :?
In het Nederlands gebruiken we een komma als decimaalteken, dus:

1,9 betekent één komma negen (oftewel 1 + 0,9)

1,11 betekent één komma elf (oftewel 1 + 0,11)

Dus:
1,9 is groter dan 1,11, want 0,9 is groter dan 0,11.
Omdat je dan kan lachen.
Jup ChatGPT 4o:

what is bigger, 1,11 or 1,9?


ChatGPT zei:
In locales using a comma as the decimal separator, 1,11 is greater than 1,9.
Ik vroeg precies hetzelfde:

If you're using a comma as a decimal separator (common in many European countries), then:

1,11 means one and eleven hundredths (1.11)

1,9 means one and nine tenths (1.9)

In this case, 1,9 (or 1.9) is greater than 1,11 (or 1.11).

Let me know if you meant something else by the numbers!
Dat ging fout, tot de modellen er op werden gecorrigeerd.
Emmers water vullen is ook een leuke. Een vraag als deze:
I have a bucket of 5 lityers and a bucket of 3 liters. There is a tap continuously running with water. How can I measure exactly 3 liters of water?

De eerdere modellen gingen goochelen met de emmers, verkeerde stappen nemen (7 liter in een emmer gooien) terwijl het antwoord voor de hand ligt.
Deepseek maakt er ook een potje van. Het begint goed:
At first glance, it might seem straightforward since we already have a 3-liter bucket, but the tap is continuously running, which adds a bit of complexity. Here's how I think we can approach it:

Dan komt een heel lang verhaal, waar ie gaat proberen. En met de oplossing komt: gebruik emmer B.

Dan maakt ie zich nog zorgen over waterverspilling, en door eerst emmer A te vullen, en dan 3 liter in B te gooien, en dan hebben we 2 + 3 liter, en "geen verspilling".

De conclusie is wel dat we gewoon de emmer van 3 liter moeten vullen, maar de manier waarop is tamelijk ondoorzichtig.
1,11 bestaat eigenlijk ook niet.
Wat levert 10÷9 dan op bij jou?
Hmm 1,11 inderdaad :)
Was ook nooit de beste in wiskunde.
En je was net zo goed bezig om llm te verhagelen door misinformatie.

@Tjark
2,1 natuurlijk!

[Reactie gewijzigd door BlaDeKke op 20 april 2025 12:03]

Zo zie je maar weer: ook mensen kunnen hallucineren.

1,11 bestaat niet 😂😂😂
Ah ja, en π = 3,14 = 4,4.
Wat wordt er bedoeld met "hallucineren"?
Dat de AI met onjuiste antwoorden komt, antwoorden bedenkt.
Antwoorden met gegenereerde data die niet uit de dataset komt én niet klopt.

Als zo een antwoord wél klopt dan noemen de marketeers het "creatief".
Ik lees hier een hoop uiteenlopende ervaringen met de kwaliteit van antwoorden uit verschillende LLMs.

Ik zie voorbeelden van antwoorden in het Nederlands.

Ja, je kan Nederlands praten met LLMs, en best goed ook nog. Maar onthoud dat 95% van de trainingsdata Engels is. Als je in de “moedertaal” praat met LLMs krijg je gi-gan-tisch veel betere antwoorden. Onthoud dit en probeer rare antwoorden eens nog een keer te krijgen, maar dan in het Engels.
In mijn persoonlijke use-case is Nederlands cruciaal. Ik gebruik het als ondersteuning bij het maken van lesmateriaal voor cursussen. Ik herken dus wat je zegt, heb inmiddels veel ervaring van verschillende llm's in het Nederlands, en ervaring met het compenseren van dit probleem.

In mijn vakgebied (brandveiligheid) is de manier hoe er in verschillende talen over gesproken wordt zo verschillend, dat naar het Nederlands vertaalde Engelse kennis gewoon volledig nutteloos is. Ik heb dus geleerd dat als het om brandveiligheid gaat, dat ik altijd zelf kennis aanreik voor elke vraag. Het voordeel is dat ik ontzettend veel documentatie heb, en dan gebruik ik het llm, om op basis van de documentatie iets in een nieuwe vorm op te stellen. Dat werkt best goed.

Bij de opensource LLM's merk je dit verschil zelfs veel extremer. Bij die opensource LLM's ben ik ze zelfs gaan benchmarken om te bepalen welke wel en niet bruikbaar zijn. Zo is Deepseek bijvoorbeeld legendarisch slecht in het Nederlands. Daar tegenover doen Gemma en en grotere (>70B) versies van Qwen het best goed. (uiteraard doet Geitje het fantastisch relatief tot zijn formaat)
Ik heb de beste ervaringen met Gemma, maar ook die kan echt qua reasoning niet echt chocola maken van een origineel probleem. Uiteindelijk blijven het slechts taalmodellen die tokens correleren en dan de meest logische volgende tokens voorspellen, dus het gebruiken voor - zogenaamd - "redeneren" is gewoon oneigenlijk gebruik.
Misschien is hallucineren juist datgene wat AI nodig heeft om AGI te bereiken? Your Brain Hallucinates Your Conscious Reality | Anil Seth | TED
Klopt, maar niet hallucineren in die mate...

Daarstraks toonde ik heb een screenshot van twee wasmachines van Samsung, en hij beweerde dat het routers van Orbi waren. De vorige gpt kon het zover probleem lezen.
Wellicht een echte 'AI noob' vraag, maar indien muzikanten zelf 'AI Muziek' kunnen vernaggelen middels 'AI Muziek malware' (YouTube link), zouden schrijvers, wiens werken evengoed kosteloos gebruikt<->straffeloos gestolen zijn, wellicht ook taalmodellen kunnen vernaggelen?
Als je maar genoeg onzin voert aan een taalmodel vast wel, maar er is een behoorlijk verschil in datadichtheid tussen tekst en muziek. Het is makkelijker 'malware' in grote hoeveelheden tekst te detecteren dan rare bits in muziek.
ik vind dat de modellen op 6 maanden tijd flink verbeterd zijn.
Mijn use-case 1) : een plugin programmeren voor shopware (symfony + vue). De boilerplate wordt veelal correct geschreven. Dit spaart veel tijd. Soms wordt creatief een oplossing gegeven. Maar uiteraard is de oplossing niet altijd correct. Als ik dan naar de bronnen kijk welke openai aangeeft dan zie ik soms een groot bureau uit India. Ik heb eens source gezien van die mannen. Amaai! Bepaalde beginselen van symfony kennen ze blijkbaar niet (bv. extensions). En dan zie je dat "garbage in, garbage out" 100% klopt.
use-case 2) python program : wanneer het probleem moeilijk wordt dan loopt het mis. Ook als je aangeeft dat de oplossing niet klopt dan wordt er een stuk extra code gespuuwd en wordt het totaal om te janken.
Maar dit is zoals in de praktijk: velen programmeren maar enkelingen zorgen voor werkende oplossingen. Dit is ook zo bij de AI antwoorden.
Ik denk (=VREES) dat AI bijna op een niveau zit dat het de "simpelste kenniswerkers" kan vervangen. Dit is de GROOTSTE uitdaging die eraan zit te komen. Veel groter dan tarieven, een verafgelegen oorlog of zelfs het klimaat. Want de opschuiving van tewerkstelling naar steeds een hogere sector is voorbij: want wat komt er na de tertiaire sector? werkloosheid?
Tja, boilerplate die goed wordt geschreven, dat is haast copy/paste werk voor de AI toch?
Ben het verder grotendeels met je eens, maar ik zie AI nog niets eens de simpelste kenniswerkers overnemen eigenlijk. Naja, wellicht ligt het eraan wat je daar onder verstaat. Ik werk als ontwerper en doe hier en daar wat programmeren W
at ik merk is dat ik met AI heel snel een nieuwe programmeertaal of SDK in gebruik kan nemen. Maar ik zie ook telkens weer dat de AI ergens op vastloopt, en daar dan allerlei idiote "oplossingen" voor gaat bedenken die het eigenlijk alleen maar ingewikkelder maken.

Mijn conclusie is dat het een soort programmeur is die op alles Ja zegt, zonder enige vorm van zelfreflectie of idee van menselijke aspecten.
Als ‘1’ de maximale score is ben ik vooral onder de indruk van de lage nauwkeurigheid van de modellen.
Dat sluit overigens wel aardig aan bij mijn gevoel in gebruik; ik maak dankbaar gebruik van de suggesties die gedaan worden door de door mij gebruikte modellen, maar iets zomaar overnemen en in één keer kunnen toepassen is zelden het geval.
@JayStout

De getoonde waarden in de tabel worden informatiever als je de range erbij vermeld.

(Als je koorts hebt, en je kunt wel je temparatuur meten maar je weet niets van de schaal dan kun je WEL iets zeggen over OF je koorts hebt (want temperatuurgrens overschreden of niet), maar NIETS over hoever je van dat omslagpunt verwijderd bent.)

Op dit item kan niet meer gereageerd worden.