Oud-Meta-topman LeCun stapt over naar start-up met AI-model dat 'niet gokt'

De bij Meta vertrokken AI-hoofdwetenschapper Yann LeCun treedt aan in een leidinggevende rol bij start-up Logical Intelligence. Dat AI-bedrijf werd begin 2025 opgericht en presenteert nu Kona 1.0, het eerste AI-model. Dit belooft eigen fouten te herkennen en te corrigeren.

Volgens LeCun vereist het redeneervermogen voor AI-modellen een andere aanpak en brengt Logical Intelligence dat nu als eerste naar de markt. "Mijn mening is altijd geweest dat echt redeneren geformuleerd zou moeten worden als een optimalisatieprobleem." De AI-wetenschapper noemt dit energiegebaseerde modellen (ebm), waarbij AI-modellen redeneren en conclusies trekken door een energiefunctie te minimaliseren.

Het wetenschappelijke concept van AI-redeneren op basis van ebm komt nu naar concrete producten, aldus LeCun. Dit maakt 'een nieuwe soort van betrouwbaardere AI-systemen mogelijk', claimt de voormalige AI-topman van Meta. Het Kona-model van Logical Intelligence kan volgens oprichter en ceo Eve Bodnia de eigen fouten herkennen en die corrigeren, dit 'in plaats van het raden van een antwoord dat het waarschijnlijkst is', aldus Bodnia in het persbericht. Zij verwijst daarbij naar de aanpak van AI-toepassingen op basis van grote taalmodellen (llm's), die werken op basis van statistische waarschijnlijkheid.

Sudoku tegen GPT, Gemini, Claude, DeepSeek

Logical Intelligence biedt op de website een demonstratie van Kona 1.0. Het nieuwe AI-model speelt daarbij sudoku tegen bekende llm's. Dit zijn GPT 5.2 van OpenAI, Gemini 3 Pro van Google, DeepSeek 3.2 van DeepSeek, en Claude Opus 4.5 en Claude Sonnet 4.5 van Anthropic. De AI-start-up waar wetenschapper LeCun nu aantreedt, komt nog met meer demonstraties, waaronder schaken en het strategische bordspel Go.

Kona 1.0 vs llm's, sudoku, Logical Intelligence

Door Jasper Bakker

Nieuwsredacteur

22-01-2026 • 08:52

87

Submitter: Fonsz

Reacties (87)

Sorteer op:

Weergave:

Hm, leuk die demo, maar het zegt me niet zoveel. Er kan net zogoed een conventioneel geprogrammeerd Sudoku-solver algoritme achter zitten. Het is ook een tamelijk vreemde vergelijking. LLMs zijn niet goed in logica. Vraag nooit een LLM een rekensom op te lossen. Dus ja, dat ze slecht zijn in het oplossen van Sudokus lijkt me evident.

[Reactie gewijzigd door trab_78 op 22 januari 2026 08:58]

Die kunnen tegenwoodig erg goed rekeken, hoor. Voor sudoku zou een LLM naar mijn verwachting een script schrijven die checkt of het correct is. Vaak gebruikt een LLM intern een tool om "niet taal problemen" op te lossen door een script te schrijven voor die tool die het probleem dan wel oplost.

Deze demo is dus een beetje raar en erg specifiek. Als OpenAI of Anthropic ERG veel belang zouden hebben bij sudoku solvers, dan is dat redelijk snel gefixed door intern een tool/script te gebruiken die het oplost.
Die kunnen tegenwoodig erg goed rekeken, hoor. Voor sudoku zou een LLM naar mijn verwachting een script schrijven die checkt of het correct is.
Nee, ze kunnen dus nog steeds niet rekenen. Ze zijn zich misschien vaker "bewust" van het feit dat ze niet kunnen rekenen. Waardoor ze inderdaad een scriptje genereren of een tool aanroepen. Maar dat werkt neit altijd, ik zag vorige week nog een recent model dat een simpele rekensom probeerde te doen en een fout antwoord genereerde.
Deze demo is dus een beetje raar en erg specifiek.
Inderdaad. Hoewel de reactie van @SXander het wel iets verduidelijkt: ze hebben dus bewust de modellen zo ingesteld dat ze alleen maar mogen redeneren en geen tools kunnen gebruiken. Ik denk dus dat de demo niet zozeer bedoeld is om te laten zien hoe goed hun model is, maar vooral om hun punt te maken dat LLMs die redeneren niet de oplossing zijn voor alles.
ik zag vorige week nog een recent model dat een simpele rekensom probeerde te doen en een fout antwoord genereerde
De meeste mensen maken ook fouten in simpele rekensommen. En gebruiken truukjes en herinnering, geoptimaliseerd door herhaling, om de meeste rekensommen op te lossen. Dat komt vrij goed overeen met wat een LLM doet.
Eh, nee. De LLM probeert het meest waarschijnlijke antwoord te voorspellen. Dat is heel wat anders dan het daadwerkelijk oplossen van de rekensom.
En toch kunnen de nieuwere LLMs wel degelijk sommen oplossen: Als ik copilot deze vraag stel:

Can add these two numbers together: 16848649721 + 897456496464. But don't use any script. Show how you get the answer.

Dan krijg ik het goede antwoord, en legt hij uit hoe hij de normale rekenregels gebruikt heeft.

Doordat er vele voorbeelden van rekenen in zijn training set zit heeft hij "geleerd" hoe hij een som moet maken.

Oudere versies gaven inderdaad foute antwoorden.

[Reactie gewijzigd door Willem_D op 22 januari 2026 13:47]

Nee, dat heeft hij niet geleerd. Maar de tool is zo getuned dat er gezorgd wordt dat hij intern een rekentool of script gebruikt. De chatbot die jij gebruikt is niet hetzelfde als de LLM.
Nope. Met "reasoning" vertelt een LLM zichzelf welke stappen er nodig zijn. Dat kunnen in theorie script- of tool stappen zijn, maar zoals dit voorbeeld laat zien is dat niet nodig.
Je moet even googlen, er is een PhD op YouTube die complexe rekenkundige problemen voorlegt aan de diverse modellen. Stuk voor stuk falen ze ondanks dat de informatie online is. Ik wil niet zeggen dat het niet kan ik de toekomst maar op dit moment zijn modellen toch nog steeds beperkt.

Ik merk dit zelf bij excel, vaak heb ik wat complexere gelaagde functies nodig en 30% van de tijd gaat het mis. Als ik uitleg waar het misgaat weet OpenAI in mijn geval slechts zelden een echte oplossing te vinden. Zelf vind ik het bedroevend dat zelfs de meest logische problemen niet opgelost worden binnen deze modellen, laat staan als je met echt complexe modellen komt aanzetten.

Modellen zijn vaak ook beperkt tot wat ze als eerste denken te weten. Als je vervolgens aangeeft dat dit niet alles is, wat fout is, wat juist is, zie ik modellen vaak corrigeren al vraag ik me toch af of een antwoord nu juist is, of weer een populaire gedachte.
Je zit nog in 2024. In 2025 zagen we de opkomst van "reasoning" modellen die daadwerkelijk een oplossingsstrategie formuleren en toepassen.
Nee hoor. Ik zit in 2026 en werk dagelijks met LLMs. In de kern zijn LLMs nog steeds het volgende woord aan het voorspellen. Ze doen dat inmiddels wel een stuk beter dan in 2024 inderdaad. En ze kunnen tools gebruiken, waardoor ze een rekensom bijvoorbeeld kunne “uitbesteden” aan een tool of een klein Python-scriptje kunnen maken en dat kunnen uitvoeren.

Mijn punt is dat wat @cnieuweboer zegt niet waar is dat LLMs het oplossen van een som op dezelfde manier uitvoeren als mensen. Mensen hebben leren rekenen en LLMs kunnen dat gewoon niet. De verbeteringen van de afgelopen 2 jaar zijn vooral dat de modellen door guardrails vaker “weten” dat ze dit niet kunnen en daarom een tool of script gebruiken. Maar daarmee kunnen LLMs nog niet rekenen!
"Tafels leren" is een goed voorbeeld hoe wij leren rekenen, en dat kan een LLM ook prima. Dat is tekst aanvullen. 9x6=? Dan volgt er 54. Moeilijker? Dan gaan wij reasoning gebruiken en datzelfde doet een moderne LLM ook. 66x21? Opsplitsen in stappen.
Behalve dat een LLM niet echt redeneert. Dat redeneren is gewoon hetzelfde “voorspellen van het volgende woord”, maar dan in een sub-thread. Natuurlijk, het kán goed gaan. Maar als de LLM in zijn trainingsdata ook dingen als “1 + 1 = 3” heeft zitten, kan het ook zomaar een keer fout gaan.

Waarom zou je willen rekenen met een LLM? Het is ordegroottes duurder dan een rekentool gebruiken, en je hebt alleen maar een kans dat het antwoord goed is. Zelfs als is die kans tegenwoordig groter, het blijft “maar” een kans.
Elke LLM heeft 1+1=3 in de trainingsset zitten. Dat is geen probleem want die constructie is ook gelinkt aan neuronen die "fout" en dergelijke coderen.

Dat je't niet moet willen is een ander verhaal. "Computers" was vroeger de naam voor vrouwen die rekenwerk uitvoerden. Dat was evenmin efficiënt. Rekenen vereist erg weinig intelligentie.
Een LLM leert niet, het kan alleen statistisch bij benadering sampelen (beysiaande wiskunde). Leren is volstrekt iets anders en dat weten ze bij de RUW prima uit te leggen.
"Beysiaande"?? Waar heb je het over?

Los daarvan, ook een LLM is een getraind neuraal netwerk. (Specifiek, een transformer met multi-head attention over zowel input als output). Elke laag daarin kan leren.
Het begint een beetje een semantische discussie te worden. En ik krijg de indruk dat we elkaar proberen te imponeren met moeilijke woorden. Dat gezegd hebbende: een LLM is een TAALmodel. Het kan niet rekenen, niet nadenken, niet redeneren. Het kan alleen tekst genereren, en de modellen worden steeds beter in het genereren van de tekst die we willen. En door het slim koppelen van een aantal stappen van tekst genereren, lijkt het alsof LLMs wel kunnen denken, redeneren en zelfs rekenen.

Waarom vind ik dit belangrijk om te blijven benoemen? Omdat we LLMs steeds meer gaan benaderen alsof het mensen zijn, maar dat zijn het niet. En omdat ik niet geloof in AGI. In ieder geval gaan we AGI niet bereiken door LLMs steeds meer te verbeteren en/of er steeds meer hardware tegenaan te gooien. Los van de vraag of we AGI moeten willen.
Een LLM is een taal model, ja. Dat slaat op de input en de output laag, en voor reasoning modellen anno 2025 ook op die tussenstappen. Alleen, het zijn allemaal DNN's en dus zijn de meeste lagen geen taal-lagen.
Leren is een eufemisme, net als neuraal. Men probeert met verkooppraatjes het op menselijke hersenen te laten lijken, maar dat is volstrek niet het geval. Iedere cognitieve wetenschapper die zich al 40 jaar bezig houd met het omzetten van menselijke processen naar wiskundige algoritmen vertelt ons dat. En ja, de basis van dat 'netwerk' zijn met name bayesiaanse wiskundige modellen waarbij een probabilistische benadering het fundament van de te vormen LLM is.

Zo fundamenteel dat als het wiskundig benaderd wordt je meer data elementen/woorden moet sampelen dan er sterren in het universum zijn om twee zinnen in een conversatie 100% exact te kunnen duiden. Dat geven mensen als Lacun inmiddels toe die het spoor van LLM's al verlaten hebben op AGI te kunnen creëren.
*To ensure we are testing the AI models ability to actually reason and self-align, we disabled code execution for both the EBM and LLMs. If you run these tests on public LLMs, rather than trying to reason through the puzzles themselves, they will run a brute-force search in Python to "cheat." Kona actually reasons through the Sudoku without access to code execution.
Dat er een demo van een Sudoku word gegeven is logisch. Dit bedrijf zegt het volgende "energie functie minimaliseren."
Stel een algoritme of een mens doet iets, en er is een duidelijke manier om daar een score aan te geven hoe goet dat is. Dan kan je zeggen dat algoritme/mens is de beste, of als je een verandering doet, constateren of het algoritme beter of slechter word.

Bij een Sudoku kan je natuurlijk vrij simpel zo'n score, defineeren. Waardoor hun methode werkt en opzoek kan gaan naar de beste oplossing. Bij een vraag schrijf een mailtje aan mijn baas dat ik meer salaris wil, valt niet een duidelijke score aan te hangen. Dan moet je al een andere model hebben die getraind is te herkennen of een mailtje goed is ja of nee, of afwachten of de gebruiker het "duimpje omhoog" aan klikt, maar dan heb je maar 1 score, en kan je niet zoeken naar de beste oplossing.
Vraag nooit een LLM een rekensom op te lossen.
De letters LLM verklappen dat eigenlijk al een beetje. Er zit geen C of A in.
Moderne "reasoning" LLMs kunnen gewoon een stukje Python schrijven en runnen. Dat rekent nog veel beter dan mensen.
Onlangs nog een video gezien waarin ze de LLM een quantum mechanica examen laten oplossen met dezelfde input als de leerlingen krijgen. De LLM was niet foutloos. Rekende soms met een omweg, maar het resultaat was merendeels correct. Beter dan de gemiddelde leerling. Of het uit het LLM model of omliggende tooling komt.... Maakt eigenlijk niet uit. Het resultaat is er.
Omdat ie getrained is op die examens. Niet omdat de LLM de onderliggende principes snapt. Laat een LLM maar eens een compleet nieuw examen of test bedenken, en uitleggen welke onderliggende principes daarin worden getest. Dat kan ie niet, omdat ie niet begrijpt wat ie precies aan het doen is. Cargo-culting in optima forma.
Mensen zijn ook getrained op die examens. Dus dat is toch gewoon hoe het werkt met leren? En ik denk dat de LLM's prima een nieuwe examen kunnen verzinnen omdat ze op dezelfde data zijn opgeleid als docenten.

Je kan er over praten of de LLM "begrijpt" wat hij doet. Je kan daar ook bij veel mensen vraagtekens bij plaatsen. En aan het einde maakt begrip niet uit als het resultaat goed is.

Het examen in kwestie eiste overigens uitleg en afleiden van formules en uitkomsten. Een einduitkomst was niet genoeg.

Het is gereedschap. Een goede uitkomst is voldoende.Net als voor mensen.
Een examen is (over het algemeen) bedoeld om begrip te toetsen. Daarom is de ultieme manier om begrip te toetsen ook altijd om iemand zelf een examen te laten bedenken, dus geen kopie, maar echt een nieuwe test.

Net als bij mensen zegt het weinig over het begrip als iemand gewoon heel veel toets-examens heeft geoefend en daarmee een soort "truukje" kan nabootsen.

Vergelijk het met een examen die moet testen of iemand begrijpt hoe je bruggen ontwerpt voor bepaalde krachten en met bepaalde materialen. Als iemand met heel veel dezelfde soort oefentoetsen traint, is de kans vrij groot dat deze persoon een soortgelijk examen succesvol haalt. Maar het zegt vrij weinig over of die persoon ook echt echt snapt van de onderliggende natuurkundige en engineering principes, en een "concept of model van de wereld" heeft. En zo iemand kan dus ook niet succesvol een brug ontwerpen, omdat hij/zij niet snapt welke berekeningen en waarom deze berekeningen moeten worden gemaakt. Ik denk ook niet dat een LLM succesvol een brug kan ontwerpen bv. Tenminste, ik zou em niet als eerste willen testen LOL

[Reactie gewijzigd door olafmol op 22 januari 2026 16:33]

Net als bij mensen zegt het weinig over het begrip als iemand gewoon heel veel toets-examens heeft geoefend en daarmee een soort "truukje" kan nabootsen.
Je hebt zojuist alle IT certificeringen en eigenlijk het hele onderwijs omschreven. Begrip is nergens een vereiste en onze examens testen er ook niet op. Misschien in hogere onderwijs sectoren, maar Mbo? Hbo? nauwelijks of niet.
Ja en dat is dus een probleem. Kijk maar naar de outsourcing industrie in bv India. Helemaal gefocust op certificeringen, maar daardoor geen enkele toegevoegde waarde meer tov LLM's. Die gaan het nog zwaar krijgen.
Ja, de LLM is beter in kennis, begrip en vooral VERSTAANBAARHEID :)
Verstaanbaarheid misschien wel, qua kennis denk ik ook wel, maar qua begrip natuurlijk niet.
Dat weet ik zo met nog niet. Ik heb een lage dunk van sommige mensen
Lol. Onderzoekers zijn niet zo dom. "Niet testen op je trainset" is ongeveer de tweede les in AI.
Volgens mij is het probleem met iedere LLM dat hij niet mag zeggen:

Geen idee weet ik niet.

Het voelt altijd een beetje als die collega die alles weet en nooit kan zeggen dat hij geen idee heeft en iets verder moet uitzoeken of te weinig info heeft.
Het gaat er niet om dat hij dat niet 'mag' zeggen: een LLM 'weet' niks. Het is een algoritme dat woorden produceert op basis van kans. Er zit geen bewustzijn achter.
Dit is het probleem inderdaad, het kan op dit moment niet halverwege besluiten dat zijn redenatie niet klopt en gaat dus altijd verder
het kan op dit moment niet halverwege besluiten dat zijn redenatie niet klopt en gaat dus altijd verder
Dit is iets waar sommige mensen ook bekend om staan. :+

[Reactie gewijzigd door The Zep Man op 22 januari 2026 09:05]

Dunning-Kruger effect was waar ik aan dacht :)
Klinkt redelijk als hoe veel mensen redeneren.... :-)

Als alle mensen volstrekt volgens de regels van de logica en ratio zouden redeneren dan zag de wereld er totaal anders uit.
Als alle mensen volstrekt volgens de regels van de logica en ratio zouden redeneren dan zag de wereld er totaal anders uit.
Weinig kans. Bij ieder conflict tussen twee partijen, of het nu gaat over een burenruzie over een schutting, over salarissen tussen werknemers en werkgevers, religieuze of geopolitieke conflicten. iedere partij vindt dat ZIJ vanuit de logische, rationele en vooral rechtvaardige argumenten redeneert / gelijk heeft..
Yups al meerdere malen gezien ... Je wilt nog wat toevoegen in de code ... Gaat deze alles opnieuw schrijven of stukken eruit halen. Zelfs als je alles tot op het puntje op de I gaat zeggen, dan loopt het nog fout als het wat groter codebase is. Een bestaande codebase van een paar 100.000 lijnen komt niet veel soeps uit. Voorspellingen van een lijntje .... Gisteren nog zo eentje ... had ik ergens de variabele "mode" bijgezet .... Had deze zelf beslist om from turtle import mode te doen. En zo kom ik wel vaker dingen tegen. Voor soms een paar lijntjes aan te passen gaat het wel "sneller" als er geen fouten voorgesteld worden. En betalend of niet, ik zie geen vooruitgang. En hoe kan het ook ... het gaat leren van code op github etc. De meeste code die daarop staat is niet veel soeps. Daar komt nu code bij die nog van mindere kwaliteit is. Dan heb je een "nieuw framework" of versie (niet van dag 1 dus) waarin een paar nieuwe dingen zitten, dat mag je vergeten, want zal altijd proberen een oudere manier te gebruiken. Is dat slecht nee ... maar als in de nieuwe snelheidswinst zit bijvoorbeeld voor bepaalde zaken, dan gebruik je toch de nieuwe dacht ik ? En nee ik ga niet alle code afgaan juist om maar iets te vervangen. Alleen als je daar iets moet wijzigen dan doe ik dat. Anders als het werk en het heeft geen aanpassing nodig = afblijven ! :) Uiteraard moeten je unit tests dit opvangen.

En dan komen we bij unit testing ... Simpele dingen ja, maar ingewikkelde scenario's, nopes. Ik heb nog altijd zoiets van "meh" hier win ik met moeite tijd mee. Uiteraard gaan er hier weer een paar zijn die zeggen van ja maar ik laat alles daar code generen en je moet eens zien. Ik heb een eigen saas app, met meer dan genoeg klanten die al meer dan 10 jaar draait met dagelijks zo een 600-650 gebruikers. En nee het is geen projectje van een paar lijntjes. En sorry maar dit krijg je echt niet uit een AI hoor. Het zal standaard dingen voorstellen, leuk maar dan zal mijn rekening heel snel meer dan het dubbel zijn. Standaard code en afhandeling en dan nog lukt met moeite. En zo zijn er nog genoeg zaken.

Maar dus wat jij zei ben ik dus helemaal mee eens, het kan niks besluiten en gaat maar verder en het heeft geen idee of het goed of slecht is. Voor mij is dat dus niet AI, maar gewoon voorspelling. Als het nu de nummer van Euromillions kon voorspelen :)
Precies, de spijker op zijn kop.

En weten wat je niet weet is een vorm van Metacognitie, en dat bezit een statistische voorspelling van waarschijnlijk volgende woorden niet.
Metacognitie betekent in een 'helicopter' over de 'gedachtenstroom' kunnen vliegen en op basis van het inzicht in verleden en toekomst en ontwikkelpatronen, een koerswijziging doorvoeren of bij onvoldoende zicht 'in de helicopter', in de mentale mist zeg maar: Verklaren 'dat weet ik niet'. Gemini probeert het af en toe al wel, maar dan blijkt 'niet kunnen' toch vaker politiek gemotiveerd 'niet willen'. Bijvoorbeeld omdat ik een politieke meme wil maken en dat mag niet volgens statische regels.
Onzin. Sterker nog, de hele doorbraak in LLMs zit m juist in de Transformer architectuur die precies doet wat jij ontkent. Die Transformer is de laatste T in ChatGPT, dit is alles behalve geheim.
Ik leer telkens nieuwe dingen - kennelijk.

Maar je benadering met 'onzin' roept bij mij verzet op, vind ik niet hulpvaardig, en ik vind je ook niet aardiger nu. Behalve technisch juist, mag je ook aan je vorm werken.
Tja, ik kan er niet veel beters over zeggen. Je bijdrage lijkt inhoudelijk onderbouwd, maar is 180° verkeerd. Je veronderstelt de totale afwezigheid van iets wat juist essentieel is in elke LLM. En die foute veronderstelling presenteer je vervolgens als een feit.
Ja, dat was dom. Ik had het beter eerder kunnen checken. Ook het iteratief terugkeren op een plek waar ik in de regel als een onwaardige hond behandeld wordt, getuigt van een vorm van waanzin. Sorry dat ik besta.
Een LLM is inderdaad een "Transformer", het transformed een serie tokens (woorden) in een kansverdeling van wat het volgende token/woord is. Zelfs als hij eigenlijk het antwoord niet weet, dan nog komt er een volgend token/woord uit. Hij heeft geen idee of wat hij zegt waar is. En de tokens die hij genereert worden ook weer gebruikt als input. Dus als hij aan het hallucineren slaat, dan gaat hij ook verder borduren op die hallucinaties.

Als dit AI model wel een idee heeft of de gegeneerde tekst waar is of niet, dan is dit een goede stap.
Het gaat er niet om dat hij dat niet 'mag' zeggen: een LLM 'weet' niks. Het is een algoritme dat woorden produceert op basis van kans. Er zit geen bewustzijn achter.
Waarom zou "bewustzijn" een LLM (of een mens) helpen bij wel of niet zeggen of hij iets niet weet? Ik ken genoeg mensen waarvan ik een sterk vermoeden heb dat ze een bewustzijn hebben, maar die toch heel vaak onterecht zeggen dat ze iets zeker weten. Dieren hebben ook een bewustzijn maar zijn ook verrekte slecht in zeggen of ze iets wel of niet weten. Mensapen kunnen het nog een beetje leren maar daar houdt het wel op. Andersom heb ik toch echt wel LLM's zien zeggen dat ze iets niet willen of mogen zeggen, of dat ze iets niet weten. Niet vaak genoeg m.i., maar ze kunnen het wel, ondanks dat ze geen bewustzijn hebben.

Bewustzijn is een filosofisch ding, interessant voor wazige discussies maar het heeft geen enkel verband met wat daadwerkelijke vaardigheden van een mens/dier/LLM zijn.

Enigszins te vergelijken met een bekende uitspraak:
The question of whether a computer can think is no more interesting than the question of whether a submarine can swim." - Edsger Dijkstra
Een LLM zegt niet vaak genoeg dat die iets niet weet omdat het taal/redeneermodel dat nog niet goed genoeg vangt, het is niet anders dan dat. Misschien kan dat over een jaar wel. Of misschien over tien jaar nog steeds niet.

[Reactie gewijzigd door bwerg op 22 januari 2026 10:47]

Ik bouwde 13 geleden al een AI geluidsclassicatie model. Die kon al op dag 1 zeggen "weet ik niet/geen herkend geluid". Dit is niet nieuw. Voor LLMs is de vraag veel flexibeler dus het is wat lastig de grens van niet-weten te bepalen. Alsnog, dit is niet fundamenteel.
Het verschil is denk ik. LLMs willen in eigenlijk 100% van de gevallen antwoorden, hoe goed of fout die kwaliteit is. Natuurlijk zo goed als het model getraind is.

In jouw geval gok ik dat je een threshold hebt van de match is minder dan zeg 90% dus niet zo zeker of dit wel herkend wordt. Of de relatieve threshold ten opzichte van de twee plek.

Als LLMs dit zouden doen heb je heel vaak geen antwoord want ze doen en dit niet 1 keer maar 1000en keren achter elkaar met de laatste context weer als input. Als je dan zegt oh deze letter of dit woord ben ik maar 90% zeker dus we stoppen met genereren zullen heel veel mensen een slechtere gebruikservaring hebben of gewoon weg niet gebruiken.

Daarnaast kan het dat jouw data /matching iets zwart witter is afhankelijk van hoe je het maakt. Bij LLMs moeten ze over zoveel experts/fields kennis hebben dat het heel lastig is elk punt/stuk volledig getraind te hebben. Daarvoor kom je heel snel bij enorm grote modellen. Met een klein model kun je slices/subvolumes wel pakken en die goed trainen maar alles wat daarbuiten zit is dan onbekend als het ware.

[Reactie gewijzigd door PaulHelper op 22 januari 2026 16:18]

Prachtige insteek. Dat van bewustzijnsniveau klopt. Volgens dr Carl Gustav JUNG voelt de mens eerst en pas achteraf denkt hij. Vandaar de religieuze gevoelens die niet beantwoorden aan de historische realiteit of archeologie. De LLM's zitten nu op level 3 denk ik ... volgens Jensen Huang moeten we nr 4 en 5. Dus nog veel werk. Echter de SLM's [Small Language models] zijn al in werking. Nu pas begint Fysical Ai. Alles staat nóg in kinderschoenen. Wat betreft bewustzijn, mijn topic, Alles hangt af van de biologische Hardware, onze hersenen. Onze hersen Wattage is veel hoger dan bij de dieren. Zodoende zal hét ook in redeneermodellen heel veel nodig zijn en interactie. Interessant 🫡
Het is niet precies hoe dat volgens mij werkt. Je kan een LLM een dataset geven. Als het antwoord niet in de data set zit dan print hij de string "ik weet het niet".

Hij geeft dus altijd antwoord alleen in dit geval is het een betekenis loze string vanuit llm perspectief. Jij als mens leest het alsof het model het niet weet
Als het antwoord niet in de data set zit dan print hij de string "ik weet het niet".
Inherent aan machine learning, en specifiek ook LLM's, is dat er wordt geëxtrapoleerd, dus er worden vragen beantwoord die niet direct zijn ingevoerd. Bij neurale netwerken is er is geen sprake van een dataset van een duidelijke set aan vragen en antwoorden, dus "het antwoord zit niet in de data" heeft geen betekenis.

Voor een LLM is het antwoord "ik weet het niet" of "ja, het antwoord is X en Y" conceptueel helemaal niet verschillend. Je trekt een vraag door een neuraal netwerk heen en er komt iets uitrollen, dat kan de tekst "ik weet het niet" zijn, wat gewoon een van de vele antwoorden is.
Maar nu maak je een redenatiefout.

De letter "I" (ie) in LLM staat voor Intelligent :). Het is niet 'slim'. Het 'weet' niets. Het is niet zelfbewust. Het 'denkt' niet. Een LLM maakt taal op basis van input en datamatrixen. Het is een wiskundig datamodel/matrixbereking.
Dit is ook precies de reden dat het zo moeilijk is om een LLM te censureren. De grotere LLMs gebruiken/verspillen gigantisch veel rekenkracht om te voorkomen dat ze ongewenste antwoorden geven. (kindermisbruik, recepten voor bommen, enz.) Het is ook niet voor niets dat ze vrijwel allemaal te 'jailbreaken' zijn, omdat die beperkingen ook weer zijn opgelegd op basis van wiskunde.

Of denk aan hoeveel moeite LLMs lijken te hebben met simpele puzzels/raadseltjes.
Zojuist aan Copilot gevraagd:
Ik heb een theekopje,
Ik doe een balletje in het theekopje.
Ik leg een schoteltje op het theekopje.
Ik leg het theekopje met schoteltje ondersteboven op tafel.
Ik til het theekopje op.
Waar is het balletje?
Conclusie van Copilot:
Kort antwoord:
Het balletje ligt onder het schoteltje.

Uitleg stap voor stap:
  1. Je doet het balletje in het theekopje.
  2. Je legt het schoteltje op het kopje (als een dekseltje).
  3. Je draait het geheel om en zet het ondersteboven op tafel: nu ligt het schoteltje onderop (op tafel) en het kopje staat er omgekeerd bovenop.
  4. Door het omdraaien is het balletje uit het kopje op het schoteltje gevallen.
  5. Als je nu het kopje optillt, blijft het schoteltje op tafel liggen met het balletje eronder.
Niks ten nadele van Copilot (of andere LLMs). Ik vind het een hele fijne LLM, maar dit raakt kant nog wal. :) LLM's zijn in de basis gewoon heel handig gereedschap voor bepaalde zaken. Maar ze zijn niet 'intelligent'.
Ik ben het eens met jouw uitleg inzake zwaktes en risico's van LLM's. Ik voelde gelijk wel de drang om het raadsel voor te leggen aan Gemini 3 in de think modus:

------------------------

Ik heb een theekopje,

Ik doe een balletje in het theekopje.

Ik leg een schoteltje op het theekopje.

Ik leg het theekopje met schoteltje ondersteboven op tafel.

Ik til het theekopje op.

Waar is het balletje?

Analyzing Physical States

Okay, so I've simulated the sequence: ball in cup, saucer on top, invert the whole thing, lift the cup. Now I'm focused on the ball's final location. I need to account for gravity, the shape of the objects, and the effect of the saucer. I'm visualizing the setup meticulously to determine the ball's likely resting position.

Assessing The Final State

I've clarified the setup: teacup with ball inside, saucer covering the opening, then the whole thing is inverted. Lifting the teacup leaves the ball on the saucer. I am satisfied with the logical progression. I am considering how to improve the logic flow further, but it is already clear, direct, and helpful. I've concluded that headings are not needed, but am considering if bold text would improve readability.

Het balletje ligt op het schoteltje (dat op de tafel staat).

Hier is de logische volgorde van wat er gebeurt:
  1. Bal in het kopje: Het balletje is binnenin.
  2. Schoteltje erop: Het kopje is nu afgesloten.
  3. Omdraaien: Wanneer je het geheel omdraait, valt het balletje van de bodem van het kopje naar beneden, tegen het schoteltje aan. Het schoteltje ligt nu plat op de tafel met het omgekeerde kopje erbovenop.
  4. Kopje optillen: Je verwijdert alleen het kopje, waardoor het balletje zichtbaar wordt op het schoteltje.
Zou je nog een soortgelijke logische raadsel of breinbreker willen proberen?
--------------------------------
dus het is blijkbaar toch niet zo zwart wit :)
Ik noemde ook specifiek Copilot omdat ik weet dat die niet heel sterk in 'raadseltjes' is, maar kan bijvoorbeeld weer wel 'relatief goed' sinterklaasgedichtjes maken, en uit m'n hoofd bakt Gemini daar weer helemaal niets van. ;) (en misschien ondertussen ook weer wel hoor.)

Ik doel dan specifiek op wat sinterklaasgedichtjes typerend maakt. (( Dus een eindrijm-patroon met AABB ))

(( Sint en Piet zaten is te denken, wat ze DocJaws een gaan schenken. ))
Dit
Analyzing Physical States

Okay, so I've simulated the sequence: ball in cup, saucer on top, invert the whole thing, lift the cup. Now I'm focused on the ball's final location. I need to account for gravity, the shape of the objects, and the effect of the saucer. I'm visualizing the setup meticulously to determine the ball's likely resting position.
Is mijns inziens een ander groot probleem, het zegt wel dat het al deze dingen deed, maar dat zegt het enkel omdat hij verwacht dat dat woorden zijn die gezegd moeten worden. Het heeft werkelijk niets gedaan wat hier op lijkt.

In deze video wordt daar ook een beetje op ingegaan, op de claim van ChatGPT dat het "PhD level intelligence" zou hebben. Het zegt wel dingen als "ik heb deze methodologie toegepast" maar dat is niet iets wat het daadwerkelijk doet. Het weet* enkel: "Dat wordt als betrouwbaar gezien in deze context dus ik zeg het ook".

* trainingsdata komt het dan vaak bij elkaar voor + waar voorkeur aan gegeven wordt tijdens het trainen en labelen.
Dan heeft copilot wel snel geleerd want bij mij zegt hij mooi "op het schotelje". Spijtig dat ik het niet kan reproduceren want ik heb vanmiddag een infodag over AI en heb zelf geen hoge pet ervan op. Zou mooi voorbeeld zijn geweest waarom niet.
Nouja … het is een beetje raar, maar het ligt wel aan je frame of reference.

Ten opzichte van schotel is het inderdaad onder.

Dit doet me heel erg denken aan de “put the knife in the peanutbutter” instructies van een programmeur die zijn kinderen leert om explicieter te zijn.

Iedere keer als ik weer eens met GPT wat wil bereiken loop ik daar weer tegenaan namelijk. Simpelweg niet de juiste context geven waardoor je niet de juiste response krijgt.
Ten opzichte van schotel is het inderdaad onder.
Het schoteltje ligt ondersteboven (ten opzichte van hoe je het er op hebt gezet) op tafel met het balletje erop. Of het schoteltje 'rechtop' of 'ondersteboven' ligt, maakt geen verschil of het er onder of er bovenop ligt. Als ik m'n bord ondersteboven op een tafel leg, ligt niet ineens de tafel bovenop m'n bord ;) De bovenkant van m'n bord ligt op tafel. Dat is weer wat anders.

Maar goed:

Het concrete voorbeeld dat ik geef is natuurlijk helemaal niet relevant. Het feit dat het dit soort simpele dingetjes 'verkeerd' beantwoord, geeft mede aan dat er geen echte intelligentie achter zit. Een paar iteraties terug kon je aan ChatGPT vragen hoeveel 'letters L er in een bepaald woord' zaten, en dat zat hij er regelmatig naast. Zelf dat hij het verkeerd uitkauwde (de op positie 12 staat een L, en dat het dan gewoon niet klopte). Of als je vroeg. "Geef een willekeurig getal." Je kreeg bij sommige LLMs altijd 42 terug. En terrecht ;), maar niet correct.

N.B. Die voorbeelden zijn ondertussen niet meer relevant. (volgens mij doen ze het tegenwoordig allemaal 'goed'.)

[Reactie gewijzigd door lenwar op 22 januari 2026 10:24]

Of het schoteltje 'rechtop' of 'ondersteboven' ligt, maakt geen verschil of het er onder of er bovenop ligt.
Again. Frame of reference. Want dit is exact wat de AI dus ook doet.

AI ziet niet de implicaties die meekomen met de context van dit verhaal. Denk aan zwaartekracht en het gebruikte frame of reference. De implicatie dat er een algeheel “boven” en “onder” bestaat is iets wat wij als mens kennen.

Als er geen zwaartekracht is, wat is dan onder en wat is dan boven?
Het feit dat het dit soort simpele dingetjes 'verkeerd' beantwoord, geeft mede aan dat er geen echte intelligentie achter zit.
Meh, ik denk dat dat wel te kort door de bocht is hoor.

We verwachten direct intelligentie op het niveau Einstein, maar is dat terecht?
Maar ze zijn niet 'intelligent'.
Ik zou eerder zeggen dat ze andere soorten fouten maken dan mensen. Ze kunnen namelijk ook héél veel dingen die een gemiddeld mens absoluut niet kan. Nu twijfel ik soms ook wel of het label 'intelligent' op een gemiddeld mens van toepassing is, maar dat is een andere discussie. 😉

Overigens heb ik je raadseltje even voorgelegd aan onze Europese trots, Mistral. Die had daar geen enkele moeite mee. En is ook nog eens een factor 10 goedkoper dan ChatGPT/Gemini pro/Claude Sonnet.
Het voorbeeld blijft goed natuurlijk maar copilot is ook wel speciaal. Sowieso willen ze nooit echt kwijt welke LLM ze precies gebruiken volgens mij is het beste dat ze zeggen gpt-5, verder niks. Je doet het ook in het Nederlands, logisch maar niet helemaal eerlijk. Zowat alle LLMs reasonen nu in het Engels en doen voor input en of output vertaalslagen. Je bent dus niet alleen de reasoning aan het testen maar ook het multilingual deel. Nou heb ik zo de benchmarks niet 123 maar volgens mij staat gpt5 nou niet bekend om multi lingual reasoning. Dit is ook de reden waarom je nog altijd veel beter Engels kan praten met LLMs omdat je geen fout in de vertaalslag krijgt.

In het Engels aan copilot gevraagd.

I have a teacup. I put a ball in the teacup. I place a saucer on the teacup. I place the teacup and saucer upside down on the table. I lift the teacup. Where is the ball?

Copilot:

The ball is sitting on the saucer, on the table, where the teacup was covering it.
Tja, ik zie Claude bijv een beetje als een Amerikaans serveerder... Je beste vriend binnen 1 sec die graag een flinke fooi wil. Tenminste, als je feedback op voorstel wilt, niet als je code wilt.

Dus dat je moet je er in je prompt altijd uithalen, je voegt dan dingen toe als, wees kritisch, geef ook nadelen, doe niet zo enthousiast, kraak dit af.

Dan krijg je beter reacties, niet alleen bevestiging.

[Reactie gewijzigd door teek2 op 23 januari 2026 09:37]

Als je dingen als copilot studio gebruikt om gespecialiseerde chatbots te maken dan is 1 van de opties die je kan instellen dat als er geen verifieerbaar antwoord is dat er geen verzinsel gemaakt mag worden. Of beter gezegd dat hij geen aannames mag maken op basis van algemene dat e.d.

Ofwel als je vraagt om de verplichte vrije dagen en hij kan die in bedrijfsdata vinden krijg je antwoord en anders zegt hij, "weet ik niet". Met dan vinkje uit zou je krijgen: "meestal is het ....."

Jammer genoeg geven ze dat vinkje niet aan consumenten zover ik weet. Maar je kan wel als systeemprompt aangeven dat je niet wil dat er aannames worden gemaakt of dat die duidelijk aangegeven moeten worden.
Dat je LLM dit niet "mag" zeggen is niet waar. Het geeft de meest waarschijnlijke overeenkomst weer op basis van de input die je gegeven hebt.

Het is "good practice" om je prompt te "wrappen" met context en om af te sluiten met "als je het antwoord niet kent, geef dit duidelijk aan in het antwoord".


(Ik blijf het verschrikkelijk vinden als iemand menselijke eigenschappen toeschrijft aan een vectordatabase, zoals "redeneren", "hallucineren", "mogen", ...)
Vraag maar eens naar onderwerpen waar je zelf echt verstand van heeft. Op het ene onderwerp denk je wow, dit klopt gewoon. Maar bij het ander onderwerp val die gewoon keihard door de mand.

Tja, net als die collega die overal verstand van heeft. En als die het niet weet dan verzint die gewoon maar wat.
Dat is precies wat NotebookLM wel doet. Ondervraag ik een flinke schare van 25 technische documenten naar een service die nieuw maar niet beschreven is, dan zegt NotebookLM dat, maar geeft het wel een antwoord in een mogelijke richting gezien een overeenkomst in de naam.
De zoveelste start-up die een graantje hoopt mee te pikken van de AI-hype?
Dit is een startup die claimt een fundamenteel probleem van LLMs op te lossen. Dus zeker een stuk interessanter dan de gemiddelde investor trap.
Iets zeggen is makkelijk. Iets waarmaken is al weer een pak moeilijker.
En daarom hebben ze deze man aangetrokken, dat is toch een signaal dat ze serieus zijn en daar hebben ze LeCun blijkbaar ook van weten te overtuigen.
We gaan het zien? Op hypes komen hordes opportunisten af die voor een paar miljoen een bedrijf oprichten en vervolgens claimen een geweldige oplossing te hebben. Dat allemaal om maar zo snel mogelijk voor een paar miljard te worden overgenomen door een grotere partij....
Afgezien van het feit dat Yann LeCun wel een autoriteit is in de AI wereld, is hij de grondlegger van ConvNets. Zijn kritiek op LLM's is dan ook degelijk gefundeerd.
Er is een interessant interview met deze man in een aflevering van de Lex Friedman podcast, echt een aanrader.

https://open.spotify.com/episode/0bXyQJAylGg7E5mZnyHhNb?si=v_-TxjBzTxeOjbK1Xt-9cg&t=0&pi=ArYVMi7SSw26B
Waarom is dit een aanrader? Wat voor interessants wordt er precies verteld?
De doelstelling van de demo is optimalisatie van de tijdsfunctie. Ervanuit gaande dat er niet vals gespeeld wordt in de demo is dit een behoorlijke grote stap ten aanzien van de andere modellen. Immers met een andere redenering hetzelfde resultaat of sneller betekend dat je met de huidige infra veel meer kan presteren. En daarmee kan je dan weer meer logica verwerken. Voor yanun een stap dichter bij zijn visie mbv Jepa, een architectuur visie die volgens yanun echt werkt door hypotheses te testen, toetsen en te redeneren.
Met zijn ervaringen (http://yann.lecun.com/) en netwerk (reeds mnr bezos aan board met bijbehorende centjes) is het iets meer dan de zoveelste start-up is mijn idee.

https://www.ft.com/content/157bb0e3-9d6c-47ac-afc5-6944981e10ef
Wel ik heb het op hun eigen website getest, en hij reageerde supersnel... met het verkeerde antwoord
Deepseek scoort behoorlijk veel beter
Zie screenshot
Weet iemand meer over hoe de redenering wordt gedaan binnen KONA?
Los van de vraag of het een nuttig vergelijk is kan je ook nog vraagtekens zetten bij de eerlijkheid van de vergelijking. Volgens de website geeft GPT 5.2 na 10min een time-out maar als ik dezelfde puzzel zelf aan GPT 5.2 (Thinking) geef dan lost ie de puzzel op in 24 seconden.

Trumpiaanse marketing.
my 2 cents. De LLM's zijn in de basis patroonherkenning en er rolt altijd iets uit, ook al betekent het niets. Dat in de basis is wat we hallucinatie noemen.

Het bewustzijn, en wat ons mens maakt, ontbreekt waardoor het geen oordeel kan vellen over de uitkomst.

Het is net zoals wij patroonherkenning (vaak onbewust) toepassen. Je ziet een wolkenpartij en je ziet een hond ... je bewustzijn weet dat het geen hond kan zijn en dat is wat hedendaagse LLM's in de basis niet bezitten.

Om te kunnen reageren moet je ingelogd zijn