Onderzoeker toont mini-AI-model dat meekan met tienduizend keer grotere modellen

Samsung-onderzoeker Alexia Jolicoeur-Martineau heeft een AI-model gepubliceerd dat een tienduizendste van de grootte is van gangbare AI-modellen en toch op specifieke taken even goed presteert. Dat lukt door telkens de eigen output na te kijken en te verbeteren.

Jolicoeur-Martinieau noemt dat 'recursive reasoning', waarbij het AI-model tot zestien keer de eigen output als input neemt om de antwoorden te verbeteren. Het model heeft zeven miljoen parameters. Zeer kleine AI-taalmodellen, zoals die op iPhones draait voor Apple Intelligence, hebben doorgaans rond twee tot drie miljard parameters, dus honderden keren zoveel. Reguliere kleine modellen voor gebruik op bijvoorbeeld thuiscomputers hebben rond zeven miljard parameters. Grote AI-modellen hebben al snel zeventig tot tweehonderd miljard parameters of meer.

Het model heeft wel een enorme beperking, want het kan alleen puzzels zoals sudoku's oplossen. Het is dus niet te gebruiken voor bijvoorbeeld het genereren van tekst of het fungeren als chatbot of schrijfassistent. De Samsung-onderzoeker denkt wel dat het recursief redeneren een sleutel kan zijn om met kleinere modellen meer te bereiken. In het oplossen van die puzzels kan het wel mee met modellen die tienduizend keer groter zijn, zoals Google Gemini 2.5 Pro en GPT o3-mini.

Hoewel kleinere modellen doorgaans sneller zijn, zal het recursief redeneren het antwoorden wel behoorlijk vertragen. Het kost wel veel minder rekenkracht en stroom, omdat AI-modellen doorgaans bij meer parameters veel meer vragen van hardware.

IT-banen

Reacties (28)

svenk91 9 oktober 2025 21:46

Het model van 7 miljoen parameters wordt in de originele paper vergeleken met een ‘Hierarchical Reasoning model’ van 27 miljoen parameters voor zaken als sudoku’s, niet met de grote LLM’s.

De vergelijking met grote LLM’s gaat over de ARC-AGI-2 test die specifiek zo is ontworpen dat een pure LLM daar 0% scoort en alleen redeneer modellen oplossingen vinden (dit model scoort daar 7,8%, Bespoke Grok 4 29,4%, hoger is beter). Nog best een knappe prestatie, maar het artikel lijkt ook wel een beetje vis te beoordelen op hoe goed er in een boom geklommen kan worden. Mensen zouden de puzzels uit deze benchmark trouwens makkelijk moeten kunnen oplossen (zelf niet geprobeerd nog, straks blijk ik zelf AI te zijn

)

Edit, bron: https://arxiv.org/pdf/2510.04871

[Reactie gewijzigd door svenk91 op 9 oktober 2025 21:47]

Halfscherp @svenk91 • 9 oktober 2025 22:36

Dat vaker over de input heengaan positieve resultaten heeft is ook al vrij lang bekend. Microsoft had daar ook iets over gepubliceerd, dat als je een model vraagt om te iteraten, je daadwerkelijk betere resultaten krijgt. Bij hun onderzoek had tot 4x toe iteraten de beste performance-per-dollar.

Barsonax 9 oktober 2025 21:19

Qua snelheid is dit dan equivalent aan een model met 16x7=119 miljoen parameters of schaalt dat niet zo?

[Reactie gewijzigd door Barsonax op 9 oktober 2025 21:20]

Jehare @Barsonax • 10 oktober 2025 01:07

Hangt erg van je setup af. Er wordt tegenwoordig vaak met 4 bits per parameter (google: quantization) gewerkt, dus 2 parameters in 1 byte.
Bij middel en grote modellen is dit vaak een beperkende factor, zeker op gebruikershardware, 64 miljard parameters is reeds 32 GB ram, terwijl GPT-4 eerder richting de 1600 miljard parameters word geschat.

Bij echt micro modellen zoals zo'n puzzelmodel met 7 miljoen parameters is dit absoluut geen probleem meer, dan word het model juist te klein om een GPU volledig te kunnen gebruiken.
GPU's zijn geoptimaliseerd voor zeer grote matrices en zeer grote datastromen, gebruik van een kleinere matrix en een kleine hoeveelheid data betekent niet perse dat er nu plotseling 16x sneller kan worden gerekend.
Het schaalt dus over het algemeen niet lineair, zeker niet in dergelijke extreme situaties, en dit is erg afhankelijk van niet alleen de grootte van het model maar ook de hardware (type core, hoeveelheid cores, hoeveelheid VRAM/unified memory).

Mavamaarten 9 oktober 2025 21:26

Is de output consistent beter? Of vergroot je er ook de mogelijke fouten mee?

lenwar

Wetenschap

@Mavamaarten • 10 oktober 2025 02:58

Het artikel benoemd het impliciet beter. Deze SLM benaderd het op een specifieke manier. Het is prima mogelijk dat iedere iteratie weliswaar door dezelfde dataset gehaald wordt maar dat de wegingen bij iedere iteratie anders zijn. (Dus dat de configuratie van iedere repetitie door de dataset anders is)

Boxman 9 oktober 2025 21:19

Ja, zo ken ik er wel meer. "Deze rekenmachine is 1000x kleiner dan jouwe, hij kan wel alleen optellen en aftrekken, maar in die taak kan hij zich meten met de uitgebreide grafische rekenmachine!"

[Reactie gewijzigd door Boxman op 9 oktober 2025 21:19]

pete4live @Boxman • 9 oktober 2025 21:26

En toch is er voor die kleine rekenmachine die minder kan een hele grote markt. Niet iedereen heeft op ieder moment voor elke taak behoefte aan een grafische rekenmachine. Als de simpele rekenmachine €5,- kost en de grafische €200,- dan wordt de kleine rekenmachine al helemaal interessant.

tw_gotcha

@pete4live • 9 oktober 2025 22:05

het zou ook gigantisch aan energie verbrruik schelen als dit verder ontwikkeld wordt. Specifieke modellen voor specifieke taken

oef! @Boxman • 9 oktober 2025 21:50

AI hoeft niet per se een LLM te zijn

curkey @Boxman • 9 oktober 2025 21:52

Je koopt ook geen zitmaaier als je 3 m2 gras in je tuin hebt

roffeltjes @Boxman • 9 oktober 2025 22:06

Niet alle AI modellen hoeven generieke te zijn. Specialistische modellen hebben ook enorme waarde.

Mellow Jack @CopyCatz • 9 oktober 2025 22:10

Totdat je beseft dat het hele recursieve idee de meest realistische route is voor betere LLM modellen. Wat ze nu doen is een AI een woordenboek geven, als ze slimmer moeten worden gooien ze er nog een woordenboek is. Nu al die boeken op zijn is iemand op het idee gekomen om er een woordenboek in te stoppen en het model te vragen om de shit die eruit komt gewoon nog eens te toetsen

vickypollard 9 oktober 2025 21:31

Oké, het is dus gewoon een model getraind op een heel specifiek iets... geen wonder dat het kleiner is..??

TimTurbo2 9 oktober 2025 22:17

Is dit dan vergelijkbaar met de large language diffusion models die in parallel een groote lap text genereren en daar dan op door itereren tot het model het de beste text vind voor een input?

Winduss 9 oktober 2025 22:17

Dit is wel mooi. Van die kleine modellen draaien al soepel op 10+ jaar oude midrange laptops. Heb 1.5b Deepseek al eens geprobeerd op een Macbook Pro uit 2013 en de antwoorden gooit ie er razendsnel uit. Ondankt dat recursive reasoning zal deze nieuwe nogsteeds echt snel zijn op simpele hardware gok ik dan

supersnathan94

9 oktober 2025 22:30

Onderzoeker toont mini-AI-model dat meekan met tienduizend keer grotere modellen

Samsung laat hier iets zien dat op papier indrukwekkend klinkt (een AI’tje met zeven miljoen parameters dat meekan met modellen die tienduizend keer groter zijn)

Het model heeft wel een enorme beperking, want het kan alleen puzzels zoals sudoku's oplossen

maar de context maakt het meteen minder spectaculair.

Het ding kan namelijk maar één trucje: logische puzzels oplossen (denk sudoku’s). Geen taal, geen redenering, geen echte wereldkennis. Dat is alsof je een rekenmachine prijst omdat ’ie sneller kan optellen dan een mens, technisch waar, maar beperkt relevant.

Toch is het idee erachter wél interessant. Ze gebruiken recursive reasoning: het model kijkt meerdere keren naar zijn eigen output, beoordeelt dat, en verbetert zichzelf stap voor stap. Dat lijkt een beetje op hoe grote modellen “chain-of-thought” doen, maar dan expliciet herhaald in plaats van impliciet in de netwerken.

Waarom dat boeiend is? Omdat het aantoont dat slim gedrag niet per se uit brute kracht hoeft te komen. Met goede strategie kun je kleine modellen een stuk “intelligenter” laten lijken dan ze qua omvang zijn. Dat is relevant voor on-device AI. denk aan wat Apple probeert met Apple Intelligence of wat je op een edge-device wil draaien zonder GPU-boerderij.

Kortom: het is geen doorbraak, maar wel een signaal. De rek zit niet alleen in meer parameters, maar ook in hoe je die inzet. Vandaag nog een puzzeltruc, morgen misschien een efficiëntere manier van denken. Dit is een soortgelijke doorbraak als wat DeepMind toen had door kleinere modellen naast elkaar te gebruiken op een per token basis (mixture-of-experts-architectuur (MoE)).

Ik zie zelf dat het wel loont om meerdere kleine modellen achter elkaar te plaatsen die dan op de output van de vorige verder gaan en zodoende niet een steeds grotere prompt moet gaan leveren aan 1 model wat dan allerlei dingen moet gaan zitten doen.

[Reactie gewijzigd door supersnathan94 op 9 oktober 2025 22:34]

drakiesoft @supersnathan94 • 10 oktober 2025 08:13

Mooie samenvatting. Welke AI heb je daarvoor gebruikt?

Davey400 10 oktober 2025 06:55

Ik mag wel hopen dat ‘Sudoku oplossen’ slechts een voorbeeld is dat gebruikt wordt als iets wat voor mensen moeilijk lijkt, maar in werkelijkheid gewoon een kwestie van mogelijkheden elimineren is.

Een ‘oplosser’ voor specifiek Sudoku’s is niet meer dan het volgen van de juiste voorwaarden en letterlijk het invullen van de vakjes. Ik heb zoiets jaren geleden eens gemaakt in VBScript en dat was hooguit een paar honderd regels.

Even niet in staat om de bron door te nemen, maar ik neem aan dat dit een zelflerend model is dat je een willekeurige puzzel voor kunt zetten en dat het model zelf dan wel uitzoekt hoe deze op te lossen, zonder uit te leggen wat de te gebruiken techniek is, en ‘Sudoku’ dus slechts een metafoor is die nu iets te groot uitgelicht wordt.

sanscorp 9 oktober 2025 21:23

Kunnen we op zijn minst als tweaker(s) stoppen met het hypen van AI.

Het is geen AI, alleen nog maar A.

lenwar

Wetenschap

@sanscorp • 10 oktober 2025 02:55

AI is de marketingterm voor een vracht technologieën. De term is even hol als Smart, Pro, Ultra, Plus, enz.

Ofwel, maak je niet druk over de term zelf het is slechts de term die de marketeers en de nieuwsmakers gebruiken. 😊

Dit product heeft juist een goede nieuwswaarde door de aard van het product. Wezenlijk lijkt dit op een SLM, maar dan een die iets nieuws doet (repetitief door zichzelf halen om een beter antwoord te krijgen)

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (28)

Sorteer op:

Weergave: