Onderzoekers trainen AI-redeneermodel voor 50 dollar, kan op tegen OpenAI o1

Onderzoekers hebben S1 geïntroduceerd, een AI-redeneermodel dat ze getraind hebben voor 50 dollar en dat volgens benchmarks opgewassen is tegen o1 van OpenAI. Dat is gelukt door een model te destilleren.

Het redeneermodel baseert zich op Qwen2.5-32B-Instruct van Alibaba, schrijven de onderzoekers. Om er een gedestilleerd redeneermodel van te maken, trainden de onderzoekers het model met duizend antwoorden van Gemini Flash 2.0 Thinking Experimental, een redeneermodel van Google. Dat gebeurde via de api.

Daar waren in totaal dertig minuten voor nodig op 16 Nvidia H100-gpu's, iets dat voor het schrijven van de paper 50 dollar kostte en nu misschien nog goedkoper kan. Het resulterende model S1 scoort vergelijkbaar op diverse benchmarks van bijvoorbeeld rekentesten als OpenAI o1-modellen.

Om S1 langer te laten nadenken probeerden de onderzoekers diverse methodes uit en het blijkt dat het gebruik van het woord 'wait' de nauwkeurigheid van de antwoorden het meest opschroefde. Gedestilleerde modellen kunnen veel van wat de grotere modellen kunnen en zijn goedkoop te trainen, maar de grote modellen zijn nog steeds nodig om destillaten van te maken. Het project staat op GitHub en HuggingFace.

Door Arnoud Wokke

Redacteur Tweakers

06-02-2025 • 19:51

49

Lees meer

Reacties (49)

Sorteer op:

Weergave:

Dat lijkt weinig, maar 1 H100 kost $28.000 x 16 = ruwweg $450.000 aan hardware.
$50 per half uur = $2.400 per dag of $876.000 per jaar dus als die dingen een half jaar volledig gebruikt worden zijn ze al uit de aanschafkosten van de "kaarten". Geen idee wat er procentueel nog aan extra kosten zijn (energie, rest van de hardware, personeel, ...) maar dit geeft wel een indicatie hoe lucratief de datacenter-business kan worden en waarom er massaal in wordt geïnvesteerd om uiteindelijk een ROI te behalen.
Wel belangrijk om te begrijpen is dat deze onderzoekers niet in één keer raak schoten. Door de lage kosten hebben ze heel veel experimenten kunnen draaien (zoals bijvoorbeeld het gebruik van het woord "wait" in plaats van "uhm") om op die manier de parameters te vinden die het beste resultaat leveren. Weet je eenmaal wat de beste parameters zijn, dan kan je dit model dus voor $50 trainen (maar waarom zou je dat nog doen als iemand anders voor jou dat ook al heeft gedaan).

De methode op zich lijkt me verder best nuttig. In plaats van maar zo veel mogelijk geld tegen servers etc aangooien, kan je jezelf dus ook limiteren tot een maximumbedrag per trainingssessie zodat je systematisch allerlei verschillende opties langs kunt lopen.
Dit is heel goed nieuws! Dat betekent inderdaad dat onafhankelijke onderzoekers van universiteiten bijvoorbeeld weer een rol kunnen gaan spelen in de ontwikkeling van AI.! Niet alleen voorkomt dat monopolie, maar ook versnelt dat onderzoek enorm.
Euh.. ik zou even heel goed kijken naar wat ze nu echt hebben bereikt voor je victorie kraait.

En dat is nog even los van de vraag of deze destillatie niet gewoon verboden is door de nieuwe AI act.
Ik vind $50 voor 16 kaarten voor een half uur eigenlijk nog best wel meevallen. Volgens mij krijg je dat zelf niet zo voor die prijs. Ik gebruik wel eens Colab van Google en die heeft alleen A100's dus het is niet helemaal te vergelijken maar volgens mij kost dat veel meer.

Maar ondanks dat de datacenter business inderdaad lucratief is, de opdrachtgevers daarvan moeten die kosten uiteindelijk toch ook weer terugverdienen bij de klanten. Ik vraag me een beetje af of dat wel gaat gebeuren. Gaan mensen echt wel in grote getalen een paar honderd euro per maand uitgeven? Want op de huidige tientjesprijzen wordt dik verlies gedraaid.

[Reactie gewijzigd door Llopigat op 6 februari 2025 20:26]

Je hebt op AWS spot instances.
Dat kun je gebruiken als het je niet boeit wanneer de berekening gedaan wordt.
Je geeft een prijs op en als er GPU's niet gebruikt worden en je bent de hoogste bieder, dan krijg jij de computer.
Nadeel: als iemand meer biedt en er is niets meer vrij, krijg je een minuut op zelf te bieden of om het tussen resultaat veilig te stellen tot de keer dat er weer compute vrij is.

Een spot instance kost op dit moment 10% van de listprijs.

[Reactie gewijzigd door djwice op 6 februari 2025 22:28]

dit was de eenmalige trainingskostprijs, het antwoorden gaat door een veel kleinschaligere setup kunnen gebeuren, misschien wel zelfs op een simpele kaart of chip die al in huidige hardware zit.
Vergelijk het simpelweg met het opstellen van een flowchart met 100 mogelijkheden, wat een enorm complex gegeven is om op te stellen, maar voor callcentermedewerkers vlot en snel te volgen is zonder dat die zicht moeten hebben op het volledige design om tot het juiste antwoord te komen.
Ja dat weet ik. Maar alsnog wordt op de inferentie ook flink verlies gedraaid. Dat is wat ik hoor in elk geval. Ik denk doordat het zoveel wordt aangeroepen. Als ik bijvoorbeeld zie dat copilot nu automatisch elke email samenvat, elke keer een hele LLM aanroep.

[Reactie gewijzigd door Llopigat op 6 februari 2025 21:56]

de instance wordt aangeroepen, maar niet per sé de hele trainingsset/infrastructuur. Ik weet niet hoe deze zich verhoudt tot bvb een zoekopdracht op google, maar die volgt in dat opzicht een soortgelijk concept en spuwt ook direct een hoop antwoorden uit die al ergens gecached waren en niet real-time vanop het volledige internet worden gezocht.
Daarom huren de meesten het ook en betalen ze alleen voor gebruikte computertijd.
Ik vroeg me ook al af waar ik die $50 naar kon overmaken, want ik kan nog wel wat van die H100's gebruiken :+

Maar zonder grappen, als ik kijk op https://aws.amazon.com/ec2/pricing/on-demand/ dan zie ik dat de prijzen wel iets hoger liggen. 1x p5.48xlarge (8x H100 GPU) is al 100,- per uur. Dus met 16 van die dingen zit je op +/- 200 per uur.
DigitalOcean:
Type: NVIDIA H100x8
GPU: 8
VRAM: 640 GB
vCPU: 160
RAM: 1920 GB
Boot Disk: 2 TB NVMe SSD
Scratch Disk: 40 TB NVMe SSD
$23.92/hr
Dat is dus niet eens 50 dollar voor 2 uur.
Mogelijk dat dit artikel niet helemaal aan sluit op de kennis van de gemiddelde tweaker? Een hoop onduidelijk in ieder geval. Ook ik ben niet al wetend in dit onderwerp maar van wat ik begrijp is dat ze hier eigenlijk

- een hond kopiereren (ipv een nieuwe maken)
- de hond nieuwe truukjes willen leren
- de lesstof rechtstreeks komt van een totaal andere hond en 1 op 1 als spiekbrief wordt gebruikt

Daardoor kan je voor relatief weinig geld op het succes meeliften van de bestaande hond en ook de lesstof kost je dus ‘niets’ omdat je die niet zelf hoeft samen te stellen.

Des al niet te min enorm knap en misschien ook wel een aantoonbare toekomst dat distileren incrementeel betere of meer gespecialiseerde modellen te maken

As ik er wat naast zit of een nuance er nog bij kan, let me know! Worden we alleen maar slimmer van

[Reactie gewijzigd door ultimasnake op 7 februari 2025 08:07]

Bijna.

- Ze hebben een andere, minder slimme hond
- Ze willen deze hond slimmer maken
- Het verstand van de minder slimme hond wordt opgekrikt door de betere antwoorden die de al getrainde hond geeft

Terug naar de "AI"; de antwoorden die het geeft zijn beter geschikt om een model mee slimmer te maken, dan de "random" giga-data die de door mensen aangereikte info is.

....ofzoiets
Dus als ik het goed begrijp zijn de onderzoeken die miljarden hebben gekost en die gespendeerd zijn door andere bedrijven om hun eigen modellen te trainen gebruikt om een nieuw moderner model te trainen?
Niet helemaal. Het is geen heel nieuw model dat getrained wordt. Dat gebeurt ook ja. OpenAI heeft DeepSeek daar bijvoorbeeld van beschuldigd aangezien het tegen hun gebruikvoorwaarden in gaat. Beetje hypocriet aangezien ze zelf het halve internet zonder toestemming leeg hebben geslurpt, maargoed. Maar in die gevallen wordt het gebruikt om het trainende model te laten leren van het bestaande model door dat output te laten genereren. Op die manier kan je meer input verkrijgen zonder heel veel meer te hoeven spideren op internet. Wat ook steeds lastiger wordt want veel meer sites blokkeren nu AI spiders of verbieden het.

Maar dat is nog steeds een heel zwaar proces. Het vereist ook veel output en nog steeds een flink datacenter om het doelmodel te trainen. Het voordeel is wel dat je het kan doen zonder het bronmodel zelf in handen te hebben. Je hoeft het alleen te kunnen gebruiken.

Een destillatie is meer een "finetuning" om chain of thought reasoning te bewerkstelligen. Hetzelfde model wordt gebruikt alleen het bekijkt zijn eigen output om te zien of dat wel kan kloppen en zoniet probeert het mogelijke oplossingen. Een beetje zoals je zelf ook kan doen als een antwoord nergens op slaat. Dan zeg je dat en het model geeft toe dat het niet klopte en komt met een beter antwoord. In dit geval doet hij dat dus automatisch. Op die manier kan je ook uitgebreidere redeneringen doorwerken.

Dus het nieuwe model is niet opnieuw getraind (nouja lichtjes dan) bij een destillatie maar meer aangepast voor een andere werkwijze.

Maar ja het model dat gedestilleerd was, was wel van een ander bedrijf ja. Dat daar heel veel aan gespendeerd heeft. Maar dat (Alibaba) heeft het zelf als open source vrijgegeven, juist voor verdere doorontwikkeling zoals dit. Alibaba, Meta, Mistral, Microsoft (Phi) maken dit soort open modellen. Die kan je dan zelf aanpassen maar ook zelf thuis draaien. Terwijl Anthropic, OpenAI en Google (Gemini) het vooral gesloten doen en het dus alleen aanbieden als service (of als model onder strikte voorwaarden bij partners zoals OpenAI met Microsoft Azure doet). Al brengt Google ook wel wat open modellen uit! Anthropic en OpenAI volgens mij niet.

[Reactie gewijzigd door Llopigat op 6 februari 2025 20:27]

Correct. Ook dat OpenAI een beetje een misnomer is. Goede samenvatting van het spel!

[OT] Ik houd mijn hart vast voor de ontwikkelingen rondom AI. Niet zozeer vanwege een soort armageddon scenario, maar omdat het zulke nuttige tools zijn, waar zo weinig partijen een "foot in de door" hebben. Binnen een hele korte periode zie je al dat bedrijven en mensen afhankelijk gaan worden van dergelijke tools. Als je met een AI je productiviteit met 100% vergroot, kan ik me zo maar voorstellen dat bedrijven als Anthropic en OpenAI de prijs van de een op de andere dag verhogen met een flink bedrag - en je hier weinig tegen kunt beginnen. Als je vervolgens meer kunt administreren met dezelfde effort, krijg je vanzelf dat er meer verwacht wordt - en dus een harde afhankelijkheid creeert.

Mede om dat soort overwegingen vind ik het persoonlijk wel goed dat dit soort open modellen worden ontwikkeld. Wellicht vinden die partijen dat wat minder tof, maar voor de mensheid in zijn algeheel is het denk ik wel de juiste weg.
Ja ik begrijp helemaal wat je bedoelt. Ik heb ook die vrees, ik was al nooit fan van clouddiensten maar het was altijd iets dat je met een beetje moeite ook zelf kon doen. En dat doe ik dan ook. Het is prettiger om alles zelf in beheer te hebben en bovendien enorm leerzaam.

Nu echter met het ontwikkelen van AI modellen is dat niet meer mogelijk. Als je een heel datacenter een maand moet laten blazen om een model te bakken dan blijft dat voorbehouden aan enkele grote partijen. En daarmee hebben ze gelijk hun 'moat'. Het is mijn vrees inderdaad dat we daardoor heel erg afhankelijk worden van big tech (nog veel meer dan we nu al zijn- en je ziet nu al dat mensen en overheden gewoon niet om Google of Microsoft heen komen).

Maar het doet me wel heel goed om te zien hoe goed de open-source modellen zich ontwikkelen, en hoe goed die nog presteren. Ik gebruik zelf llama3.1-8b en ook vaak gpt-4o. Llama-8b (ik heb de 450b versie niet kunnen proberen) is natuurlijk minder goed dan gpt, maar het verbaast me hoe goed zo'n klein model nog presteert. Als je naar kennis dingen gaat vragen dan gaat het al gauw mis, maar in verband met hallucinatie wil je dat soort acties eigenlijk toch grounden in een zoekmachine actie (wat openwebui ingebouwd heeft) en dan is er weinig verschil meer. En samenvattingsacties, herschrijven (engels dan) of simpele selecties doet het eigenlijk prima.

Dus voorlopig is die vrees een beetje weggenomen. Maar aan de andere kant, open-source modellen moeten ontwikkeld blijven worden om mee te kunnen. Llama3 was alweer een hele bak beter dan llama2 en 1. Als we uit de fase van 'marktaandeel winnen' zijn en naar de fase 'geld verdienen' gaan met AI, vraag ik me af of partijen als meta, alibaba enz nog wel gratis modellen beschikbaar gaan stellen. Waarom zouden ze?

Misschien komen er op termijn wel initiatieven waarbij je kan meebetalen aan het crowdfunden van open modellen. Daar hoop ik een beetje op.

[Reactie gewijzigd door Llopigat op 7 februari 2025 10:35]

Ah duidelijk, dank voor de uitleg!
De tijd en kennis die de onderzoekers naast de $50 hebben besteed is ook veel waard. Bedrijven die hun modellen open source vrijgeven, zijn zich bewust van de meerwaarde van dit soort onderzoeken. Het bekt ook lekker in een headline (zoals deze) en is gratis publiciteit. Ik wist niet eens dat Alibaba een model had.
Ook ben ik blij dat het de markt verstoort. Het mag niet zo zijn dat straks alle relevante kennis in handen is van grote bedrijven, alleen maar omdat ze oneindig veel emmers met geld naar Nvidia kunnen scheppen. Dan krijg je straks nog een embargo op kennis, en mag je voor veel geld naar de AI universiteit van Nvidia ofzo (ik kijk nu veroordelend naar Microsoft, die met hun vendor lock-in een hele generatie ITers aan zich probeert te binden omdat die buiten het MS cloud ecosysteem compleet nutteloos zijn)
Ik wist niet eens dat Alibaba een model had.
Oh nee? Qwen2.5 is een van de betere kleine modellen. Alleen ik gebruik het niet zoveel omdat het vaak terugvalt in Chinees als het er niet uitkomt. Daarom heb ik liever Llama.
ik kijk nu veroordelend naar Microsoft, die met hun vendor lock-in een hele generatie ITers aan zich probeert te binden omdat die buiten het MS cloud ecosysteem compleet nutteloos zijn)
Helemaal eens. Ik heb een hekel aam microsoft en hun produkten maar ik zit er ook een beetje aan vast. Het is een soort moeras waar je niet meer uitkomt, je begint met 1 ding en elk jaar wordt er iets anders gemigreerd omdat het net iets goedkoper is dan standalone. Mijn manager wilde al dat ik hun certificaten ga doen maar ik ga liever iets helemaal anders doen. Ik heb geen zin om mijn kennis afhankelijk te maken van een bedrijf, zeker niet een die ik niet vertrouw. Om die reden heb ik ook nooit iets met AWS willen doen.
En AI trainen met de output van een AI.
Lijkt mij een beetje als papier recyclen, voor nieuw papier. Het eind product wordt kwalitatief steeds slechter.
Nee het product wordt in dit geval dus juist beter.
Toch wel oppassen van model collapse (Wikipedia: Model collapse), dus het kan ook de andere kant opgaan!
Ow ja. Maar gaat dat niet meer over error in is error uit. Als in, train je het model met foutieve informatie uit model 2 dan krijg je dus fouten in je model. Ga je die dan weer gebruiken om een ander model te trainen maak je de modellen steeds slechter.

Maar in dit geval gaat het specifiek over het redeneren overnemen van het andere model. Je neemt dus een eigenschap die het eerste model niet had en voegt deze toe.

Ik heb gelezen dat er waarschijnlijk wel beperkingen hierbij zijn. Als het model te klein is kan het niet leren redeneren. Die drempel ligt wel laag al zie je uiteraard betere resultaten bij grotere modellen. Maar een 8B model kan behoorlijk goede resultaten geven.

Nu nog die modellen leren om te kunnen zeggen wanneer ze iets niet weten en dan wordt het nog eens wat.
Juist dit 'wait' triggerde mij ook.
Het voelt voor mij analoog aan evolutietheorieën. Er onstaat steeds 'intelligenter' leven pas na lange tijd en veel probeersels. En dit in open 'source' binnen de beperkingen van de aarde.
Ja je moet wachten tot er een monoliet voor de levensvorm wordt gedropt.
Sorry ook hier kon ik het niet laten :D.
Als je aan ChatGPT vraagt te wachten doet ie dit fictief. Dus het zal wel een soort trigger-woord zijn om aan te geven dat een antwoord niet klopt of verduidelijkt moet worden.
Wat in ieder geval niet helpt is schelden of instructies geven waardoor het antwoord altijd 42 is.
Ik heb even geluistered naar hoe deepseek werkt kort en de manier waarop AI gaat werken (en deels al werkt) is totaal anders dan hoe de traditionele generative AI's werken. Er is veel minder GPU kracht voor nodig en zal de revolutie versnellen. Voor de VS is dit omschakelen. Ik vermoed dat de broliarchie dacht dat ze dankzij de berperkingen op China voor een langere termijn de markt hadden gecornered. Maar het ziet er naar uit dat binnen nu en pakweg vijf jaar de meeste grote spelers (EU, Rusland etc. etc.) hun eigen krachtige generative AI zullen hebben.

Ik vermoed ook dat iedereen binnen nu en een jaar (dus ook de leken) AI op de telefoon hebben staan standaard. Voor traditionele zoekmachines is dit natuurlijk een flinke klap.
Ik hoop stiekem dat we een compleet nieuw speelveld gaan zien. Een beetje zoals het begin van het internet. Een speelveld van ideeën ipv “wie kan het meest investeren en voorop blijven lopen”. Al is het maar voor een paar jaar.
Is dit niet ongeveer hetzelfde als de linux kernel sources clonen er wat onnodige drviers eruit weg halen, een calculator app toevoegen de boel opnieuw compilere en zeggen: Ik heb een unix kernel geschreven in 2 uur?
Niet als die calculator app in rust geschreven moet worden. :D
Sorry ik kon het niet laten.

[Reactie gewijzigd door goarilla op 6 februari 2025 23:39]

Ik volg de trends, begrijp de inhoud, vind het mega interessant, maar voor de gemiddelde lezer moet dit soort berichten toch echt een kermis woorden? Destillaten... redeneermodel, daar mag wel wat beter journalistiek schrijven ipv vertalen bijgevoegd worden imho. Deze artikelen lezen meer en meer als een vertaling. Ik kan beter de bron gaan lezen.

Top dat tweakers dit meeneemt in de nieuwsartikelen, goed dat het gemeld wordt, leuk dat het de frontpage haalt, maar een alinea meer omtrent de inhoud zal het inhoudelijk verbeteren :+

Voorbeeld: wat precies betekent "wait" gebruiken? Stopt de code totdat de user input geeft? Pakt het model de volgende bus?

[Reactie gewijzigd door Sugocy op 6 februari 2025 23:22]

Ze gebruiken het om het model langer 'na te laten denken'. Wachten met antwoord geven. Uit een ander artikel:

Researchers also added a clever component to enhance the model’s reasoning capabilities. By incorporating the term “wait” into s1’s process, the model could pause during its thinking, allowing it more time to arrive at slightly more precise responses. This tactic significantly improved the accuracy of its answers, as outlined in the research paper.
Dit helpt niet. Je introduceert de term "wait" in een process? Moet je dat toevoegen aan je input-text? Is het een "wait" commando ergens in het script, waar je dus als gebruiker geen invloed op hebt? Als je het toevoegt in je input-prompt, wat gebeurt er dan als je "wait, wait, wait" invoert?
Veel instructies aan dit soort LLM's gebeuren van wat ik begrijp in 'normale' taal. Ik vermoed dus dat ze het model geleerd hebben te wachten voordat het antwoord geeft, of pauzes in te lassen tijdens het 'voorspellen' van het antwoord. Modellen zijn getrained om snel antwoord te geven. Dat vinden wij namelijk prettig. Door simpelweg langer te processen zonder antwoord te geven zou het antwoord accurater kunnen worden.
Door AI te trainen op de output van een andere AI zijn we bezig met een soort 'AI-inteelt'. Ook DeepSeek lijkt hier schuldig aan te zijn. In principe is het fijn dat er steeds minder resources worden gebruikt om deze modellen te trainen, maar iedereen kan voorspellen dat hierdoor de output steeds onbetrouwbaarder wordt. Echter is dit door ons allang niet meer te controleren.
Het wordt gewoon commercieel uitgebuit. Die LLM's maken AI niet. Het zijn allemaal centrale data-tanks, waar het om draait. Wie heeft de meeste data? Een LLM is alleen maar een filter. Ze doen alsof het iets is wat je over een periode moet cultiveren om goed te worden. Sure.

[Reactie gewijzigd door blorf op 7 februari 2025 07:26]

Op dit item kan niet meer gereageerd worden.