Onderzoekers hebben S1 geïntroduceerd, een AI-redeneermodel dat ze getraind hebben voor 50 dollar en dat volgens benchmarks opgewassen is tegen o1 van OpenAI. Dat is gelukt door een model te destilleren.
Het redeneermodel baseert zich op Qwen2.5-32B-Instruct van Alibaba, schrijven de onderzoekers. Om er een gedestilleerd redeneermodel van te maken, trainden de onderzoekers het model met duizend antwoorden van Gemini Flash 2.0 Thinking Experimental, een redeneermodel van Google. Dat gebeurde via de api.
Daar waren in totaal dertig minuten voor nodig op 16 Nvidia H100-gpu's, iets dat voor het schrijven van de paper 50 dollar kostte en nu misschien nog goedkoper kan. Het resulterende model S1 scoort vergelijkbaar op diverse benchmarks van bijvoorbeeld rekentesten als OpenAI o1-modellen.
Om S1 langer te laten nadenken probeerden de onderzoekers diverse methodes uit en het blijkt dat het gebruik van het woord 'wait' de nauwkeurigheid van de antwoorden het meest opschroefde. Gedestilleerde modellen kunnen veel van wat de grotere modellen kunnen en zijn goedkoop te trainen, maar de grote modellen zijn nog steeds nodig om destillaten van te maken. Het project staat op GitHub en HuggingFace.