OpenAI wil redeneermodellen en GPT-serie combineren in GPT-5

OpenAI wil zijn redeneermodellen, ook wel de o-serie genoemd, gaan combineren met zijn reguliere GPT-modellen. Dat heeft het bedrijf aangekondigd in een nieuwe roadmap. Vanaf GPT-5 wordt het o3-model dan ook niet meer los aangeboden.

Het GPT-model is het generatieve AI-model dat gebruikt wordt voor de reguliere ChatGPT. Afgelopen jaar kwamen daar ook 'redeneermodellen' bij, beginnend met het o1-model, die logischere antwoorden kunnen geven door 'na te denken'. Het model produceert namelijk eerst een zogenaamde gedachtegang voordat het een antwoord geeft. Inmiddels is in deze serie het geavanceerdere o3-model beschikbaar.

De beide modelseries bestaan nu naast elkaar, maar daar wil OpenAI dus verandering in brengen. "Ons hoofddoel is om de modellen uit de o-serie en de GPT-serie samen te brengen door systemen te ontwikkelen die al onze tools kunnen gebruiken, weten wanneer ze lang moeten nadenken en wanneer niet, en die gebruikt kunnen worden voor een breed scala aan taken", zegt OpenAI-ceo Sam Altman op X.

GPT-5 wordt dan ook een systeem dat 'veel van onze technologie integreert, waaronder o3', aldus Altman. Zodra dat model verschijnt, wordt o3 niet meer los aangeboden. Om misbruik te voorkomen, krijgt de gratis variant van ChatGPT op dat moment alleen toegang tot de standaardinstelling. Plus-abonnees kunnen GPT-5 op 'een hoger intelligentieniveau' draaien en Pro-abonnees kunnen 'van een nog hoger intelligentieniveau' gebruikmaken.

Voor het zover is, verschijnt eerst GPT-4.5 nog, dat intern Orion genoemd wordt. Dat wordt het laatste model dat geen redeneermogelijkheden heeft. Wanneer GPT-4.5 en GPT-5 verschijnen, is niet bekendgemaakt.

Door Eveline Meijer

Nieuwsredacteur

13-02-2025 • 11:43

25

Lees meer

Reacties (25)

25
25
16
2
0
8
Wijzig sortering
Zullen we 'redeneermodellen' voortaan 'extrapolatiemodellen' noemen?

Dat geeft een stuk beter aan wat het zijn en wat ze doen. Nog steeds nuttig gereedschap, maar rederen.... not so much...
Nee, ze zijn niet hetzelfde, hoewel er wel raakvlakken kunnen zijn.

Redeneren in AI verwijst naar het proces waarbij het model logische verbanden legt en conclusies trekt uit de gegeven informatie. Het gaat om het integreren van verschillende stukjes informatie en regels om tot een beslissing of antwoord te komen.

Extrapoleren betekent daarentegen het toepassen van bekende patronen of trends op nieuwe, nog niet waargenomen data. Hierbij wordt ervan uitgegaan dat de geleerde patronen zich op dezelfde manier voortzetten buiten de trainingsdata.

Dus, terwijl extrapolatie vaak een onderdeel kan zijn van generalisatie in AI, omvat redeneren een breder, meer complex proces van logisch afleiden en contextuele interpretatie.
Een wat mij betreft nuttige eigenschap bij de redeneermodellen is dat er zelf achter komen dat ze bepaalde data niet of niet zeker genoeg weten, dat lijkt me weinig met extrapolatie te maken hebben?
Fair enough, dat is inderdaad wel een dingetje.
Lijkt me goed om dit te stroomlijnen, ik heb het gratis plan en soms ben je door je 4o heen, maar al klik je dan op reasoning heb je toch weer toegang tot een "beter" model.

Nou gebruik ik wel wat meer deepseek R1 maar dan wel lokaal op m'n macbook. Toch beter voor het milieu dan de Azure datacenters opstoken.
Hoeveel miljard parameters gebruik je dan voor lokale Deepseek? Op mijn 3060 kan ik maar tot 14 miljard. Andere modellen passen niet in VRAM. Een gedistilleerd model kan voor sommige dingen misschien nuttig zijn, maar de prestaties zijn echt niet te vergelijken met de SOTA-modellen die Azure opstoken. En er zijn natuurlijk maar weinig situaties waarin je genoegen zou nemen met een slechter antwoord op je vraag...
En er zijn natuurlijk maar weinig situaties waarin je genoegen zou nemen met een slechter antwoord op je vraag...
Wel hoor. Met dingen die je prive wil houden bijvoorbeeld, dan is cloud geen optie. En veel taken van een LLM hebben niet zo'n groot model nodig. Bijvoorbeeld samenvatten.

Voor 'kennis' is een groter model veel beter maar in simpele taken zijn de kleine modellen net zo goed. En die kennis kan je toch niet vertrouwen want regelmatig zuigt het maar wat uit zijn duim. Dus dan moet je toch gaan grounden in een zoekactie op internet, en in dat geval vervalt je vraag weer in het type samenvatten.

Ik draai daarom ook alles thuis en ik grijp maar in zeer uitzonderlijke gevallen naar een cloud LLM.

Of het echt zuiniger is weet ik alleen niet. Mijn LLM server trekt al 50W in idle dus dat tikt wel aan. Tijdens een LLM query springt dat naar ongeveer 300. Maar voor mij is het belangrijke punt vooral de privacy, niet het verbruik.

[Reactie gewijzigd door Llopigat op 13 februari 2025 11:59]

Of het echt zuiniger is weet ik alleen niet. Mijn LLM server trekt al 50W in idle dus dat tikt wel aan. Tijdens een LLM query springt dat naar ongeveer 300. Maar voor mij is het belangrijke punt vooral de privacy, niet het verbruik.
Welke LLM gebruik je? DeepSeek R1 is echt een stuk zuiniger
Llama 8b.

Soms gebruik ik wel de distilled versie van deepseek (ook llama) maar daar is ten eerste (nog?) geen uncensored versie van, en bovendien heb ik gewoon niet altijd de redenering optie nodig maar wel snelle reponstijden. DeepSeek is natuurlijk veel trager omdat die steeds op zichzelf terugblikt. Dat hoort ook zo maar ik heb dat niet altijd nodig. Soms vraag ik gewoon dingen als hoe laat is mijn volgende vergadering, hoe koud is het buiten, enz.

En die 50W is idle dus daar verandert het model niks aan. Die 300W ook niet want dat is gewoon de TDP van mijn kaart onder maximale load. Als een model sneller is dan duurt het alleen korter. Maar over het algemeen is het vooral de base load die mij treft, die periodes dat hij 300W trekt zijn erg kort.

[Reactie gewijzigd door Llopigat op 13 februari 2025 12:44]

Soms vraag ik gewoon dingen als hoe laat is mijn volgende vergadering, hoe koud is het buiten, enz.
Interesant. Hoe voorzie je je lokale LLM van je kalender afspraken?

Temperaturen opvragen dat lukt mij wel via Home Assistant (die mijn Ollama server aanroept waarop een van de genoemde modellen draait) en werkt bliksemsnel op mijn 3060 12GB machine met ook 300W piek verbruik. Inderdaad erg korte pieken.
Via tools in OpenWebUI. Het is nog niet ideaal. Regelmatig laat de LLM de tool aanroep achterwege en dan roept hij maar wat. Maar het wordt steeds beter, dat wel

Ik gebruik ook home assistant maar niet via de assist integratie. Het duurt op de een of andere manier dan 30 seconden tot ik antwoord krijg. Nu gebruik ik de assist en voice module alleen voor toegang tot de rauwe llm. Dat is veel sneller, antwoord in 5 seconden ofzo

[Reactie gewijzigd door Llopigat op 13 februari 2025 14:13]

Ik heb het laatst eens gemeten voor mijn knutselwerk met twee Tesla P40's:
  • Idle: 80W
  • 32b model loaded: 123W
  • 32b model working: 241W
  • 70b model loaded: 166W
  • 70b model working: 293W
32b model was mistral-small en het 70b model was DeepSeek R1, beide met 4-bit kwantisatie. kaarten waren wel gecapped op 140W.

[Reactie gewijzigd door DJ Henk op 14 februari 2025 08:53]

Ik kan tot 14b, maar dan is wel wel wat swap gebruik. Maar los van stroomverbuik is privacy natuurlijk ook een overweging
Ik weet nog niet zo of het wel milieu bewuster is om het lokaal te draaien. In de datacenters staat mogelijk efficiëntere hardware dan in je eigen MacBook.
Als je opzoekt hoeveel een prompt kost in chatgpt is dat echt heel anders m'n 40watt macbookje
en je vergelijkt appels met peren. ChatGPT model 4 is vele malen groter dan je lokale deepseek model....
en je vergelijkt appels met peren.
Nee hoor, zijn beide AI en als beide voldoen voor zijn vragen dan heb je helemaal niks aan een 4 maal groter model die 20x meer energie verbruikt...

Dus dan mag en kan je prima op vergelijken.

[Reactie gewijzigd door watercoolertje op 13 februari 2025 13:13]

ja, een citroen C1 en een porsche 911 zijn ook allebij auto's op 4 wielen waar je niet meer als 2 mensen in wilt hebben zitten. Zo kunnen we nog wel even door gaan :+
en ook dan is de Citroen C1 mileubewuster dan de Porsche 911. Dat is nou net het punt!
Nou gebruik ik wel wat meer deepseek R1 maar dan wel lokaal op m'n macbook. Toch beter voor het milieu dan de Azure datacenters opstoken.
Want jouw Macbook is efficienter dan de Azure datacenters?
DeepSeek R1 op m'n 40 watt M1Pro vergeleken met GPT4o op nvidia gpu's zeker. Zoek maar op hoeveel watt een prompt kost
Dit zegt natuurlijk niet alles. De eenheid voor verbruik is sowieso Wh en niet Watt. Als jouw MacBook een hele dag doet over een prompt met een gebruik van 40 Watt is het zeker niet zuiniger bijvoorbeeld.

Maar om realistischere getallen aan te halen:

Een snelle Google leert dat een 4o prompt, ongeveer 0,3 Wh kost. Dat is gelijk aan 1080 Ws. Stel dat jouw MacBook 40 Watt gebruikt tijdens het runnen van een prompt, dan mag deze er dus minder dan 1080/40 = 27 seconde over doen om zuiniger te zijn. Ik vermoed dat dat met R1 wel lukt.
Dat lukt zeker, floept er even snel uit als op OpenAI tenzij ik echt heel lange prompt erin knal
Altman heeft op X gezegd als antwoord op een user dat GPT 4.5 / GPT 5 een kwestie is van weeks / months tot het uitkomt. Dus ik zou denken dat we 4.5 wel kunnen verwachten voor eind maart.
Je kunt in principe de niet-redeneermodellen van gpt 'slimmer' maken door in je (system)prompts aan te geven dat, en hoe, het model moet redeneren. Daar heb je niet echt een 'o' model voor nodig (al doen die het wel nog iets beter)

Op dit item kan niet meer gereageerd worden.