Snelste programmeeragent van OpenAI draait op joekels van Cerebras-chips

OpenAI heeft een snellere, maar lichtere versie van zijn programmeeragent GPT-5.3-Codex aangekondigd. Hiervoor maakt het bedrijf voor het eerst gebruik van de opvallend forse AI-accelerators van Cerebras.

Het GPT-5.3-Codex-Spark-model draait op de derde generatie van de Wafer Scale Engine van Cerebras. Deze chip is met afmetingen van 21,5x21,5cm zó groot, dat hij de volledige 5nm-wafer van TSMC in beslag neemt. Hij beschikt over 4 biljoen transistors en 900.000 cores. Daarmee kan de AI-accelerator volgens de fabrikant tot 125 petaflops aan rekenkracht leveren.

OpenAI heeft voor deze chip gekozen vanwege de hoge snelheid. Het nieuwe model kan meer dan 1000 tokens per seconde genereren. Codex-Spark werkt met een contextwindow van maximaal 128.000 tokens.

Deze snellere agent is volgens OpenAI bedoeld voor realtime programmeertaken waarbij een lage latency van belang is. Gebruikers kunnen het model ter plekke onderbreken of bijsturen en krijgen 'bijna meteen' antwoord op vragen. Omdat het een lichter model is, zijn de prestaties minder goed dan die van de reguliere GPT-5.3-Codex-agent. Wel presteert Codex-Spark beter dan het nog lichtere Codex mini-model.

De snellere programmeeragent is in eerste instantie alleen als previewversie beschikbaar voor ChatGPT Pro-abonnees. Zij kunnen toegang krijgen tot het model via de Codex-app, in de terminal en VS Code. Ook heeft een 'kleine groep' partners toegang tot Codex-Spark via de api.

Cerebras Wafer Scale Engine 3
Cerebras Wafer Scale Engine 3

Door Kevin Krikhaar

Redacteur

13-02-2026 • 12:14

53

Reacties (53)

Sorteer op:

Weergave:

Snel is leuk, maar man wat een gigantische overkill voor dit model. Heeft OpenAI echt zo veel geld er door te branden of is het de moeite waard om tientallen tot honderden malen meer geld uit te geven voor wat meer tokens per second?

Volgens het gelinkte Tweakers artikel vreten die dingen 15kW (!) terwijl ze maar 44GB SRAM hebben. Tuurlijk, dat is natuurlijk extreem snel, maar een 300W AMD workstation kaart heeft net zoveel!
( uitvoering: AMD Radeon Pro W7900 )

Ben vooral ook benieuwd hoe duur zo een Cerabras-chip dan is, aangezien het een volledige wafer is zal dat toch echt flink in de kosten gaan neem ik aan. Hoop dat het voor OpenAI de investering waard is voor niet eens het draaien van een beter model, maar gewoon het verhogen van de output speed....
SRAM is op de chip. De machine kan natuurlijk in zijn totaal veel meer geheugen hebben, er staat in het gelinkte artikel: "De geheugenbandbreedte ligt op 21PB/s en interconnectbandbreedte ligt volgens Cerebras op 214Pbit/s". Dat is geen grapje.
Dat klopt, alleen deze chips gebruiken alleen hun SRAM en geen externe HBM/DRAM. Dus zelfs als je over meerdere chips gaat schalen, betaal je een gestoorde prijs per GB RAM vergeleken met een GPU.
Met dan natuurlijk wel die gestoord hoge bandbreedte als voordeel, maar ik weet niet of die tradeoff het echt waard is.
Let wel dat dit soort toepassingen helemaal geen RAM vreters zijn. Er moet genoeg RAM zijn om het model te kunnen bevatten maar meer dan dat is niet nodig. Zeker met deze toepassingen is de volgende stap zoveel mogelijk threads en pas daarna is de snelheid van die threads van belang. Een heel klein beetje van die RAM wordt gebruikt voor de uitvoerende code, de rest voor het model en als het model in het geheugen past is iedere byte meer zinloos.
Dat lijkt mij toch vrij apart? Dan heeft de computer waar dit in gaat alleen de SRAM van de cores? Dat maakt het design extreem complex. Je zou eerder verwachten dat men die interconnect inzet als communicatie met de host computer. Dan kun je zelfs nog een OS daarop draaien op niet Cerberas chips (scheelt instructies ook!). Kan mij niet voorstellen ook eigenlijk dat je met 44 GB aan SRAM deze resultaten in een benchmark met AI codering krijgt. Dit schrijf ik als iemand die prive regelmatig devstral 2 draait lokaal (ook wel eens zonder Q vanaf host geheugen).
Het hele punt is dat het model in SRAM geladen wordt in plaats van DRAM, dat is waarom de memory bandwidth zo hoog is en waarom de inference performance dus zo extreem hoog is. Dat is vooral het voordeel van deze chips, met als nadeel dat SRAM natuurlijk in veel lagere kwantiteit komt dan DRAM.
Dat benoemde ik ook al kort, maar het enige verschil hier is output speed. De Cerebras chips hebben namelijk geen HBM/DRAM
Als je het model in SRAM kunt laden heb je geen DRAM nodig. Als 'ie 20x keer sneller is maakt het niet uit dat 'ie 20x zo duur is. Ik de k trouwens echt niet dat ze 20x zo duur zijn. Misschien maar 2-3x wat een Nvidia kost.
Ik ben geen expert, maar ik gok zo dat de Yield van hele wafers wel eens tegen kan vallen. Zie je meteen weer terug in de prijs
Dat is wel een heel erge appels met peren vergelijking. Maar om die voor de lol toch door te trekken.

900000 cores / 6144 cores = ~145 AMD W7900's nodig.

145x300W = 43kW
145X3000euro = 435k
Ik vermoed (maar heb daar 0 bewijs voor), dat dit hier ook een soort van tie-in tussen OpenAI en Cerebras meespeelt, dat OpenAI deze chips tegen grove discounts mag gebruiken in ruil voor publiciteit voor Cerebras. Wat Cerebras probeert met deze wafer-scale chips is nogal gewaagd en niet iedereen gelooft erin dat dit een goed idee is namelijk. Het was ook alweer best wel een tijdje stil rond dit bedrijf dus niet heel vergezocht dat ze op deze manier de aandacht zouden willen trekken.
Openai heeft geinvesteerd in cerberas.
[quote]Heeft OpenAI echt zo veel geld er door te branden of is het de moeite waard om tientallen tot honderden malen meer geld uit te geven voor wat meer tokens per second?[/quote]

Ja en nee, ze willen een low-latency oplossing aanbieden en dat gaat vooralsnog niet anders dan met deze oplossing, jouw multi-node voorbeeld kent alleen al op hardware vlak een enorme latency, laat staan op het niveau van de software die daar bovenop draait.

Het zal vast niet de bedoeling zijn dat iedere developer een gpt-5-codex-cerebras chat gaat starten op termijn. Op andere afdelingen van OpenAI zijn ze gewoon bezig met betere, gespecialiseerde, gedistilleerde modellen etc.
Snel is leuk, maar man wat een gigantische overkill voor dit model. Heeft OpenAI echt zo veel geld er door te branden
Wat is dat nu voor een rare reactie. Waarop basseer je u dat Open AI de rekenkracht niet kan gebruiken? Ze hebben best wel wat zakelijke klanten die AI flows met agents aan het bouwen zijn.

Is volgens uw informatie Nvidia dan beter, goedkoper of zuiniger voor inference?

Dan klaag je not over het gebrek aan geheugen. Het betreft extreem (meerdere petabytes/sec) snel geheugen voor inference.

En waarom hoop je dat OpenAI de investering terugverdient, heb je andere info die het onkracht? Tewijfel je over het geheugen? Misschien te weinig? Of klets je maar wat.
die chip is sneller en groter dan mijn hoofd.
Je hoofd is nog steeds heel veel sneller. Tof, he? En daar heb je meteen de storage bij inbegrepen. :D
oh weetje wat nog beter is dat er ook ram in zit die zal ook niet te betalen zijn voor deze chip. bij mijn hoofd was het gewoon inbegrepen wat een service
En je hoofd hallucineert niet. Tenminste, dat hoop ik voor je. :+
Ik hoop juist dat die dat wel doet, want je krijgt zo veel informatie binnen dat het wel selectief moet zijn in wat het gebruikt. Daardoor vallen er weer gaten in je waarneming, die je door middel van (een soort van) hallucinatie opvult. Denk alleen maar aan de blinde vlek; als je een tekst aan het lezen bent en er zit precies op dat punt een letter of woord, weten je hersenen aan de hand van de context dat netjes voor je in te vullen.
Dat van die snelheid en grootte weet ik niet. De chip heeft in ieder geval wel een betere look.
WOW en bedankt je hebt mijn hoofd niet eens gezien.


maar met pijn in mijn hart denk ik dat je gelijk hebt :'(
Op zich heb ik ook nog wel rekenwerk liggen wat parallel kan over 900.000 simpele cores (een miljard threads, so room to spare). Als dit soort hardware mainstream wordt, dan doe mij er ook maar eentje. :D
Vergeet niet eerst uw stroom aansluiting op te waarderen. Voor 15-20 Kw heeft u minimaal een 3-fase 35 ampère aansluiting nodig. Aangezien die wel aan de krappe kant is, zou eerder een 3-fase 50 ampère aansluiting nodig zijn, in de volksmond ook wel winkelaansluiting genoemd.
Ah gewoon beetje undervolten joh :+
who cares, het staat gewoon in een datacenter van Microsoft. Die krijgen namelijk wél een stroom aansluiting op het overvolle net, maar de gewone man uiteraard niet. Verschil moet er wezen zijn
Je wordt gedownmod, maar je hebt volkomen gelijk. Deze week twee artikelen:

nieuws: Stroomnet in Flevoland, Gelderland en Utrecht zit overvol, aansluitstop dreigt

https://www.nu.nl/klimaat/6385416/datacenter-slurpt-straks-meer-stroom-dan-heel-lelystad-raad-wist-van-niks.html

Of deze, van twee weken geleden:

nieuws: Microsoft omzeilt verbod met truc en mag grote datacenters bouwen in Amsterdam

Dat is toch niet meer te verkopen? Huizen krijgen straks geen aansluitingen meer, wij moeten onze auto maar 's nachts opladen, of de vaatwasser programmeren, maar ondertussen worden hyperscalers uit de grond gestampt met truukjes.
Ik mik 'm wel stiekem in een hoekje van het serverhok. Daar is stroom genoeg. :+
Ik zou hem in de keuken plaatsen, dan heeft u geen keramische plaat meer nodig :)
Waterkoeling... met pasta.

Ik ken wel iemand die zijn tropische aquarium verwarmde met een computer. Dat werkte prima :D
Ik gebruik nu Codex een weekje of twee. En ik ben eigenlijk wel onder de indruk van de resultaten. Gebruik het wel via de terminal, wat een beetje primitief werkt soms.

Ik programmeer al ~20 jaar in vele programmeertalen, hardware, GPUs. Vraag mij serieus af hoe mijn carriere er had uitgezien als dit soort AI tools 15 jaar geleden bestonden. Zou ik zo lui zijn geworden? Zou ik de echte "in depth" kennis hebben van zaken die ik nu heb? Want die Codex.. het maakt je leven toch wel een stuk eenvoudiger, dat ik mij toch wel oprecht afvraag of ontwikkelaars over een paar jaar nog wel hetzelfde werk doen.

Junioren skippen die "in depth" kennis en doorlopen van de code, want ironisch genoeg, mijn grappige statement die ik vroeger vaak hanteerde "als het compileert, dan werkt het :P " wordt nu iets te letterlijk genomen (geen validaties).

[Reactie gewijzigd door Sponge op 13 februari 2026 13:03]

Heb je ook Claude Opus 4.5 gebruikt, bv. via Cursor? Dat was voor mij het omslagpunt van scepticus naar gelovige.
Hier dezelfde ervaring en dezelfde vragen. Moet wel zeggen dat ik al een paar jaar weinig zin meer had in het programmeren zelf, maar dat is nu wel weer terug gekomen. Juist doordat het ellenlange uitzoeken van weer een nieuw framework en code tikken op de achtergrond verdwijnt. Juist het bezig zijn met wat de code moet doen, en niet zozeer meer de code zelf tikken, brengt weer wat plezier in het programmeren.
Het is inderdaad wel een afweging ja. Je bent duidelijk sneller klaar, en als ervaren programmeur kan je dan vrij gemakkelijk nog de laatste puntjes op de i zetten. Maar ik kan me voorstellen dat je heel wat kunt bereiken zonder echt te weten wat je doet, en dan kom je later in de knoop wanneer de LLM het ook niet meer weet.
Want je bent zelf verantwoordelijk voor de architectuur, en voor debugging. En dat moet je wel kunnen.
Dat klopt, maar die Codex heeft maar een paar kleine fouten gemaakt tot nu toe (wat expliciete casts (c#) vergeten, en een functie die een ref ging aanpassen, terwijl dat niet mag in een lambda. Verder nog geen andere groot issues gevonden, die ik bij ChatGPT normaal wel snel had.
Als niet-programmeur ga ik nu misschien kort door de bocht maar zal er dan in de opleidingen niet meer nadruk gelegd worden op de architectuur en andere delen van 'het grote plaatje'?

Een programmeur van vandaag is toch ook niet meer dezelfde als die van 50 jaar geleden toen ze nog gaatjes moesten perforeren in de ponskaarten?
Ik weet dat ze na een zware berekening, een paar dummy berekeningen doen, en dat langzaam afschalen, omdat er circa 300.000 Amperes lopen, en het kleine beetje inductie van de powertraces genoeg is om een spanningspiek te veroorzaken welke de chip direct kapot maakt.
Hij houdt wel een hele grote vast in zijn handen (pun intended)
Des te makkelijker wordt het straks om alle dure softwareontwikkelaars op straat te gooien.
om ze daarna weer als ZZPer in te huren om de fouten er uit te vissen.
Gaat niet gebeuren want die doen toch echt wat anders dan wat deze modellen kunnen, al zouden ze er nog 100x meer rekenkracht tegenaan gooien. Code was al langer niet de bottleneck.

Bedrijven die wel al hun software engineers eruit gooien zullen daar snel achterkomen, mja of het op tijd is...
Wat denk ik veel mensen niet door hebben is hoeveel gebruikers je met deze chip tegelijkertijd kunt verwerken. Dat is dus waarschijnlijk ongelofelijk. Dus per user 1000 tokens per seconde maal x tegelijkertijd. Volgens mij. Het is zoiets als vLLM: het kan meerdere agents tegelijkertijd bedienen. Nou dit is dus waarschijnlijk de non plus ultra ultra...
Ik zie dat de belangrijkste vraag nog niet is gesteld.

Can it run doom?
Zouden ze dit model ook binnenkort vrij gaan geven voor lokaal gebruik op de DGX Spark van NVIDIA? Gezien de naam en het eerder ook al vrijgeven van gpt-oss in 20b en 120b. Zie ook nieuws: OpenAI brengt AI-model uit dat lokaal kan draaien met 16GB VRAM.

Extra context gpt-oss is een model dat net als qwen3-coder-next lokaal gebruik kan worden met Anthropic Claude Code (beste ontwikkel omgeving voor programmeren) voor via Ollama Launch. Aangezien het nieuwste Qwen-model beter is om programmeren dan gpt-oss, is het wellicht tijd voor een opvolger van gpt-oss voor vanuit OpenAI voor programmeertaken.
ollama launch claude --model gpt-oss:20b

ollama launch claude --model qwen3-coder-next

[Reactie gewijzigd door djwice op 13 februari 2026 14:07]


Om te kunnen reageren moet je ingelogd zijn