Snelste programmeeragent van OpenAI draait op joekels van Cerebras-chips

OpenAI heeft een snellere, maar lichtere versie van zijn programmeeragent GPT-5.3-Codex aangekondigd. Hiervoor maakt het bedrijf voor het eerst gebruik van de opvallend forse AI-accelerators van Cerebras.

Het GPT-5.3-Codex-Spark-model draait op de derde generatie van de Wafer Scale Engine van Cerebras. Deze chip is met afmetingen van 21,5x21,5cm zó groot, dat hij de volledige 5nm-wafer van TSMC in beslag neemt. Hij beschikt over 4 biljoen transistors en 900.000 cores. Daarmee kan de AI-accelerator volgens de fabrikant tot 125 petaflops aan rekenkracht leveren.

OpenAI heeft voor deze chip gekozen vanwege de hoge snelheid. Het nieuwe model kan meer dan 1000 tokens per seconde genereren. Codex-Spark werkt met een contextwindow van maximaal 128.000 tokens.

Deze snellere agent is volgens OpenAI bedoeld voor realtime programmeertaken waarbij een lage latency van belang is. Gebruikers kunnen het model ter plekke onderbreken of bijsturen en krijgen 'bijna meteen' antwoord op vragen. Omdat het een lichter model is, zijn de prestaties minder goed dan die van de reguliere GPT-5.3-Codex-agent. Wel presteert Codex-Spark beter dan het nog lichtere Codex mini-model.

De snellere programmeeragent is in eerste instantie alleen als previewversie beschikbaar voor ChatGPT Pro-abonnees. Zij kunnen toegang krijgen tot het model via de Codex-app, in de terminal en VS Code. Ook heeft een 'kleine groep' partners toegang tot Codex-Spark via de api.

Cerebras Wafer Scale Engine 3
Cerebras Wafer Scale Engine 3

Door Kevin Krikhaar

Redacteur

13-02-2026 • 12:14

99

Reacties (99)

Sorteer op:

Weergave:

Snel is leuk, maar man wat een gigantische overkill voor dit model. Heeft OpenAI echt zo veel geld er door te branden of is het de moeite waard om tientallen tot honderden malen meer geld uit te geven voor wat meer tokens per second?

Volgens het gelinkte Tweakers artikel vreten die dingen 15kW (!) terwijl ze maar 44GB SRAM hebben. Tuurlijk, dat is natuurlijk extreem snel, maar een 300W AMD workstation kaart heeft net zoveel!
( uitvoering: AMD Radeon Pro W7900 )

Ben vooral ook benieuwd hoe duur zo een Cerabras-chip dan is, aangezien het een volledige wafer is zal dat toch echt flink in de kosten gaan neem ik aan. Hoop dat het voor OpenAI de investering waard is voor niet eens het draaien van een beter model, maar gewoon het verhogen van de output speed....
SRAM is op de chip. De machine kan natuurlijk in zijn totaal veel meer geheugen hebben, er staat in het gelinkte artikel: "De geheugenbandbreedte ligt op 21PB/s en interconnectbandbreedte ligt volgens Cerebras op 214Pbit/s". Dat is geen grapje.
Dat klopt, alleen deze chips gebruiken alleen hun SRAM en geen externe HBM/DRAM. Dus zelfs als je over meerdere chips gaat schalen, betaal je een gestoorde prijs per GB RAM vergeleken met een GPU.
Met dan natuurlijk wel die gestoord hoge bandbreedte als voordeel, maar ik weet niet of die tradeoff het echt waard is.
Let wel dat dit soort toepassingen helemaal geen RAM vreters zijn. Er moet genoeg RAM zijn om het model te kunnen bevatten maar meer dan dat is niet nodig. Zeker met deze toepassingen is de volgende stap zoveel mogelijk threads en pas daarna is de snelheid van die threads van belang. Een heel klein beetje van die RAM wordt gebruikt voor de uitvoerende code, de rest voor het model en als het model in het geheugen past is iedere byte meer zinloos.
De huidige grootste modellen zijn rond de 1TB. Als er meer ruimte is, dan zullen dat soort modellen ook veel groter kunnen worden.
Reasoning modellen met een kv cache gebruiken juist wel veel ram.

Dat is volgens mij ook de reden dat het model deze karakteristieken heeft.
Dat lijkt mij toch vrij apart? Dan heeft de computer waar dit in gaat alleen de SRAM van de cores? Dat maakt het design extreem complex. Je zou eerder verwachten dat men die interconnect inzet als communicatie met de host computer. Dan kun je zelfs nog een OS daarop draaien op niet Cerberas chips (scheelt instructies ook!). Kan mij niet voorstellen ook eigenlijk dat je met 44 GB aan SRAM deze resultaten in een benchmark met AI codering krijgt. Dit schrijf ik als iemand die prive regelmatig devstral 2 draait lokaal (ook wel eens zonder Q vanaf host geheugen).
Het hele punt is dat het model in SRAM geladen wordt in plaats van DRAM, dat is waarom de memory bandwidth zo hoog is en waarom de inference performance dus zo extreem hoog is. Dat is vooral het voordeel van deze chips, met als nadeel dat SRAM natuurlijk in veel lagere kwantiteit komt dan DRAM.
Ik heb het opgezocht en het werkt op deze manier volgens een presentatie van hun CTO van voordat ze overgenomen waren door openai. Men gebruikt iets dat men memoryx extension (wat een naam idd) noemt, hiermee, 'streamed' men de weights die op dat moment nodig zijn en de context naar de 'gpu' (dus het SRAM). Na de pass van die layer, 'schrijft' de 'gpu' de resultaten terug naar de memoryx. En dan kan de volgende layer, etc..

Wat ik nog niet begrijp is of dat memoryx extension hetzelfde iets is van memryx (een bedrijf met producten die ook een beperkte set aan calculaties kan doen op het geheugen).
Dat benoemde ik ook al kort, maar het enige verschil hier is output speed. De Cerebras chips hebben namelijk geen HBM/DRAM
Als je het model in SRAM kunt laden heb je geen DRAM nodig. Als 'ie 20x keer sneller is maakt het niet uit dat 'ie 20x zo duur is. Ik de k trouwens echt niet dat ze 20x zo duur zijn. Misschien maar 2-3x wat een Nvidia kost.
Ik ben geen expert, maar ik gok zo dat de Yield van hele wafers wel eens tegen kan vallen. Zie je meteen weer terug in de prijs
Er zal vast een stukje redundancy in zitten. 5 of 10% slechte cores worden gewoon als zodanig gemarkeerd, net als vroeger 'bad sectors' op een harddisk

Vwb SRAM is het wel interessant om te weten hoe dat georganiseerd is. Als het hele model er in past, kunnen dan alle cores er even snel bij of is het een NUMA architectuur?
Hele concept van cerebras is dat de chips het dus ook nog doet met uitgeschakelde sectors, daarom is de yield van een hele chip bijna volledig, alleen verschillen de chips dus in welke sectoren zijn uitgeschakeld
Ik vermoed (maar heb daar 0 bewijs voor), dat dit hier ook een soort van tie-in tussen OpenAI en Cerebras meespeelt, dat OpenAI deze chips tegen grove discounts mag gebruiken in ruil voor publiciteit voor Cerebras. Wat Cerebras probeert met deze wafer-scale chips is nogal gewaagd en niet iedereen gelooft erin dat dit een goed idee is namelijk. Het was ook alweer best wel een tijdje stil rond dit bedrijf dus niet heel vergezocht dat ze op deze manier de aandacht zouden willen trekken.
Ik vermoed (maar heb daar 0 bewijs voor), dat dit hier ook een soort van tie-in tussen OpenAI en Cerebras meespeelt, dat OpenAI deze chips tegen grove discounts mag gebruiken in ruil voor publiciteit voor Cerebras.
Het lijkt mij eerder een soort wanhoopspoging van beide partijen. Cerebras is in 2015 opgericht en heeft nog nooit winst gemaakt, OpenAI is bezig met wat Sam Altman zelf het laatste, afschuwelijke redmiddel voor ChatGPT heeft genoemd, het plaatsen van advertenties.
Samengevat: het duo Cerebras (hardware) en Open AI (software) vs Nvidia (hardware) en Google/Meta (software). Ik zou er mijn geld niet op inzetten...
maar heel veel investeerders zien die combo van Cerebras (hardware) en Open AI (software) vs Nvidia (hardware) en Google/Meta wel zitten
Openai heeft geinvesteerd in cerberas.
Dat is wel een heel erge appels met peren vergelijking. Maar om die voor de lol toch door te trekken.

900000 cores / 6144 cores = ~145 AMD W7900's nodig.

145x300W = 43kW
145X3000euro = 435k
Snel is leuk, maar man wat een gigantische overkill voor dit model. Heeft OpenAI echt zo veel geld er door te branden
Wat is dat nu voor een rare reactie. Waarop basseer je u dat Open AI de rekenkracht niet kan gebruiken? Ze hebben best wel wat zakelijke klanten die AI flows met agents aan het bouwen zijn.

Is volgens uw informatie Nvidia dan beter, goedkoper of zuiniger voor inference?

Dan klaag je not over het gebrek aan geheugen. Het betreft extreem (meerdere petabytes/sec) snel geheugen voor inference.

En waarom hoop je dat OpenAI de investering terugverdient, heb je andere info die het onkracht? Tewijfel je over het geheugen? Misschien te weinig? Of klets je maar wat.
Nvidia, AMD of zelfs Intel GPUs zijn een stuk zuiniger en goedkoper voor inference, het enige voordeel wat deze Cerebras chips hebben is extreem hoge inference snelheid.

Verder gebruiken ze alleen SRAM en geen DRAM, wat dus betekent dat je voor zo een stroomvretende chip een stuk meer betaalt dan voor gewoon een GPU met meer, maar trager DRAM.

Mijn vraag is meer of er echt iemand is die zo veel geeft om net iets snellere inference voor zo veel hogere stroom en chipkosten. Is 2x snellere AI modellen 10x de prijs waard voor OpenAI? Of krijgen ze die chips gratis van Cerebras voor marketing? Geen idee, maar daarom vraag ik mij wel af of dit het geld echt waard is voor OpenAI.
Met RELU modellen is Cerebras zuiniger dan NVIDIA als we ze mogen geloven, wat ik doe. In open weight modellen word RELU nu niet meer gebruikt, maar de voordelen van moderne alternatieven zijn miniem. OpenAI specialiseert het model natuurlijk voor de hardware.

Je kan je voorstellen dat modellen nog andere eigenschappen hebben die dense batched matrix vermenigvuldiging inefficiënt maakt, wat NVIDIA/AMD nodig hebben ... dat is waar Cerebras zijn voordeel haalt.

Over het algemeen op hyperscaler niveau, komen ze om in gedistribueerd geheugen ... maar er is nooit genoeg geheugen bandbreedte (hele grote batches nodig om bandbreedte niet de limiterende factor te maken, maar grote batches is makkelijker gezegd dan gedaan).

[Reactie gewijzigd door Pinkys Brain op 13 februari 2026 17:32]

Ik kan me perfect voorstellen dat trading AI's die nu vollop aan het opkomen zijn hier enorm bij kunnen benefiten om bet sneller te traden en te cashen. Ennatuurlijk ook chatgpt die vollop eigen code schrijft voor berekeningen te doen kan zo live sneller code schrijven.
Heeft OpenAI echt zo veel geld er door te branden of is het de moeite waard om tientallen tot honderden malen meer geld uit te geven voor wat meer tokens per second?
Ja en nee, ze willen een low-latency oplossing aanbieden en dat gaat vooralsnog niet anders dan met deze oplossing, jouw multi-node voorbeeld kent alleen al op hardware vlak een enorme latency, laat staan op het niveau van de software die daar bovenop draait.

Het zal vast niet de bedoeling zijn dat iedere developer een gpt-5-codex-cerebras chat gaat starten op termijn. Op andere afdelingen van OpenAI zijn ze gewoon bezig met betere, gespecialiseerde, gedistilleerde modellen etc.

[Reactie gewijzigd door GewoonWatSpulle op 14 februari 2026 13:17]

Ik vind latency een vervelend gekozen woord door OpenAI om lage response time aan te duiden. Nou zijn ze natuurlijk groot genoeg om dat door te douwen, dus ik vecht tegen de bierkaai, maar toch vervelend.

Nu als iemand naïef aanneemt dat het ongeveer zo werkt als latency in netwerk verkeer, zitten zij er naast (het equivalent van latency in netwerk verkeer voor LLMs is time to first token).
Ja en dat word ook bedoeld, time-to-first-token, wanneer begint het antwoord, én tokens per seconds, hoe snel volgt de rest van het antwoord.

Deze prestaties lijken mij dan ook een niche toepassing want als ik zie met welke snelheid de huidige modellen lappen tekst als antwoord genereren dan wens ik geen extra snelheid.

Bij het genereren van code wil ik liever duiding en overweging in plaats van snelheid en volume en met generieke vragen wil liever meer interactie voordat er een lap tekst komt waar te veel en te weinig in staat.
Voor programmeren maakt time to first token niet uit, dat is alleen belangrijk als je de illusie van chat wilt en time to first token heel hoog oploopt.

Zelfs als het secondenwerk is dan maakt voor een nuttig blok code nog bijna niks uit voor de time to last token. Dus in netwerk termen, latency maakt bijna niet uit, het is bijna puur single stream throughput wat belangrijk is. Om de response time dan latency te gaan noemen is nodeloos verwarrend.
1000 tokens per seconde is best rap.

Een 140W / 6.144 core NVIDIA DGX Spark haalt met qwen3-coder-next op int8 ongeveer 40 tokens per seconde.

Wat doet de 300W AMD workstation?
(de nvidia dgx spark heeft ook een zeer snelle 20 core cpu, usb-c, wifi7, 10GB netwerk aansluiting, meer dan 2x zo veel geheugen en OS-licentie vandaar de €900,- meerprijs).

[Reactie gewijzigd door djwice op 13 februari 2026 14:41]

Hoop dat ze de overige 36% van het waferoppervlak nog gebruiken voor de productie van wat geheugenchips…
Ik gebruik nu Codex een weekje of twee. En ik ben eigenlijk wel onder de indruk van de resultaten. Gebruik het wel via de terminal, wat een beetje primitief werkt soms.

Ik programmeer al ~20 jaar in vele programmeertalen, hardware, GPUs. Vraag mij serieus af hoe mijn carriere er had uitgezien als dit soort AI tools 15 jaar geleden bestonden. Zou ik zo lui zijn geworden? Zou ik de echte "in depth" kennis hebben van zaken die ik nu heb? Want die Codex.. het maakt je leven toch wel een stuk eenvoudiger, dat ik mij toch wel oprecht afvraag of ontwikkelaars over een paar jaar nog wel hetzelfde werk doen.

Junioren skippen die "in depth" kennis en doorlopen van de code, want ironisch genoeg, mijn grappige statement die ik vroeger vaak hanteerde "als het compileert, dan werkt het :P " wordt nu iets te letterlijk genomen (geen validaties).

[Reactie gewijzigd door Sponge op 13 februari 2026 13:03]

Het is inderdaad wel een afweging ja. Je bent duidelijk sneller klaar, en als ervaren programmeur kan je dan vrij gemakkelijk nog de laatste puntjes op de i zetten. Maar ik kan me voorstellen dat je heel wat kunt bereiken zonder echt te weten wat je doet, en dan kom je later in de knoop wanneer de LLM het ook niet meer weet.
Want je bent zelf verantwoordelijk voor de architectuur, en voor debugging. En dat moet je wel kunnen.
Als niet-programmeur ga ik nu misschien kort door de bocht maar zal er dan in de opleidingen niet meer nadruk gelegd worden op de architectuur en andere delen van 'het grote plaatje'?

Een programmeur van vandaag is toch ook niet meer dezelfde als die van 50 jaar geleden toen ze nog gaatjes moesten perforeren in de ponskaarten?
Dat klopt, maar die Codex heeft maar een paar kleine fouten gemaakt tot nu toe (wat expliciete casts (c#) vergeten, en een functie die een ref ging aanpassen, terwijl dat niet mag in een lambda. Verder nog geen andere groot issues gevonden, die ik bij ChatGPT normaal wel snel had.
Heb je ook Claude Opus 4.5 gebruikt, bv. via Cursor? Dat was voor mij het omslagpunt van scepticus naar gelovige.
Hier dezelfde ervaring en dezelfde vragen. Moet wel zeggen dat ik al een paar jaar weinig zin meer had in het programmeren zelf, maar dat is nu wel weer terug gekomen. Juist doordat het ellenlange uitzoeken van weer een nieuw framework en code tikken op de achtergrond verdwijnt. Juist het bezig zijn met wat de code moet doen, en niet zozeer meer de code zelf tikken, brengt weer wat plezier in het programmeren.
Zelf nog nooit geleerd om te programmeren, echter onlangs een los eInk schermpje besteld icm esp32. Mijn doel was om de weersvoorspellingen van de komende 7 dagen te tonen op het display.

Met de kant/klare oplossingen (icm abonnementskosten / license per apparaat) was ik niet tevreden.

Nu m.b.v. Figma een ontwerp in elkaar geprompt (geen idee of dat de makkelijkste route is). Van dit ontwerp een .png gemaakt, en deze in chatgpt gegooid, en daar weer gevraagd om het zodanig te programmeren dat het ontwerp + de gevraagde info getoond wordt met een bepaalde refresh frequentie.

Nou gaat dat niet in 1x pixelperfect, en mijn prompts zijn ook niet de beste, maar met enkele avonden pruttelen is het gewoon gelukt.

Trots ben ik niet haha, toch het gevoel dat ik gewoon andermans werk aan het knippen/plakken ben, maar ik vind dit echt enorm indrukwekkend

[Reactie gewijzigd door AOC op 13 februari 2026 15:43]

die chip is sneller en groter dan mijn hoofd.
Je hoofd is nog steeds heel veel sneller. Tof, he? En daar heb je meteen de storage bij inbegrepen. :D
En je hoofd hallucineert niet. Tenminste, dat hoop ik voor je. :+
Ik hoop juist dat die dat wel doet, want je krijgt zo veel informatie binnen dat het wel selectief moet zijn in wat het gebruikt. Daardoor vallen er weer gaten in je waarneming, die je door middel van (een soort van) hallucinatie opvult. Denk alleen maar aan de blinde vlek; als je een tekst aan het lezen bent en er zit precies op dat punt een letter of woord, weten je hersenen aan de hand van de context dat netjes voor je in te vullen.
oh weetje wat nog beter is dat er ook ram in zit die zal ook niet te betalen zijn voor deze chip. bij mijn hoofd was het gewoon inbegrepen wat een service
Vraag me eigenlijk af hoeveel TB een menselijk geheugen zou zijn als je het in bytes zou kunnen uitdrukken :). Het lijkt bij sommige soms echt een eindeloos grote HDD.
ik heb me wel eens laten vertellen dat het menselijk geheugen enkele petabytes kan omvatten. Maar veel daarvan is enkel toegankelijk door middel van associatie. Oftewel: je herinnert je niets specifieks, maar door het zien van een bepaalde foto of voorwerp o.i.d. komt die data ineens weer tevoorschijn.
Je hersenen zijn dan ook 3d 'staxked' en qua volume dus veel groter :-)
Dat van die snelheid en grootte weet ik niet. De chip heeft in ieder geval wel een betere look.
WOW en bedankt je hebt mijn hoofd niet eens gezien.


maar met pijn in mijn hart denk ik dat je gelijk hebt :'(
Ik weet dat ze na een zware berekening, een paar dummy berekeningen doen, en dat langzaam afschalen, omdat er circa 300.000 Amperes lopen, en het kleine beetje inductie van de powertraces genoeg is om een spanningspiek te veroorzaken welke de chip direct kapot maakt.
Dat lijkt me echt heeel sterk. 200k amp is al een serieuze bliksem, en tenzij je de chip op millivolts weet te draaien kom je ongeacht het oppervlak van de chip uit om dit te verwerken verdampt je silicon mogelijk direct.

Ik verwacht dat je er in ieder geval een factor 20 naast zit, en waarschijnlijk meer.

[Reactie gewijzigd door killercow op 13 februari 2026 14:51]

Sorry zat er iets naast, 20.000 Amp.
De rest van me verhaal klopt wel.
https://spectrum.ieee.org...-speed-barrier-2650279434
Op zich heb ik ook nog wel rekenwerk liggen wat parallel kan over 900.000 simpele cores (een miljard threads, so room to spare). Als dit soort hardware mainstream wordt, dan doe mij er ook maar eentje. :D
Vergeet niet eerst uw stroom aansluiting op te waarderen. Voor 15-20 Kw heeft u minimaal een 3-fase 35 ampère aansluiting nodig. Aangezien die wel aan de krappe kant is, zou eerder een 3-fase 50 ampère aansluiting nodig zijn, in de volksmond ook wel winkelaansluiting genoemd.
who cares, het staat gewoon in een datacenter van Microsoft. Die krijgen namelijk wél een stroom aansluiting op het overvolle net, maar de gewone man uiteraard niet. Verschil moet er wezen zijn
Je wordt gedownmod, maar je hebt volkomen gelijk. Deze week twee artikelen:

nieuws: Stroomnet in Flevoland, Gelderland en Utrecht zit overvol, aansluitstop dreigt

https://www.nu.nl/klimaat/6385416/datacenter-slurpt-straks-meer-stroom-dan-heel-lelystad-raad-wist-van-niks.html

Of deze, van twee weken geleden:

nieuws: Microsoft omzeilt verbod met truc en mag grote datacenters bouwen in Amsterdam

Dat is toch niet meer te verkopen? Huizen krijgen straks geen aansluitingen meer, wij moeten onze auto maar 's nachts opladen, of de vaatwasser programmeren, maar ondertussen worden hyperscalers uit de grond gestampt met truukjes.
Ho jij daar even. Jij bent hypocriet. Je maakt toch gebruik van tweakers en het internet??? Hoezo ben je tegen datacentra? /s

[Reactie gewijzigd door com2,1ghz op 13 februari 2026 14:42]

Ik denk eerder tegen AI datacenters specifiek die vragen zoveel meer stroom dan een 'normale' datacenter het is gewoon echt ondenkbaar veel stroom dat door doe AI gegooid wordt
Ik ben niet tegen datacentra, integendeel. Ik ben tegen de truukjes die gebruikt worden om de wet te omzeilen en op die manier misbruik te maken van ons elektriciteitsnet.

Ik ben ook niet tegen AI. Maar er moet wel wat gebeuren aan de enorme hoeveelheid energie die dat vreet. En dat gaat ook wel gebeuren, maar zoals met veel dingen, moet dat even op gang komen.
who cares, het staat gewoon in een datacenter van Microsoft. Die krijgen namelijk wél een stroom aansluiting op het overvolle net, maar de gewone man uiteraard niet. Verschil moet er wezen zijn
Iemand bij microsoft vertelde het verhaal dat ze aan het worstelen zijn geweest met infiniband over regions heen.

omdat, als ze alle hardware in 1 region zetten, het stroomnet van die staat uitviel.
Ah gewoon beetje undervolten joh :+
Ik mik 'm wel stiekem in een hoekje van het serverhok. Daar is stroom genoeg. :+
Ik zou hem in de keuken plaatsen, dan heeft u geen keramische plaat meer nodig :)
Waterkoeling... met pasta.

Ik ken wel iemand die zijn tropische aquarium verwarmde met een computer. Dat werkte prima :D
Des te makkelijker wordt het straks om alle dure softwareontwikkelaars op straat te gooien.
om ze daarna weer als ZZPer in te huren om de fouten er uit te vissen.
AI kan van zijn fouten leren dus waarom zou je nog mensen in dienst nemen.
Ik hoop dat je dit cynisch bedoeld.

AI kan niet instantaan van fouten leren. Mensen!!! kunnen aangeven dat de gegenereerde code fout is. Die aanpassing wordt in het volgende model opgenomen, zonder garantie overigens dat de fout niet meer terug komt. Een junior dev die door een senior op een fout gewezen wordt, maakt deze fout direct niet meer (hoop ik). Met een beetje geluk leert hij/zij ook nog andere fouten herkennen en groeit daarmee richting senior.
AI kan het meteen oplossen. Iets waar een mens dagen over doet.

Dus tsja... waarom zou je nog de ontwikkelaars nodig hebben. Kost tijd en geld wat je flink kan besparen.
Gaat niet gebeuren want die doen toch echt wat anders dan wat deze modellen kunnen, al zouden ze er nog 100x meer rekenkracht tegenaan gooien. Code was al langer niet de bottleneck.

Bedrijven die wel al hun software engineers eruit gooien zullen daar snel achterkomen, mja of het op tijd is...
Als je goed weet wat je wilt kan Codex echt heel veel werk uit handen nemen. Ik factureer voor mijn softwarewerk nu nog hetzelfde maar doe het in veel minder tijd :-). Mocht de rest ook zo snel gaan straks dan heb ik nog ruimte genoeg om de facturatie te verlagen :-)
wat dus een race to the bottom genereert. De mindere goden onder de devs zullen óók hun tarieven verlagen, maar de code kwaliteit zal dan achteruit hollen omdat ook jij voor het factuur bedrag geen tijd meer zult hebben om alle code te kunnen controleren.

Uiteindelijk is JOUW klant dus de dupe.

Dit is al in zoveel industrieën gebeurd. Klassieke valkuil.
Ik moet elke maand mijn hypotheek betalen met mijn werk. Ik kan nu echt heel erg veel meer doen in dezelfde tijd.

Mochten steeds meer mensen dat gaan doen dan ben ik ondernemer genoeg om iets anders te gaan doen.
Hij houdt wel een hele grote vast in zijn handen (pun intended)
Wat denk ik veel mensen niet door hebben is hoeveel gebruikers je met deze chip tegelijkertijd kunt verwerken. Dat is dus waarschijnlijk ongelofelijk. Dus per user 1000 tokens per seconde maal x tegelijkertijd. Volgens mij. Het is zoiets als vLLM: het kan meerdere agents tegelijkertijd bedienen. Nou dit is dus waarschijnlijk de non plus ultra ultra...
Ik zie dat de belangrijkste vraag nog niet is gesteld.

Can it run doom?
Ik zou zeggen probeer het uit maar ik denk dat de stroom dan uit zou vallen😅
Dan moet ik nog even geduld hebben. Bij ons in de regio kan ik een dergelijke verzwaring van de groepenkast niet aanvragen.
Zouden ze dit model ook binnenkort vrij gaan geven voor lokaal gebruik op de DGX Spark van NVIDIA? Gezien de naam en het eerder ook al vrijgeven van gpt-oss in 20b en 120b. Zie ook nieuws: OpenAI brengt AI-model uit dat lokaal kan draaien met 16GB VRAM.

Extra context gpt-oss is een model dat net als qwen3-coder-next lokaal gebruik kan worden met Anthropic Claude Code (= de beste ontwikkelomgeving voor programmeren met AI op dit momeng) via ollama launch. Aangezien het nieuwste Qwen-model beter is in programmeren dan gpt-oss, is het wellicht tijd om vanuit OpenAI een opvolger van gpt-oss voor programmeertaken uit te brengen.
ollama launch claude --model gpt-oss:20b

ollama launch claude --model qwen3-coder-next
De 44GB VRAM van de 900.000 core Cerebras is daar wel een indicator voor. Al zul je met 1/125 van de rekencapaciteit op de DGX Spark natuurlijk geen 1.000 tokens per seconde halen, maar wellicht 8 tokens per seconde (~ 360 woorden per minuut) bij gelijke snelheid van de architectuur.
Qwen3-coder-next haalt 40 tokens per seconde (~1.800 woorden per minuut) op een DGX Spark en het model is even groot als GPT-5.3-Codex-Spark. Dus ik ben benieuwd.

[Reactie gewijzigd door djwice op 13 februari 2026 14:19]


Om te kunnen reageren moet je ingelogd zijn