Snelste programmeeragent van OpenAI draait op joekels van Cerebras-chips

OpenAI heeft een snellere, maar lichtere versie van zijn programmeeragent GPT-5.3-Codex aangekondigd. Hiervoor maakt het bedrijf voor het eerst gebruik van de opvallend forse AI-accelerators van Cerebras.

Het GPT-5.3-Codex-Spark-model draait op de derde generatie van de Wafer Scale Engine van Cerebras. Deze chip is met afmetingen van 21,5x21,5cm zó groot, dat hij de volledige 5nm-wafer van TSMC in beslag neemt. Hij beschikt over 4 biljoen transistors en 900.000 cores. Daarmee kan de AI-accelerator volgens de fabrikant tot 125 petaflops aan rekenkracht leveren.

OpenAI heeft voor deze chip gekozen vanwege de hoge snelheid. Het nieuwe model kan meer dan 1000 tokens per seconde genereren. Codex-Spark werkt met een contextwindow van maximaal 128.000 tokens.

Deze snellere agent is volgens OpenAI bedoeld voor realtime programmeertaken waarbij een lage latency van belang is. Gebruikers kunnen het model ter plekke onderbreken of bijsturen en krijgen 'bijna meteen' antwoord op vragen. Omdat het een lichter model is, zijn de prestaties minder goed dan die van de reguliere GPT-5.3-Codex-agent. Wel presteert Codex-Spark beter dan het nog lichtere Codex mini-model.

De snellere programmeeragent is in eerste instantie alleen als previewversie beschikbaar voor ChatGPT Pro-abonnees. Zij kunnen toegang krijgen tot het model via de Codex-app, in de terminal en VS Code. Ook heeft een 'kleine groep' partners toegang tot Codex-Spark via de api.

Cerebras Wafer Scale Engine 3

Vorig nieuwsartikel Volgend nieuwsartikel

Door Kevin Krikhaar

Redacteur

Feedback • 13-02-2026 12:14 99

13-02-2026 • 12:14

Lees meer

OpenAI's programmeeragent Codex is sneller en kan grotere taken aan

OpenAI's programmeeragent Codex is sneller en kan grotere taken aan Nieuws van 6 februari 2026

Apple voegt integratie van AI-codingagents toe aan softwareontwikkelpakket Xcode

Apple voegt integratie van AI-codingagents toe aan softwareontwikkelpakket Xcode Nieuws van 3 februari 2026

ChatGPT brengt AI-agent Codex ook uit voor Plus-abonnees

ChatGPT brengt AI-agent Codex ook uit voor Plus-abonnees Nieuws van 4 juni 2025

Cerebras presenteert 5nm-Wafer Scale-chip met 900.000 cores

Cerebras presenteert 5nm-Wafer Scale-chip met 900.000 cores Nieuws van 13 maart 2024

Cerebras presenteert op 7nm gemaakte Wafer Scale-chip met 850.000 cores

Cerebras presenteert op 7nm gemaakte Wafer Scale-chip met 850.000 cores Nieuws van 21 april 2021

Meer producten en artikelen

Reacties (99)

99

97

32

0

0

48

Wijzig sortering

Scribe 13 februari 2026 12:33

Snel is leuk, maar man wat een gigantische overkill voor dit model. Heeft OpenAI echt zo veel geld er door te branden of is het de moeite waard om tientallen tot honderden malen meer geld uit te geven voor wat meer tokens per second?

Volgens het gelinkte Tweakers artikel vreten die dingen 15kW (!) terwijl ze maar 44GB SRAM hebben. Tuurlijk, dat is natuurlijk extreem snel, maar een 300W AMD workstation kaart heeft net zoveel!
( uitvoering: AMD Radeon Pro W7900 )

Ben vooral ook benieuwd hoe duur zo een Cerabras-chip dan is, aangezien het een volledige wafer is zal dat toch echt flink in de kosten gaan neem ik aan. Hoop dat het voor OpenAI de investering waard is voor niet eens het draaien van een beter model, maar gewoon het verhogen van de output speed....

demianmonteverd @Scribe • 13 februari 2026 12:38

SRAM is op de chip. De machine kan natuurlijk in zijn totaal veel meer geheugen hebben, er staat in het gelinkte artikel: "De geheugenbandbreedte ligt op 21PB/s en interconnectbandbreedte ligt volgens Cerebras op 214Pbit/s". Dat is geen grapje.

Scribe @demianmonteverd • 13 februari 2026 12:41

Dat klopt, alleen deze chips gebruiken alleen hun SRAM en geen externe HBM/DRAM. Dus zelfs als je over meerdere chips gaat schalen, betaal je een gestoorde prijs per GB RAM vergeleken met een GPU.
Met dan natuurlijk wel die gestoord hoge bandbreedte als voordeel, maar ik weet niet of die tradeoff het echt waard is.

@Scribe • 13 februari 2026 13:10

Let wel dat dit soort toepassingen helemaal geen RAM vreters zijn. Er moet genoeg RAM zijn om het model te kunnen bevatten maar meer dan dat is niet nodig. Zeker met deze toepassingen is de volgende stap zoveel mogelijk threads en pas daarna is de snelheid van die threads van belang. Een heel klein beetje van die RAM wordt gebruikt voor de uitvoerende code, de rest voor het model en als het model in het geheugen past is iedere byte meer zinloos.

CaptainCapslock @Croga • 14 februari 2026 15:42

De huidige grootste modellen zijn rond de 1TB. Als er meer ruimte is, dan zullen dat soort modellen ook veel groter kunnen worden.

atlaste @Croga • 14 februari 2026 23:05

Reasoning modellen met een kv cache gebruiken juist wel veel ram.

Dat is volgens mij ook de reden dat het model deze karakteristieken heeft.

demianmonteverd @Scribe • 13 februari 2026 13:58

Dat lijkt mij toch vrij apart? Dan heeft de computer waar dit in gaat alleen de SRAM van de cores? Dat maakt het design extreem complex. Je zou eerder verwachten dat men die interconnect inzet als communicatie met de host computer. Dan kun je zelfs nog een OS daarop draaien op niet Cerberas chips (scheelt instructies ook!). Kan mij niet voorstellen ook eigenlijk dat je met 44 GB aan SRAM deze resultaten in een benchmark met AI codering krijgt. Dit schrijf ik als iemand die prive regelmatig devstral 2 draait lokaal (ook wel eens zonder Q vanaf host geheugen).

Scribe @demianmonteverd • 13 februari 2026 14:07

Het hele punt is dat het model in SRAM geladen wordt in plaats van DRAM, dat is waarom de memory bandwidth zo hoog is en waarom de inference performance dus zo extreem hoog is. Dat is vooral het voordeel van deze chips, met als nadeel dat SRAM natuurlijk in veel lagere kwantiteit komt dan DRAM.

demianmonteverd @Scribe • 13 februari 2026 14:51

Ik heb het opgezocht en het werkt op deze manier volgens een presentatie van hun CTO van voordat ze overgenomen waren door openai. Men gebruikt iets dat men memoryx extension (wat een naam idd) noemt, hiermee, 'streamed' men de weights die op dat moment nodig zijn en de context naar de 'gpu' (dus het SRAM). Na de pass van die layer, 'schrijft' de 'gpu' de resultaten terug naar de memoryx. En dan kan de volgende layer, etc..

Wat ik nog niet begrijp is of dat memoryx extension hetzelfde iets is van memryx (een bedrijf met producten die ook een beperkte set aan calculaties kan doen op het geheugen).

DvanRaai89 @Scribe • 13 februari 2026 12:39

HBM (DRAM) != SRAM

Scribe @DvanRaai89 • 13 februari 2026 12:40

Dat benoemde ik ook al kort, maar het enige verschil hier is output speed. De Cerebras chips hebben namelijk geen HBM/DRAM

DvanRaai89 @Scribe • 13 februari 2026 13:02

Als je het model in SRAM kunt laden heb je geen DRAM nodig. Als 'ie 20x keer sneller is maakt het niet uit dat 'ie 20x zo duur is. Ik de k trouwens echt niet dat ze 20x zo duur zijn. Misschien maar 2-3x wat een Nvidia kost.

Cyberpuppy @DvanRaai89 • 13 februari 2026 13:47

Ik ben geen expert, maar ik gok zo dat de Yield van hele wafers wel eens tegen kan vallen. Zie je meteen weer terug in de prijs

scsirob @Cyberpuppy • 13 februari 2026 14:23

Er zal vast een stukje redundancy in zitten. 5 of 10% slechte cores worden gewoon als zodanig gemarkeerd, net als vroeger 'bad sectors' op een harddisk

Vwb SRAM is het wel interessant om te weten hoe dat georganiseerd is. Als het hele model er in past, kunnen dan alle cores er even snel bij of is het een NUMA architectuur?

Boronguyd @Cyberpuppy • 13 februari 2026 15:57

Hele concept van cerebras is dat de chips het dus ook nog doet met uitgeschakelde sectors, daarom is de yield van een hele chip bijna volledig, alleen verschillen de chips dus in welke sectoren zijn uitgeschakeld

johnbetonschaar @Scribe • 13 februari 2026 12:49

Ik vermoed (maar heb daar 0 bewijs voor), dat dit hier ook een soort van tie-in tussen OpenAI en Cerebras meespeelt, dat OpenAI deze chips tegen grove discounts mag gebruiken in ruil voor publiciteit voor Cerebras. Wat Cerebras probeert met deze wafer-scale chips is nogal gewaagd en niet iedereen gelooft erin dat dit een goed idee is namelijk. Het was ook alweer best wel een tijdje stil rond dit bedrijf dus niet heel vergezocht dat ze op deze manier de aandacht zouden willen trekken.

CharlesND @johnbetonschaar • 13 februari 2026 14:17

Ik vermoed (maar heb daar 0 bewijs voor), dat dit hier ook een soort van tie-in tussen OpenAI en Cerebras meespeelt, dat OpenAI deze chips tegen grove discounts mag gebruiken in ruil voor publiciteit voor Cerebras.

Het lijkt mij eerder een soort wanhoopspoging van beide partijen. Cerebras is in 2015 opgericht en heeft nog nooit winst gemaakt, OpenAI is bezig met wat Sam Altman zelf het laatste, afschuwelijke redmiddel voor ChatGPT heeft genoemd, het plaatsen van advertenties.
Samengevat: het duo Cerebras (hardware) en Open AI (software) vs Nvidia (hardware) en Google/Meta (software). Ik zou er mijn geld niet op inzetten...

Xfade @CharlesND • 13 februari 2026 18:03

maar heel veel investeerders zien die combo van Cerebras (hardware) en Open AI (software) vs Nvidia (hardware) en Google/Meta wel zitten

demianmonteverd @johnbetonschaar • 13 februari 2026 14:04

Openai heeft geinvesteerd in cerberas.

Defspace @Scribe • 13 februari 2026 12:46

Dat is wel een heel erge appels met peren vergelijking. Maar om die voor de lol toch door te trekken.

900000 cores / 6144 cores = ~145 AMD W7900's nodig.

145x300W = 43kW
145X3000euro = 435k

Coolstart @Scribe • 13 februari 2026 13:59

Snel is leuk, maar man wat een gigantische overkill voor dit model. Heeft OpenAI echt zo veel geld er door te branden

Wat is dat nu voor een rare reactie. Waarop basseer je u dat Open AI de rekenkracht niet kan gebruiken? Ze hebben best wel wat zakelijke klanten die AI flows met agents aan het bouwen zijn.

Is volgens uw informatie Nvidia dan beter, goedkoper of zuiniger voor inference?

Dan klaag je not over het gebrek aan geheugen. Het betreft extreem (meerdere petabytes/sec) snel geheugen voor inference.

En waarom hoop je dat OpenAI de investering terugverdient, heb je andere info die het onkracht? Tewijfel je over het geheugen? Misschien te weinig? Of klets je maar wat.

Scribe @Coolstart • 13 februari 2026 14:11

Nvidia, AMD of zelfs Intel GPUs zijn een stuk zuiniger en goedkoper voor inference, het enige voordeel wat deze Cerebras chips hebben is extreem hoge inference snelheid.

Verder gebruiken ze alleen SRAM en geen DRAM, wat dus betekent dat je voor zo een stroomvretende chip een stuk meer betaalt dan voor gewoon een GPU met meer, maar trager DRAM.

Mijn vraag is meer of er echt iemand is die zo veel geeft om net iets snellere inference voor zo veel hogere stroom en chipkosten. Is 2x snellere AI modellen 10x de prijs waard voor OpenAI? Of krijgen ze die chips gratis van Cerebras voor marketing? Geen idee, maar daarom vraag ik mij wel af of dit het geld echt waard is voor OpenAI.

Pinkys Brain @Scribe • 13 februari 2026 17:26

Met RELU modellen is Cerebras zuiniger dan NVIDIA als we ze mogen geloven, wat ik doe. In open weight modellen word RELU nu niet meer gebruikt, maar de voordelen van moderne alternatieven zijn miniem. OpenAI specialiseert het model natuurlijk voor de hardware.

Je kan je voorstellen dat modellen nog andere eigenschappen hebben die dense batched matrix vermenigvuldiging inefficiënt maakt, wat NVIDIA/AMD nodig hebben ... dat is waar Cerebras zijn voordeel haalt.

Over het algemeen op hyperscaler niveau, komen ze om in gedistribueerd geheugen ... maar er is nooit genoeg geheugen bandbreedte (hele grote batches nodig om bandbreedte niet de limiterende factor te maken, maar grote batches is makkelijker gezegd dan gedaan).

[Reactie gewijzigd door Pinkys Brain op 13 februari 2026 17:32]

Quacko @Scribe • 14 februari 2026 00:03

Ik kan me perfect voorstellen dat trading AI's die nu vollop aan het opkomen zijn hier enorm bij kunnen benefiten om bet sneller te traden en te cashen. Ennatuurlijk ook chatgpt die vollop eigen code schrijft voor berekeningen te doen kan zo live sneller code schrijven.

GewoonWatSpulle @Scribe • 13 februari 2026 13:00

Heeft OpenAI echt zo veel geld er door te branden of is het de moeite waard om tientallen tot honderden malen meer geld uit te geven voor wat meer tokens per second?

Ja en nee, ze willen een low-latency oplossing aanbieden en dat gaat vooralsnog niet anders dan met deze oplossing, jouw multi-node voorbeeld kent alleen al op hardware vlak een enorme latency, laat staan op het niveau van de software die daar bovenop draait.

Het zal vast niet de bedoeling zijn dat iedere developer een gpt-5-codex-cerebras chat gaat starten op termijn. Op andere afdelingen van OpenAI zijn ze gewoon bezig met betere, gespecialiseerde, gedistilleerde modellen etc.

[Reactie gewijzigd door GewoonWatSpulle op 14 februari 2026 13:17]

Pinkys Brain @GewoonWatSpulle • 13 februari 2026 17:00

Ik vind latency een vervelend gekozen woord door OpenAI om lage response time aan te duiden. Nou zijn ze natuurlijk groot genoeg om dat door te douwen, dus ik vecht tegen de bierkaai, maar toch vervelend.

Nu als iemand naïef aanneemt dat het ongeveer zo werkt als latency in netwerk verkeer, zitten zij er naast (het equivalent van latency in netwerk verkeer voor LLMs is time to first token).

GewoonWatSpulle @Pinkys Brain • 14 februari 2026 10:37

Ja en dat word ook bedoeld, time-to-first-token, wanneer begint het antwoord, én tokens per seconds, hoe snel volgt de rest van het antwoord.

Deze prestaties lijken mij dan ook een niche toepassing want als ik zie met welke snelheid de huidige modellen lappen tekst als antwoord genereren dan wens ik geen extra snelheid.

Bij het genereren van code wil ik liever duiding en overweging in plaats van snelheid en volume en met generieke vragen wil liever meer interactie voordat er een lap tekst komt waar te veel en te weinig in staat.

Pinkys Brain @GewoonWatSpulle • 14 februari 2026 12:54

Voor programmeren maakt time to first token niet uit, dat is alleen belangrijk als je de illusie van chat wilt en time to first token heel hoog oploopt.

Zelfs als het secondenwerk is dan maakt voor een nuttig blok code nog bijna niks uit voor de time to last token. Dus in netwerk termen, latency maakt bijna niet uit, het is bijna puur single stream throughput wat belangrijk is. Om de response time dan latency te gaan noemen is nodeloos verwarrend.

@Scribe • 13 februari 2026 14:32

1000 tokens per seconde is best rap.

Een 140W / 6.144 core NVIDIA DGX Spark haalt met qwen3-coder-next op int8 ongeveer 40 tokens per seconde.

Wat doet de 300W AMD workstation?
(de nvidia dgx spark heeft ook een zeer snelle 20 core cpu, usb-c, wifi7, 10GB netwerk aansluiting, meer dan 2x zo veel geheugen en OS-licentie vandaar de €900,- meerprijs).

[Reactie gewijzigd door djwice op 13 februari 2026 14:41]

Bas-w @Scribe • 18 februari 2026 12:01

Hoop dat ze de overige 36% van het waferoppervlak nog gebruiken voor de productie van wat geheugenchips…

Sponge 13 februari 2026 13:03

Ik gebruik nu Codex een weekje of twee. En ik ben eigenlijk wel onder de indruk van de resultaten. Gebruik het wel via de terminal, wat een beetje primitief werkt soms.

Ik programmeer al ~20 jaar in vele programmeertalen, hardware, GPUs. Vraag mij serieus af hoe mijn carriere er had uitgezien als dit soort AI tools 15 jaar geleden bestonden. Zou ik zo lui zijn geworden? Zou ik de echte "in depth" kennis hebben van zaken die ik nu heb? Want die Codex.. het maakt je leven toch wel een stuk eenvoudiger, dat ik mij toch wel oprecht afvraag of ontwikkelaars over een paar jaar nog wel hetzelfde werk doen.

Junioren skippen die "in depth" kennis en doorlopen van de code, want ironisch genoeg, mijn grappige statement die ik vroeger vaak hanteerde "als het compileert, dan werkt het

" wordt nu iets te letterlijk genomen (geen validaties).

[Reactie gewijzigd door Sponge op 13 februari 2026 13:03]

Wolfos @Sponge • 13 februari 2026 13:29

Het is inderdaad wel een afweging ja. Je bent duidelijk sneller klaar, en als ervaren programmeur kan je dan vrij gemakkelijk nog de laatste puntjes op de i zetten. Maar ik kan me voorstellen dat je heel wat kunt bereiken zonder echt te weten wat je doet, en dan kom je later in de knoop wanneer de LLM het ook niet meer weet.
Want je bent zelf verantwoordelijk voor de architectuur, en voor debugging. En dat moet je wel kunnen.

Wozmro @Wolfos • 13 februari 2026 13:56

Als niet-programmeur ga ik nu misschien kort door de bocht maar zal er dan in de opleidingen niet meer nadruk gelegd worden op de architectuur en andere delen van 'het grote plaatje'?

Een programmeur van vandaag is toch ook niet meer dezelfde als die van 50 jaar geleden toen ze nog gaatjes moesten perforeren in de ponskaarten?

Sponge @Wolfos • 13 februari 2026 13:33

Dat klopt, maar die Codex heeft maar een paar kleine fouten gemaakt tot nu toe (wat expliciete casts (c#) vergeten, en een functie die een ref ging aanpassen, terwijl dat niet mag in een lambda. Verder nog geen andere groot issues gevonden, die ik bij ChatGPT normaal wel snel had.

roelboel @Sponge • 13 februari 2026 13:17

Heb je ook Claude Opus 4.5 gebruikt, bv. via Cursor? Dat was voor mij het omslagpunt van scepticus naar gelovige.

barbarbar @Sponge • 13 februari 2026 13:20

Hier dezelfde ervaring en dezelfde vragen. Moet wel zeggen dat ik al een paar jaar weinig zin meer had in het programmeren zelf, maar dat is nu wel weer terug gekomen. Juist doordat het ellenlange uitzoeken van weer een nieuw framework en code tikken op de achtergrond verdwijnt. Juist het bezig zijn met wat de code moet doen, en niet zozeer meer de code zelf tikken, brengt weer wat plezier in het programmeren.

AOC @Sponge • 13 februari 2026 15:41

Zelf nog nooit geleerd om te programmeren, echter onlangs een los eInk schermpje besteld icm esp32. Mijn doel was om de weersvoorspellingen van de komende 7 dagen te tonen op het display.

Met de kant/klare oplossingen (icm abonnementskosten / license per apparaat) was ik niet tevreden.

Nu m.b.v. Figma een ontwerp in elkaar geprompt (geen idee of dat de makkelijkste route is). Van dit ontwerp een .png gemaakt, en deze in chatgpt gegooid, en daar weer gevraagd om het zodanig te programmeren dat het ontwerp + de gevraagde info getoond wordt met een bepaalde refresh frequentie.

Nou gaat dat niet in 1x pixelperfect, en mijn prompts zijn ook niet de beste, maar met enkele avonden pruttelen is het gewoon gelukt.

Trots ben ik niet haha, toch het gevoel dat ik gewoon andermans werk aan het knippen/plakken ben, maar ik vind dit echt enorm indrukwekkend

[Reactie gewijzigd door AOC op 13 februari 2026 15:43]

brutus0 13 februari 2026 12:36

die chip is sneller en groter dan mijn hoofd.

hooibergje @brutus0 • 13 februari 2026 12:46

Je hoofd is nog steeds heel veel sneller. Tof, he? En daar heb je meteen de storage bij inbegrepen.

poktor @hooibergje • 13 februari 2026 13:33

En je hoofd hallucineert niet. Tenminste, dat hoop ik voor je.

@poktor • 13 februari 2026 13:43

Ik hoop juist dat die dat wel doet, want je krijgt zo veel informatie binnen dat het wel selectief moet zijn in wat het gebruikt. Daardoor vallen er weer gaten in je waarneming, die je door middel van (een soort van) hallucinatie opvult. Denk alleen maar aan de blinde vlek; als je een tekst aan het lezen bent en er zit precies op dat punt een letter of woord, weten je hersenen aan de hand van de context dat netjes voor je in te vullen.

brutus0 @hooibergje • 13 februari 2026 13:20

oh weetje wat nog beter is dat er ook ram in zit die zal ook niet te betalen zijn voor deze chip. bij mijn hoofd was het gewoon inbegrepen wat een service

Powerblast @hooibergje • 13 februari 2026 16:33

Vraag me eigenlijk af hoeveel TB een menselijk geheugen zou zijn als je het in bytes zou kunnen uitdrukken

. Het lijkt bij sommige soms echt een eindeloos grote HDD.

poktor @Powerblast • 13 februari 2026 17:57

ik heb me wel eens laten vertellen dat het menselijk geheugen enkele petabytes kan omvatten. Maar veel daarvan is enkel toegankelijk door middel van associatie. Oftewel: je herinnert je niets specifieks, maar door het zien van een bepaalde foto of voorwerp o.i.d. komt die data ineens weer tevoorschijn.

Quacko @hooibergje • 14 februari 2026 00:06

Je hersenen zijn dan ook 3d 'staxked' en qua volume dus veel groter :-)

ALittleTooLate @brutus0 • 13 februari 2026 12:52

Dat van die snelheid en grootte weet ik niet. De chip heeft in ieder geval wel een betere look.

brutus0 @ALittleTooLate • 13 februari 2026 13:21

WOW en bedankt je hebt mijn hoofd niet eens gezien.

maar met pijn in mijn hart denk ik dat je gelijk hebt

itcouldbeanyone 13 februari 2026 13:04

Ik weet dat ze na een zware berekening, een paar dummy berekeningen doen, en dat langzaam afschalen, omdat er circa 300.000 Amperes lopen, en het kleine beetje inductie van de powertraces genoeg is om een spanningspiek te veroorzaken welke de chip direct kapot maakt.

killercow @itcouldbeanyone • 13 februari 2026 14:47

Dat lijkt me echt heeel sterk. 200k amp is al een serieuze bliksem, en tenzij je de chip op millivolts weet te draaien kom je ongeacht het oppervlak van de chip uit om dit te verwerken verdampt je silicon mogelijk direct.

Ik verwacht dat je er in ieder geval een factor 20 naast zit, en waarschijnlijk meer.

[Reactie gewijzigd door killercow op 13 februari 2026 14:51]

itcouldbeanyone @killercow • 13 februari 2026 18:54

Sorry zat er iets naast, 20.000 Amp.
De rest van me verhaal klopt wel.
https://spectrum.ieee.org...-speed-barrier-2650279434

hooibergje 13 februari 2026 12:29

Op zich heb ik ook nog wel rekenwerk liggen wat parallel kan over 900.000 simpele cores (een miljard threads, so room to spare). Als dit soort hardware mainstream wordt, dan doe mij er ook maar eentje.

wiseger @hooibergje • 13 februari 2026 12:53

Vergeet niet eerst uw stroom aansluiting op te waarderen. Voor 15-20 Kw heeft u minimaal een 3-fase 35 ampère aansluiting nodig. Aangezien die wel aan de krappe kant is, zou eerder een 3-fase 50 ampère aansluiting nodig zijn, in de volksmond ook wel winkelaansluiting genoemd.

divvid @wiseger • 13 februari 2026 13:03

who cares, het staat gewoon in een datacenter van Microsoft. Die krijgen namelijk wél een stroom aansluiting op het overvolle net, maar de gewone man uiteraard niet. Verschil moet er wezen zijn

Bas_f @divvid • 13 februari 2026 13:13

Je wordt gedownmod, maar je hebt volkomen gelijk. Deze week twee artikelen:

nieuws: Stroomnet in Flevoland, Gelderland en Utrecht zit overvol, aansluitstop dreigt

https://www.nu.nl/klimaat/6385416/datacenter-slurpt-straks-meer-stroom-dan-heel-lelystad-raad-wist-van-niks.html

Of deze, van twee weken geleden:

nieuws: Microsoft omzeilt verbod met truc en mag grote datacenters bouwen in Amsterdam

Dat is toch niet meer te verkopen? Huizen krijgen straks geen aansluitingen meer, wij moeten onze auto maar 's nachts opladen, of de vaatwasser programmeren, maar ondertussen worden hyperscalers uit de grond gestampt met truukjes.

com2,1ghz @Bas_f • 13 februari 2026 14:42

Ho jij daar even. Jij bent hypocriet. Je maakt toch gebruik van tweakers en het internet??? Hoezo ben je tegen datacentra? /s

[Reactie gewijzigd door com2,1ghz op 13 februari 2026 14:42]

Lnaisd @com2,1ghz • 15 februari 2026 07:37

Ik denk eerder tegen AI datacenters specifiek die vragen zoveel meer stroom dan een 'normale' datacenter het is gewoon echt ondenkbaar veel stroom dat door doe AI gegooid wordt

Bas_f @com2,1ghz • 16 februari 2026 08:35

Ik ben niet tegen datacentra, integendeel. Ik ben tegen de truukjes die gebruikt worden om de wet te omzeilen en op die manier misbruik te maken van ons elektriciteitsnet.

Ik ben ook niet tegen AI. Maar er moet wel wat gebeuren aan de enorme hoeveelheid energie die dat vreet. En dat gaat ook wel gebeuren, maar zoals met veel dingen, moet dat even op gang komen.

arjankoole @divvid • 13 februari 2026 17:07

who cares, het staat gewoon in een datacenter van Microsoft. Die krijgen namelijk wél een stroom aansluiting op het overvolle net, maar de gewone man uiteraard niet. Verschil moet er wezen zijn

Iemand bij microsoft vertelde het verhaal dat ze aan het worstelen zijn geweest met infiniband over regions heen.

omdat, als ze alle hardware in 1 region zetten, het stroomnet van die staat uitviel.

@wiseger • 13 februari 2026 12:58

Ah gewoon beetje undervolten joh

hooibergje @wiseger • 13 februari 2026 13:05

Ik mik 'm wel stiekem in een hoekje van het serverhok. Daar is stroom genoeg.

wiseger @hooibergje • 13 februari 2026 13:08

Ik zou hem in de keuken plaatsen, dan heeft u geen keramische plaat meer nodig

hooibergje @wiseger • 13 februari 2026 13:15

Waterkoeling... met pasta.

Ik ken wel iemand die zijn tropische aquarium verwarmde met een computer. Dat werkte prima

HSG 13 februari 2026 13:08

Des te makkelijker wordt het straks om alle dure softwareontwikkelaars op straat te gooien.

divvid @HSG • 13 februari 2026 13:17

om ze daarna weer als ZZPer in te huren om de fouten er uit te vissen.

HSG @divvid • 13 februari 2026 17:12

AI kan van zijn fouten leren dus waarom zou je nog mensen in dienst nemen.

divvid @HSG • 14 februari 2026 15:42

Ik hoop dat je dit cynisch bedoeld.

AI kan niet instantaan van fouten leren. Mensen!!! kunnen aangeven dat de gegenereerde code fout is. Die aanpassing wordt in het volgende model opgenomen, zonder garantie overigens dat de fout niet meer terug komt. Een junior dev die door een senior op een fout gewezen wordt, maakt deze fout direct niet meer (hoop ik). Met een beetje geluk leert hij/zij ook nog andere fouten herkennen en groeit daarmee richting senior.

HSG @divvid • 15 februari 2026 10:49

AI kan het meteen oplossen. Iets waar een mens dagen over doet.

Dus tsja... waarom zou je nog de ontwikkelaars nodig hebben. Kost tijd en geld wat je flink kan besparen.

Barsonax @HSG • 13 februari 2026 13:35

Gaat niet gebeuren want die doen toch echt wat anders dan wat deze modellen kunnen, al zouden ze er nog 100x meer rekenkracht tegenaan gooien. Code was al langer niet de bottleneck.

Bedrijven die wel al hun software engineers eruit gooien zullen daar snel achterkomen, mja of het op tijd is...

HansvDr @Barsonax • 13 februari 2026 14:58

Als je goed weet wat je wilt kan Codex echt heel veel werk uit handen nemen. Ik factureer voor mijn softwarewerk nu nog hetzelfde maar doe het in veel minder tijd :-). Mocht de rest ook zo snel gaan straks dan heb ik nog ruimte genoeg om de facturatie te verlagen :-)

Sm0k3r @HansvDr • 13 februari 2026 15:01

Shhhhhhhhh 😜

divvid @HansvDr • 16 februari 2026 09:02

wat dus een race to the bottom genereert. De mindere goden onder de devs zullen óók hun tarieven verlagen, maar de code kwaliteit zal dan achteruit hollen omdat ook jij voor het factuur bedrag geen tijd meer zult hebben om alle code te kunnen controleren.

Uiteindelijk is JOUW klant dus de dupe.

Dit is al in zoveel industrieën gebeurd. Klassieke valkuil.

HansvDr @divvid • 16 februari 2026 12:49

Ik moet elke maand mijn hypotheek betalen met mijn werk. Ik kan nu echt heel erg veel meer doen in dezelfde tijd.

Mochten steeds meer mensen dat gaan doen dan ben ik ondernemer genoeg om iets anders te gaan doen.

mugenmarco 13 februari 2026 13:00

Hij houdt wel een hele grote vast in zijn handen (pun intended)

oks 13 februari 2026 13:09

Wat denk ik veel mensen niet door hebben is hoeveel gebruikers je met deze chip tegelijkertijd kunt verwerken. Dat is dus waarschijnlijk ongelofelijk. Dus per user 1000 tokens per seconde maal x tegelijkertijd. Volgens mij. Het is zoiets als vLLM: het kan meerdere agents tegelijkertijd bedienen. Nou dit is dus waarschijnlijk de non plus ultra ultra...

Cyberpuppy 13 februari 2026 13:53

Ik zie dat de belangrijkste vraag nog niet is gesteld.

Can it run doom?

Lnaisd @Cyberpuppy • 15 februari 2026 07:41

Ik zou zeggen probeer het uit maar ik denk dat de stroom dan uit zou vallen😅

Cyberpuppy @Lnaisd • 15 februari 2026 17:48

Dan moet ik nog even geduld hebben. Bij ons in de regio kan ik een dergelijke verzwaring van de groepenkast niet aanvragen.

13 februari 2026 14:04

Zouden ze dit model ook binnenkort vrij gaan geven voor lokaal gebruik op de DGX Spark van NVIDIA? Gezien de naam en het eerder ook al vrijgeven van gpt-oss in 20b en 120b. Zie ook nieuws: OpenAI brengt AI-model uit dat lokaal kan draaien met 16GB VRAM.

Extra context gpt-oss is een model dat net als qwen3-coder-next lokaal gebruik kan worden met Anthropic Claude Code (= de beste ontwikkelomgeving voor programmeren met AI op dit momeng) via ollama launch. Aangezien het nieuwste Qwen-model beter is in programmeren dan gpt-oss, is het wellicht tijd om vanuit OpenAI een opvolger van gpt-oss voor programmeertaken uit te brengen.

ollama launch claude --model gpt-oss:20b

ollama launch claude --model qwen3-coder-next

De 44GB VRAM van de 900.000 core Cerebras is daar wel een indicator voor. Al zul je met 1/125 van de rekencapaciteit op de DGX Spark natuurlijk geen 1.000 tokens per seconde halen, maar wellicht 8 tokens per seconde (~ 360 woorden per minuut) bij gelijke snelheid van de architectuur.
Qwen3-coder-next haalt 40 tokens per seconde (~1.800 woorden per minuut) op een DGX Spark en het model is even groot als GPT-5.3-Codex-Spark. Dus ik ben benieuwd.

[Reactie gewijzigd door djwice op 13 februari 2026 14:19]

Om te kunnen reageren moet je ingelogd zijn