OpenAI's programmeeragent Codex is sneller en kan grotere taken aan

OpenAI heeft GPT-5.3-Codex aangekondigd, een verbeterde versie van de programmeeragent. De 5.3-versie is tot 25 procent sneller en kan grotere taken aan dan de voorgaande versie. De nieuwe variant geeft ook meer updates tijdens het verwerken van opdrachten.

Het verbeterde model kan beter programmeren en redeneren en heeft meer professionele kennis, claimt OpenAI. Daardoor is de programmeeragent tot 25 procent sneller dan de 5.2-versie en kan deze ook taken aan die langer duren en complexer zijn, stelt het bedrijf. Codex kan onder meer gebruikt worden om websites te bouwen, games te ontwikkelen en presentaties te maken.

De verbeterde agent begrijpt bijvoorbeeld beter wat de gebruiker vraagt, waardoor ook eenvoudigere prompts tot betere resultaten leiden, claimt het bedrijf. Het model geeft tijdens het verwerken van prompts ook updates over wat Codex wil doen. Daardoor kunnen gebruikers tijdens het verwerkingsproces vragen stellen of discussies aangaan met de chatbot om het verwerkingsproces aan te passen. Zo hoeven gebruikers niet te wachten tot Codex klaar is om het resultaat aan te kunnen passen, stelt OpenAI.

OpenAI gebruikte GPT-5.3-Codex ook om het model zelf beter te maken. Zo vroeg het onderzoeksteam de agent om bugs in de gaten te houden en op te lossen, of om patronen te herkennen tijdens trainingen en deze te analyseren. Dit zorgde er volgens OpenAI voor dat GPT-5.3-Codex sneller gemaakt kon worden.

GPT-5.3-Codex is per direct beschikbaar voor ChatGPT-abonnees die al toegang hebben tot Codex. De agent is dus beschikbaar in de app, in de terminal, VS Code en web. Api-toegang volgt nog.

GPT-5.3-Codex

Door Hayte Hugo

Redacteur

06-02-2026 • 15:26

51

Submitter: TwistedMindNL

Reacties (51)

Sorteer op:

Weergave:

ik gebruik deze tools ook. Waar het nog vaak fout gaat is bij b.v. net nieuwe versies van b.v. frameworks waarin veel is veranderd. Dan wordt code gegenereerd voor de vorige versie (b.v. Tailwind 3 vs 4 al gaat dat nu beter) of zelfs functies uit branches die de main release niet hebben gehaald. Dat soort fratsen kan nog wel wat scherper.
Die gebruikt standaard telemetry "to improve the product" https://github.com/upstash/context7/blob/e49e41819fb3a519600b0353ad821a8cb5a8eb18/packages/cli/src/utils/tracking.ts#L4

Lijkt me iets om voorzichtig mee te zijn, ook al is er opt-out.
Leuke link, maar waarom niet gewoon een AI gebruiken die dat uit zichzelf doet?
Omdat een AI model dat (nog) niet automatisch uit zichzelf kan. Het is de tooling rond het AI model die de versie/context en bronnen afdwingt.
vreemd want dat ik heb er een die dat wel kan
Een model, of een tool/cli?
Is er een verschil? Een product komt als model met tools. Augementcode heeft verschillende modellen gecombineerd met allerlei tools die dat ding gebruikt om zijn werk te doen. Ik heb hem vandaag zelfs een hex file voor een microcontroller gegeven en daar kwam hij nog uit om te reverse engineren. Docu vinden lukt hem ook wel.

Maakt mij wat uit hoe ze het doen, zolang het maar automatisch doet wat ik nodig heb. Zonder extra spullen te installeren of aan te schaffen.

[Reactie gewijzigd door bzuidgeest op 6 februari 2026 16:49]

Fair enough, dat werkt ook. Maar je betaald dan ook wel voor die service ( https://blog.kilo.ai/p/testing-augment-codes-new-credit ).

Als je de juiste skills / context weet te combineren scheelt dat wel bij groter gebruik.
20 dollar voor de indie per maand. Nauwelijks meer dan netflix. Er was ooit een free tier, maar die zie ik niet meer. Mogelijk val je daar nog steeds naar terug na de free trail. Geen idee. onder subscriptions panel kan ik er nog naar terug, maar mogelijk ben ik "legacy"

Maar goed, het is echt niet de enige die zoiets kan. Ik ga er van uit dat claude code e.d. het ondertussen ook kunnen al heb ik die nog niet geprobeerd.
Daarom gebruik ik zelf augment code. Die gaat gewoon zelf even op het internet kijken voor de documentatie als hij merkt dat zijn kennis out of date is. Er zullen vast ook wel anderen zijn die dat doen. Augment heeft ook een semi lokale context/index engine die zorgt dat hij heel goed overzicht heeft over je grotere projecten.
Het is verre van perfect net als al die andere bedrijven hun LLM's maar het kan best wat bruikbaars.
ik ga er eens naar kijken. $20 is best wel een forse investering voor iets dat onder non-profit/goodwill geprogrammeerd wordt.

We vonden het overigens wel verontrustend dat, in dit geval copilot, code gebruikte uit een private repo van de ontwikkelaar (zit toevallig een deurtje verder). Wellicht 'gelekt' toen hij aan zijn eigen private repo werkte???? Zou niet moeten kunnen, maar is niet te controleren.
Dat de repo private is, zegt niet alles. Indexing gaat/kan alleen uit als hij een enterprise abbo heeft of zo. Alle freeloaders :) (dat is inclusief ik wat github betreft) worden door de AI uitgelezen dacht ik, private of niet.


En vergeet niet de meest praktische weg naar rome is er maar 1 voor elke situatie. Code die op elkaar lijkt is enorm waarschijnlijk. Ik zit er niet zo mee. Code zou geen (patent/octrooi) bescherming moeten hebben wat mij betreft. Ik verkoop niet mijn code, ik verkoop mijn kennis. Een ander zonder kennis kan die code toch niet onderhouden of supporten.


Tja, je kan altijd informeren of ze een gratis licentie kunnen verstrekken aan een (officieel) goed doel/ non profit. In het begin deden ze ook gratis licenties voor open source. Geen idee of ze dat nog steeds doen.

[Reactie gewijzigd door bzuidgeest op 9 februari 2026 16:49]

ah, dat zal het zijn, nou ja, het is ook wel een niche tool. Maar je had het gezicht van die dev moeten zien toen ik aan kwam zeilen met een stukje van zijn 'private' gepruts.
Waar het ook fout gaat als je iets gebruikt wat niet veel gedaan wordt en de AI bijna nergens van kan leren.

Mijn python projectje gaat als een tierelier, maar het automatiseren van een Ubuntu 24.04 installatie heeft geen enkele AI me vlekkeloos mee kunnen helpen. Ze komen allemaal vooral met antwoorden hoe het moest met Ubuntu 18.04 of 20.04 terwijl 24.04 al bijna 2 jaar uit is.

ChatGPT, Gemini, Claude, Microsoft Copilot en zelfs Grok. Allemaal op de thinking modus.
Ik heb net een uitgebreide presentatie gehad over het gebruik van AI voor coding. De conclusie was dat het kan, maar dat het nu nog geen tijdsbesparing oplevert. M.n. het krijgen van "nette" en efficiente code vraagt best ook wel wat skills van degene die de prompt schrijft. In de ideale wereld zou een duidelijke en eenduidige requirement voldoende moeten zijn om de juist code te krijgen maar nu gaat de meeste tijd nog zitten in het optimaliseren van de code die AI maakt. Aldus de professor die dit heeft onderzocht. Maar je zou zeggen dat het uiteindelijk langzaam beter moet worden, hoe vaker het wordt gebruikt en gecorrigeerd.

[Reactie gewijzigd door R_Zwart op 6 februari 2026 17:05]

Interessant. Ik heb ook (binnen het softwarebedrijf waar ik werk) een uitgebreide presentatie gehad van iemand die bij Meta werkt en die stelde dat ze nog maar 10% van hun code zelf schrijven. De verregaande integratie en tooling die Meta zich kan veroorloven is ook wel indrukwekkend, evenals alle automatische analyze (vaak óók weer door AI) van de gemaakte code. Ik ben absoluut geen fan van Meta maar het is duidelijk dat ze hier vol voor gaan en dat het vruchten oplevert. En dit zijn echt geen beginnende coders, inclusief degene die de presentatie gaf, maar net als ik mensen met decennia aan development ervaring.
Wat ik me dan afvraag is wat de insteek van die presentatie was. Als die commercieel was, dan snap ik dat ze wat overdrijven. Ik kan gewoon bijna niet geloven dat 90% van de code door AI gegenereerd wordt, gezien de limitaties van llm's. Als dingen wat ingewikkelder of obscuurder worden, krijg je een mooi, niet kloppend verhaal.
Het kan prima zijn dat ai 90% van de code genereert maar is dat ook 90% van wat er bereikt moet worden?

Code regels tellen is geen effectief meetinstrument om werk aan te duiden. Nadenken en weten wat je moet hebben is makkelijk 90% van de tijd.

AI zorgt dat je niet altijd begrijpt wat er geschreven wordt en dus moeilijker kan oordelen of iets correct is. Kennis van de taal is essentieel om te programmeren, als je 90% genereert is AI is eerder een hindernis hierin dan een hulpmiddel en neemt je effectieve snelheid dus alleen maar af.

Ik probeer, “dwing” mijzelf, AI te gebruiken om niet achter te raken in het programmeren maar het is nog maar zelden dat ik echt snelheidswinst heb. Ik irriteer mij vooral aan de onzinnige en opdringerige autocomplete die vaak de plank compleet misslaat. De klassieke autocomplete puur op basis van je codebase wat vele malen beter.
Ja, die autocomplete is vaak overbodig. Maar met Ask of Agent kun je een LLM vragen om iets te genereren. Dat kan boilerplate zijn of echt een nieuw stuk functionaliteit.

Ikzelf laat een AI beperkt zelf aanpassingen doen, maar regelmatig vraag ik hoe ik bepaalde dingen zou kunnen doen. De LLM komt dan met een suggestie, die ik kan kopiëren. En regelmatig doe ik dat ook. Misschien zet ik het dan niet op de plek waar de LLM dat zou doen, maar het is wel LLM gegenereerde code. Vergeet niet, de LLM bevat vele voorbeelden van code. Veel van wat je doet, is al eerder gemaakt. Dus kun je vragen hoe het in andere systemen is gedaan of wat de "best practices" zijn voor een bepaalde functionaliteit en hij komt met een (bruikbaar) antwoord terug.
Tja bedrijven roepen wel vaker onzin. Vermoed dat dit een commercieel praatje was om toch een bepaald verhaal te verkopen. Met de huidige kwaliteit van AI ga je niet bijna alles door AI laten doen voor serieuze projecten. Uiteindelijk zul je al die code ook moeten begrijpen anders krijg je wat met moltbook gebeurde.
Gezien de kwaliteit van facebook en de enorme investeringen in de metaverse die niets opgelverd hebben denk ik niet dat hun developers erg goed zijn. Decenia ervaring maakt je niet automatisch een goede developer. Ik geloof best dat ze zichzelf fantastisch vinden, maar ook dat zegt niets.
Tja beetje flauwe reactie. Als je in de softwarewereld zit dan weet je ook wel dat de FAANG bedrijven erg goed staan op je c.v. en dat de dingen die dat soort bedrijven moeten doen op de schaal waarop ze opereren echt niet simpel zijn. En dat je nou developers de schuld zou geven van een mislukt metaverse ipv gewoon een verkeerde inschatting van de markt… tja daar kan ik ook niet helemaal bij. Tenzij je wil stellen dat het mislukt is door de bugs.
De ontwikkelingen gaan idioot snel, voor opus 4.5 en codex 5.2 zou ik je gelijk geven. Het coden voordat deze modellen er waren was hit en miss. Maar nu is het idioot hoe goed de output is. Ik zou je adviseren om het zelf te proberen en dan nog eens te oordelen.
Het hangt er vanaf wanneer die presentatie in elkaar gevouwen is, want de ontwikkelingen de afgelopen twee maanden zijn ontzettend snel gegaan.

Als je een goede werkwijze hebt gevonden dan bespaar je nu zeker wel tijd. Vorig jaar had je een half competente stagiair die vooral nuttig was voor code completion. Nu heb je echt wel een snuggere junior die met de juiste instructies heel ver kan komen.

Een deel van de kracht zit hem er ook nog in dat je deze juniors 24/7 aan de slag kan zetten zonder dat ze moe worden.

[Reactie gewijzigd door Karel Anjer op 7 februari 2026 00:54]

Maarja, laten we eerlijk zijn, dat is mijn ervaring ook met menselijke coders, ken helaas teveel mensen die prut opleveren, ja het werkt maar is niet fatsoenlijk onderhoudbaar of leesbaar, en daar ben ik dan ook net zo goed veel tijd aan kwijt om het fatsoenlijk te krijgen. Verschil is dat AI die prut in een paar minuten heeft geschreven, waar die menselijke coder weken over heeft gedaan, en daarmee is dus die code van AI een stuk goedkoper.
Door middel van Agents, Instructions en Skills kun je standaard een verduidelijking of instructie meegeven hoe de LLM moet gedragen. Hierdoor is het niet volledig afhankelijk van de prompt die je schrijft. Die extra informatie wordt dan ook meegenomen. Hierdoor krijg ik best goede suggesties welke ik kan overnemen.

En een belangrijke aandachtspunt; zorg dat je je aanpassing klein houdt en maak gebruik van de verschillende modi. Niet "maak een app", maar "voeg functionaliteit x toe". En gebruik Ask, Edit of Agent-mode om die wijziging door te voeren. Als je niet goed kan prompten, vergeet niet, je kan ook de LLM vragen om een prompt op te stellen. Die kun je dan tweaken en gebruiken om de aanpassing door te voeren. En klein en gericht, zodat de LLM alles binnen zijn context kan houden en dus niet gaat lopen hallucineren.
Ik heb geen presentatie gehad maar gebruik codex in VSCode. Het is bizar hoeveel tijd ik nu bespaar
Codex werkt niet hetzelfde als Claude Code, of wel?

Heb dat zelf nooit echt begrepen. Ik gebruik zelf Claude Code en vind het super fijn. Maar ik vraag me af of Codex ook bij mijn workflow past.
Codex heeft een ook een CLI en kan werken zoals CC ook doet.
Jawel, ik gebruik Codex en Claude Code door elkaar, allebei in de terminal in de IDE's van Jetbrains. Claude Code gebruik ik voor de basis op te zetten en dan Codex om verder te borduren, kwaliteit is uitstekend van Codex ook. Heb zelfs ook nog Mistral Vibe in de terminal geïnstalleerd. Maar de kwaliteit daarvan vind ik niet zo denderend.
Ik moet wel zeggen dat Opus 4.5 en Opus 4.6 geweldige modellen zijn voor plannen en 4.5 voor de uitvoer, als je plan maar heel strak is.
Jij gebruikt de API van Claude?
Ook! Als ik een 1m contect window nodig heb.
Ik krijg momenteel het beste resultaat met de task uit te werken op Sonnet 4.5, plan uitwerken op Opus 4.5 en Chatgpt 5.2 (apart), valideren + combineren op Sonnet (en zelf nalezen). En vervolgens uitvoeren op Opus 4.5 (nog niet met opus 4.6 gewerkt).
Ook een goede strategie inderdaad. Het hangt vooral van je prompting af.
Hoe vergelijkt Codex met Opus 4.5? Met name op het gebied van jouw codebase begrijpen en aanpassingen kunnen doen.

Ik zelf gebruik geen Sonnet, maar dat komt ook omdat ik het Max abonnement heb en niet elke dag code schrijf. Dus ik kom nooit aan het limiet.
Hoe vergelijkt Codex met Opus 4.5? Met name op het gebied van jouw codebase begrijpen en aanpassingen kunnen doen.

Ik zelf gebruik geen Sonnet, maar dat komt ook omdat ik het Max abonnement heb en niet elke dag code schrijf. Dus ik kom nooit aan het limiet.
Heel goed! Ik switch regelmatig tussen die twee, zeker als van Claude mijn sessieusage weer tegen het einde aan loopt. Dan stap ik over naar Codex en ga door met prompten, hij leest eerst de juiste bestanden, maakt een analyse en gaat vervolgens aanpassen. En zo ook andersom als ik van Codex naar Claude ga. en dit gewoon in hetzelfde project. Ben nog niet tegen problemen aangelopen dat die zich raar heeft gedragen.

in vergelijking met 5.2 is 5.3 wel megasnel en nog consistenter merk ik.

[Reactie gewijzigd door H.Boss op 6 februari 2026 18:56]

Codex werkt niet hetzelfde als Claude Code, of wel?

Heb dat zelf nooit echt begrepen. Ik gebruik zelf Claude Code en vind het super fijn. Maar ik vraag me af of Codex ook bij mijn workflow past.
Ik ben van ChatGPT Codex naar Claude code overgestapt omdat Claude Code een stuk minder fouten maakt, suggesties geeft en ook als chatbot beter werkt. Grote complexe projecten bouwen gaat met Claude echt een stuk beter.

Sinds gisteren is taalmodel Opus 4.6 beschikbaar en ook daar merk ik weer grote vooruitgangen ten opzichte van 4.5
Tsja, AI blijft Artificiële Imitatie om steroids.

Wat ik me wel afvraag is waarop dit getraind is. Als dit code is onder de GPL licentie zou dat kunnen betekenen dat de gegenereerde code ook automatisch onder de GPL zou moeten vallen, waarmee die dus voor iedereen inzichtelijk zou moeten zijn.

Helaas heeft de FSF de middelen niet om dit soort bedrijven te bevragen/aanpakken, naast het feit dat het politieke en juridische klimaat in de VS momenteel nu ook niet echt aantrekkelijk is voor dit soort dingen.
Dus jij vindt dan dat code die jij zelf schrijft ook GPL moet zijn omdat jij ook geleerd hebt op basis van GPL code....
Als AI kenmerkende onderdelen van schilderijen kan uitspugen, complete passages uit boeken, stukken GPL'd code op basis van een header.....

Daarnaast leert AI niet, het is een statistisch model dat tot een reproductie van (hopelijk) korte fragmenten komt.

Er blijken hier rechtszaken over te lopen, en binnen de OSS wereld wil men innovatie laten voorgaan. Aan de andere kant zijn er ook modellen die expliciet NIET op GPL code getraind zijn, juist om elke mogelijke aansprakelijkheid te voorkomen.

Als er blokken identieke code gegenereerd worden ga je naar mijn mening op zijn minst een grens opzoeken.

Ikzelf zie vooral een mogelijkheid om de macht van big-tech te breken. Als Meta beweert dat 90% van de code tegenwoordig uit AI komt, mag er van mij een audit over de code-base om aan te tonen dat er geen GPL code in zit. Grote kans trouwens dat die er in zit maar dan ook door menselijk toedoen. Vervolgens moet de code openbaar als dat zo is.
En jij denkt dat wij mensen anders leren? Echt niet dus. Ook wij mensen kopieren het ene na het andere dat wij in ons verleden gezien of gehoort hebben, ook wij voegen al die deeltjrs zo samen. Zeker AI gebaseerd op neurale netwerken leten exact hetzelfde als mensen.
Mensen leren door ervaringen opdoen. Een flink deel daarvan is imitatie ja. Wat er echter ook is is een stuk onderzoek en creativiteit. Juist dit stuk maakt het echte brein zo veel krachtiger.

Alle neurale netwerken zijn gedreven door statistiek. In geval van detectie/herkenning om de fouten te minimaliseren, bij generatief om tot een zo goed mogelijk resultaat te komen. Daarom zijn ook die grote hoeveelheden trainingsdata nodig.

Die grote hoeveelheid trainingsdata is ook de valkuil. Doordat een AI model beschikt over zo gigantisch veel fragmenten en bijbehorende statistische koppelingen is er een flinke kans dat er een bestaand stuk code uitkomt wanneer de statistieken allemaal "verkeerd" vallen. Voor kleine stukjes code is die kans klein, maar als je een groot stuk code vraagt om bijvoorbeeld de parsing van een C compiler te doen is de kans groot dat je een resultaat krijgt dat rechtstreeks is overgenomen uit de paar c compilers die in de trainingsdata zitten.

Hier komt het cruciale stuk om de hoek vallen: het besef van goed en kwaad. Een mens gaat bewust om met het concept plagiaat tijdens het creatieve proces terwijl dat voor een AI model alleen als controle achteraf kan en moet.

Terug naar de GPL: het punt hangt er op hoe groot de fragmenten code met GPL besmetting zijn. Kleine stukjes en toeval zal niemand over vallen, dat gebeurt een mens die geen plagiaat pleegt ook. Copilot bijvoorbeeld bleek echter met een kleine hint in de vorm van een header (die eigenlijk alleen maar je functie calls beschrijft) de oorspronkelijke code uit te spugen. Daar ga je duidelijk een grens over zeker wanneer de licentie van die betreffende code niet meegegeven wordt.

Het grootste probleem zit dus in de controle op plagiaat en afspraken over grenzen voor plagiaat specifiek voor AI. Rechtzaken zullen zich hierop (moeten) focussen.

De GPL is hiervoor vanwege zijn besmettelijke karakter erg interessant. Als de 90% AI code bij Meta neerkomt op "kopietje hier, kopietje daar, en zo zetten wij ons product in elkaar", dan hebben ze een groot probleem als hun AI getraind is met GPL data.
Een mens gaat bewust om met het concept plagiaat tijdens het creatieve proces
Dat is natuurlijk kolder, want het hele creatieve proces is juist niets meer dan het aan elkaar rijgen van vanalles dat je in je leven ooit hebt opgedaan. Als je onze evolutie heel statistisch gaat bekijken dan zie je dat dus ook, alles is een voortborduring/samenvoeging van alles wat er al aan vooraf is gegaan en ons weer leert om daarop weer verder te borduren/samenvoegen. En neurale netwerken werken precies zoals ons brein ook werkt, alleen is ons brein een heel wat verder geavanceerd netwerk. Wij zijn ook niets meer dan biologische robots.
Misschien handig om 5.3 in de titel te zetten. Codex zelf bestaat al even namelijk.
Kimi k2.5 zie ik naast Claude Code veel voorbij komen, zou ook een stukje goedkoper/zuiniger qua tokens zijn etc.

Zelf voorzichtig wat bezig met OpenCode en nog weinig met de models geswitched. Er komt best wat uit rollem, maar heel snel gaat het niet altijd en je moet nogal eens wat correcties doorvoeren op de oplossingen die eruit komen. Al met al scheelt het wel dat je modellen hebt die echt voor coden zijn, zou efficiënter moeten zijn dan de grote modellen.

Nog niet genoeg tijd gehad om daadwerkelijk alles eruit te halen wat erin zit...
Ik heb veel Codex gebruikt in Cursor. Maar ik merk toch erg dat ik Codex een stuk korter af vindt en veel meer moet vertellen als dat ik dat met Claude Opus heb. De foto bij dit artikel is eigenlijk een goed voorbeeld. Als je Opus zou vragen om het dynamisch te maken. Maakt die zelf de TO-DO aan om dan dus ook iPads mee te pakken.
Natuurlijk kan ik dat niet hard maken want elke request is net weer anders en niet determinitisch. Maar zo voelt het wel.
Dit hele artikel is natuurlijk 1 grote claim van OpenAI, ook al wordt dat een keer genoemd. Natuurlijk is het sneller, beter en alles wat ze moeten zeggen om hun product interessant te houden. Ik denk dat we best wat terughoudender kunnen zijn met dit soort berichtgeving totdat het onafhankelijk is vastgesteld.
Leuk, de volgende ronde van LLMs komen er weer aan. Gisteren ook al Claude Opus 4.6 gekregen via Github Copilot.
Nice. Ik ben sinds deze week met Cursor en de modellen daarin aan de slag gegaan en het is echt een complete game changer wat betreft het implementeren van verbeteringen in je code. Alleen de usage limits zijn vrij beperkt want ik kom zo door de API limit heen in een paar dagen met het abonnement van €20 per maand.

Zonet heb ik dus ChatGPT plus afgesloten en de ChatGPT-extensie geinstalleerd via Cursor, waar ik nu met GTP 5.3-codex mijn code kan laten aanpassen en er zit geen lage limiet aan zoals wel het geval is met de modellen via het cursorabbonnement zelf.


Momenteel geeft ChatGPT overigens 2x zulke hoge codex limieten bij hun abonnementen!

Om te kunnen reageren moet je ingelogd zijn