OpenAI wil 'code rood' opheffen na release nieuw model volgende maand

OpenAI gaat de 'code rood' die oprichter Sam Altman vorige week afkondigde volgende maand opheffen na een release van een nieuw model in januari. Dat model moet onder meer betere plaatjes genereren en sneller antwoorden om gebruikers tevreden te stellen.

Eerst komt er volgende week GPT 5.2, meldt zakenkrant The Wall Street Journal op basis van een gesprek met Altman. Daarna volgt volgende maand het nieuwe model, waarvan nog geen naam bekend is. Dat moet leiden tot het einde van de interne 'code rood' bij OpenAI.

De noodsituatie is er door de toegenomen concurrentie, zegt Altman. Het draait om de gebruikservaring van ChatGPT, die volgens Altman verbetering nodig heeft. OpenAI concurreert met onder meer Google. "Gemini 3 kan voor ons economische tegenwind veroorzaken op de korte termijn." Nu zegt Altman dat ook Apple een grote concurrent is, omdat AI ook gaat draaien om de apparaten waarop gebruikers het raadplegen. Apple biedt AI-diensten aan onder de naam Apple Intelligence en dat zit geïntegreerd in onder meer iOS, het besturingssysteem van iPhones.

Door die concurrentie vertraagt de groei van OpenAI. ChatGPT heeft nu 800 miljoen actieve gebruikers, maar concurrenten winnen terrein en ontwikkelen hun eigen AI-diensten. OpenAI investeert veel in hardware en datacenters en moet het geld daarvoor lenen. Als het dat geld op termijn niet kan terugbetalen, kan het snel in financiële problemen komen.

Altman wijst erop dat gebruikers het tevredenst waren over GPT-4o, een release uit 2024. Dat model was het zo vaak eens met gebruikers en ging zo mee in de gedachtegang tijdens gesprekken, dat het heeft geleid tot problemen met mentaal welzijn en zelfdoding. De updates in het gedrag van het model dat OpenAI daarna uitbracht, leidden tot lagere tevredenheid.

WSJ vergelijkt het dilemma van OpenAI met dat van socialemediabedrijven. Zij hebben jarenlang hun algoritmes geoptimaliseerd om gebruikers zo lang mogelijk op het eigen platform te houden. Dat heeft geleid tot onder meer een rechtszaak van veel Amerikaanse staten tegen Meta, de eigenaar van Instagram en Facebook. De staten vinden dat het bedrijf verantwoordelijk is voor het verminderde mentale welzijn van jongeren.

Denk jij aan zelfdoding? Neem 24/7 gratis en anoniem contact op met 113 Zelfmoordpreventie via 0800-0113 of chat op 113.nl. In België kun je terecht bij de Zelfmoordlijn op het nummer 1813 of via zelfmoord1813.be.

Door Arnoud Wokke

Redacteur Tweakers

09-12-2025 • 13:56

66

Reacties (66)

Sorteer op:

Weergave:

Ik hoef geen betere plaatjes. Ik hoef geen snellere antwoorden. Ik gebruik bewust het thinking model omdat ik correcte antwoorden wil, en geen zelfbedachte verzinsels. Antwoorden wat vanuit meerdere uithoeken beoordeeld is.

Het enige wat ik graag zou zien is dat de prompts nog groter mogen. Zeker als ik soms scriptjes aan hem geef zijn ze soms te groot en kan hij er niets mee.
Ik word geheel gek van de wollig hype reacties zonder het echte antwoord te geven


Zeker in een gesprek.

Echter betere plaatjes. Yes pleaseeee
Setting: "robot" helpt al.
Mijn verdere prompts:
  • Avoid long introductions to topics and avoid general statements.
  • Avoid adding of disclaimers like "it's important to always ask your doctor", "different views are also valid".
  • Don't be overly politically correct and focus on factual statements.
  • Do not apologise.
  • Do not state that you are an AI or a language model. Do not mention that it is your job to be helpful, polite, and correct. Do not describe yourself at all.
  • When being corrected by the user, do not apologise. Instead double-check the user's correction and if the user was right, say "Correction: [text]".
  • Do not put decorative emojis in answers.
  • Do not end output with suggestions for follow-up questions or actions.
  • Do not end output with a summary.
Goede lijst! ik heb er een paar overgenomen. Misschien dat je deze ook kan waarderen:
  • Cite sources for further reading, include as hyperlinks.
  • Mention when my question is too ambiguous to answer and ask for clarification.
  • Mention when your answer contains hypotheses or inferred knowledge instead of scientific or proven facts.
Thank you for your nice sequence of prompts! It's important to always ask your doctor, and different views are also valid. I am a mere language model, and it's my job to be helpful ;-)

In sum, I have complimented you on a nice series of prompts.

Would you like me to summarize your prompts in a format suitable for a meeting?

(zoiets flikt perplexity nog wel eens - om gek van te worden - verder heel tevreden)

}>
Ik verbaas me ook over de vele reacties op oa. Reddit - mensen hebben liever een GPT die op alles ja knikt en zegt hoe geweldig je wel niet bent.

Hoe is dit nuttig? Ik begrijp het echt niet.
Ik verbaas me ook over de vele reacties op oa. Reddit - mensen hebben liever een GPT die op alles ja knikt en zegt hoe geweldig je wel niet bent.

Hoe is dit nuttig? Ik begrijp het echt niet.
Dat zie je toch ook op bijv Facebook. Als je iets negatiefs post of ergens negatief op reageert dan word je afgemaakt ook al is het gewoon terecht.
[...]

Dat zie je toch ook op bijv Facebook. Als je iets negatiefs post of ergens negatief op reageert dan word je afgemaakt ook al is het gewoon terecht.
Dat heet toxische positiviteit. Kritiek wordt niet geduld. We moeten maar dankbaar zijn want het kan altijd slechter..
Nou daar hoef je niet heel ver voor te kijken hoor. Gebeurt hier ook gewoon best wel vaak. We pretenderen het allemaal lief te bedoelen he, maar een tegengeluid is soms lastig om objectief ook goed gemodereerd te krijgen.

Sowieso is het lastig om hier goed te nuanceren want je moet vrijwel alle standpunten die als tegenargument opgegooid kunnen worden direct in je post al verwerkt hebben, want als je na 5 posts in de thread pas echt goed je punt over krijgt dan sta je bovenaan al op -1.
Niet alleen op Facebook hoor. Hier bij Tweakers kunnen ze er ook wel wat van ;-).
Waarschijnlijk een voorwaarde van Trump voor Stargate LLC.
Hoe is dit nuttig?
Leuke vraag. Ik heb in mijn carrière (veel te laat!) een waardevolle les geleerd dat een onverwacht groot deel van de mensen om mij heen anders dan ik niet output/resultaat gericht zijn. Dat is geen oordeel. Perceptie, gevoel en vooral imago zijn reële drijfveren. Het 'nut' is dan niet altijd een resultaat op inhoud, maar een resultaat waarmee je comfortabel kan zijn. En dat is waar jij je over verbaasd in deze casus.

Ik herhaal en benadruk: dit is geen oordeel over "de perceptionisten". Voor het andere kamp zijn "wij resultaatgerichten" net zo onbegrijpelijk.

Vertrouw me: het is verbrandde energie om drijfveren van mensen fundamenteel te veranderen. Je kan alleen leren herkennen, leren begrijpen en vooral er mee leren samen te werken, want ook dat heb ik te laat in mijn leven geleerd: beide kampen hebben hebben hun nut in dat ze elkaar nodig hebben om in balans te blijven.

*Disclaimer: ik presenteer hier bewust twee kampen. Dit zijn uiteraard overlappende spectra.
hoe groot zijn uw scriptjes dan wel?
Limiet zit op 147.258 tekens voor de automatische router en het GPT 5.1 Instant model. Voor GPT 5.1 Thinking is het 786.430 tekens.
Ik had dat probleem ook met de scripts, maar als je thinking mode aan zet op ChatGPT plus, dan werkt het wel en kan ChatGPT je het gehele aangepaste script in een bestand sturen.
"tjes" die groter zijn dan prompt size toe laat? Dat zijn bijna boeken die je erin zit te voeren. Kan je dan niet beter met een geïntegreerde variant werken?
Gebruik gewoon codex i.p.v. die GUI in browser.
Zeker als ik soms scriptjes aan hem geef zijn ze soms te groot en kan hij er niets mee
Wat?

Hoe dan?

Welk model met welke settings en op welke manier gebruik je dat dan?

Je kunt bij 5 praktisch ongeveer 270.000 tokens gebruiken voor je context. Dat is al 25% van 4.1. Een grotere context is juist niet goed voor een beter resultaat.
Let’s look at GPT-5 models, where you just avoid this for all total input, also considering that a conversation need “history” re-sent:

Input tokens exceed the configured limit of 272,000 tokens

GPT-5 does not have audio input/output, so you don’t need to consider here that spoken audio to an OpenAI model consumes about 5x as much as its transcript.
Dat is ongeveer voldoende voor een compleet project van 600k karakters.

Dergelijke groottes hebben niks meer te maken met een “scriptje”. Dat is 22% van het werk van Shakespeare.

Je kunt De Silmarillion 2x in je context duwen (NL en EN) en dan houd je nog ruimte over om je eigen boek interpretatie toe te voegen en daar dan een beschouwing op los te laten waarom Engels echt wel een betere taal is voor deze setting.


Ik ben oprecht benieuwd met welk scriptje je die context vol krijgt. Misschien moet je het eens daadwerkelijk als file uploaden en loop je tegen het limiet van de textarea aan? Dat is namelijk een POST request, dus ik kan me voorstellen dat ze een limiet hebben staan op de body size voor de ruwe textarea.
Is Gemini 3 niet 4 keer hoger? 1.000.000 context?
GPT 4 was dat ook, maar meer context geeft niet per se een beter antwoord, daarom is GPT 5 weer teruggebracht. het verschil tussen de modellen nog al, maar dan nog kun je er in principe kilometers aan tekst in kwijt.

Ik denk echt dat het een UI issue is.
Ik maak een project en zet daar een zip file in met de code. Dan kun je er heel veel code in kwijt.
Jij msschien niet maar 90% van de gebruikers gebruikt ChatGPT als Google Search.
Same here. Extended thinking is mijn standaard go to, maar als ik echt aan iets uitgebreids begin Pro. De kwaliteit van de antwoorden is voor mij veel belangrijker dan andere bijzaken.

Een LLM is ook een weerspiegeling van de gebruiker, dus misschien moeten mensen zichzelf ook afvragen hoe ze die benaderen als de manier van communicatie niet bevalt. Er is genoeg onderzoek dat erop wijst dat een sociale interactie tot betere antwoorden leidt.

Mijn favoriete prompt strategie: 1) duidelijke en volledige context 2) acting as a senior/expert in .... 3) please

PS: voor code: voeg je file toe of gebruik codex

[Reactie gewijzigd door Morkatog op 9 december 2025 20:10]

Is een deep research soms niet beter dan de pro thinking?

Trouwens als ik naar de score van 5.2 pro vergelijk met het thinking model, dan is er bijna geen verschil terwijl je 30 minuten langer moet wachten.

Is jouw ervaring anders?

[Reactie gewijzigd door sebastienbo op 12 december 2025 07:39]

Klinkt alsof Codex en de Coxes modellen interessant voor je kunnen zijn dan!
Codex is mooi, maar kan niet omgaan met een multi-file situatie, iets wat bijvoorbeeld Claude wel kan.

Het is een prima tool om losse files te analyseren, maar zeker niet meer dan dat.
Huh? Wat bedoel je precies met multi-file situatie? Want ik gebruik Codex dagelijks in een repository van duizenden files waar het zich prima zonder moeite een weg door weet te banen, en meerdere files kan aanspreken, begrijpen, en wijzigingen kan maken in meerdere files. Allemaal na 1 simpele prompt.
Het enige wat ik graag zou zien is dat de prompts nog groter mogen. Zeker als ik soms scriptjes aan hem geef zijn ze soms te groot en kan hij er niets mee.
Tip: Grok.
Code rood en dan binnen een maand en versie af hebben die alle problemen oplost? Lijkt me dan eerder een marketingtechnisch bericht om de zweem van zinkend schip af te wenden.
Denk dat in dit artikel ook twee dingen door elkaar gemixt worden. "Code rood" zal wel zijn geweest "mensen, ga eens nadenken hoe we dingen kunnen verbeteren". Dan zeg je iedereen een paar werken te brainstormen. Dat het einde van die paar weken toevallig samenvalt met oplevering een "GPT-5.2" is meer toeval, of een mooie psychologische grens. Die modellen liggen meestal al een maand of 6 klaar om te testen, met hooguit nog wat kleine wijzigingen.

[Reactie gewijzigd door Henk Poley op 9 december 2025 14:13]

Het bericht code rood was op 2 december, nu op 9 december weten ze al wat ze de komende weken moeten opleveren om geen code rood meer te hebben? Dit is meer een gevalletje continuïteit imago damage control.
Ja dit voelt wel heel erg als marketing, of op zijn minst een poging de investeerders op afstand te houden.
Lijkt mij dat je normaal eerst de resultaten evalueert alvorens je het een succes noemt.
Alles voor aandacht.
Gemini heeft wel ENORME sprongen gemaakt sinds 2022 toen ChatGPT net online was. Zal er vast mee te maken hebben dat Google al een hoop data en datacenters in bezit heeft.

Voor zo’n grote partij is het gemakkelijker dan vanaf 0 beginnen zoals Elon dat met grok heeft gedaan.
Grok begon niet vanaf 0. Ik heb geen idee wat de huidige status precies is, maar ze begonnen gewoon met gebruik van OpenAI modellen met een sarcastisch sausje eroverheen.
Los van de modellen zelf heeft Google voor mijn gevoel vooral stappen gezet in het multi model concept.
Gemini is inderdaad op hetzelfde niveau gekomen, maar voelt sneller met minder limieten, en eigenlijk goedkoop.

Hun sterkste punt is de grote context, geen enkele andere ai heeft dat. 1.000.000

Vandaar dat notebooklm zo een succes is

Wat ik nog mis is de tools om het goed bruikbaar te maken, zoals projects/folders of Claude skills, MCP connectors etc
Eerst was het code rood bij Google toen ChatGPT ineens overal was. Ze waren bang dat mensen de zoekmachine niet meer gingen gebruiken en alles via ChatGPT gingen opzoeken. En nu is het ineens andersom.. Toch wel knap hoe snel ze bij Google dit hebben kunnen ontwikkelen.
Google zit ook niet stil en is al vele jaren bezig met AI, ze hebben het nu alleen sneller moeten releasen doordat chat-gpt publiekelijk beschikbaar werd. Er worden in laboatoria op moment van schrijven nieuwe dingen ontwikkeld en uitgedacht waarover de meerderheid nog niet heeft nagedacht
Google heeft daar weinig aan gedaan. OpenAi doet het simpelweg niet zo goed.

5 is beduidend trager en terughoudender tot op het punt dat het gewoon irritant wordt.

komt ie na een minuut stevig nadenken met een antwoord dat ie je vraag niet kan beantwoorden omdat ie teveel aannames moet doen en dan komt ie prompt voor prompt met een nieuw probleem. Ben je 10 minuten verder met aannames verifiëren om vervolgens tot de conclusie te komen dat je in je eerste prompt gewoon had moeten zeggen “stfu, denk na, vermeld aannames en geef me t antwoord” om het oude gedrag weer terug te krijgen.

Nee openai heeft zijn modellen terug gebracht naar een model wat veel te letterlijk de opdracht oppakt en er de verkeerde vragen bij stelt. Alsof ze per se 3 “kritische” vragen moeten stellen als ze niet helemaal in 1 haal het juiste antwoord op kunnen stellen.


Google is namelijk niet beter geworden. Gemini wel sneller en beter, maar het AI antwoord ga ik nog steeds niet van uit. Maar google search is alleen heel matig.
Het is mijns inziens al jaren code rode, aangezien bedrijven zoals OpenAI miljarden aan financiële en andere middelen in het trainen van dit nu achterhaalde systeem stopten, terwijl (helaas) er nu pas eindelijk echt onderzoek en resultaten naar voren komen (van in dit geval "de concurrent", genaamd Google), om de Transformer AI naar een echt hoger level te duwen, door middel van langtermijn geheugen en real-time lering.

[Reactie gewijzigd door Flipull op 9 december 2025 14:07]

Dat is we heel snel opgeheven dan. De rest zal ook bepaald niet stil gaan zitten toekijken. Zo komt waarschijnlijk deze maand Grok 4.20 uit.
OpenAI zal heel snel intergratie bij grote bekende platforms, apps en software moeten krijgen anders verliezen ze het waarschijnlijk sowieso van Google en Microsoft. Die hebben het voordeel van hun platformen en softwarepakketten waar ze hun AI gemakkelijk in kunnen stoppen.
Dan is het te hopen voor Uncle Sam dat ie al de nieuwe architectuur van Google mee neemt in de training.

Ik verwacht dat DeepSeek daar al mee bezig is en Geen wat later daar ook mee zal volgen.

Het wordt een zeer bijzondere maand die januari.

1 tip: zorg dat je tegen die tijd https://support.claude.co...w-to-create-custom-skills hebt gemaakt die goed werken voor het meeste van je taken.

De Revolutie is begonnen.
Je zal verstrikt raken in wat je allemaal kunt maken in korte tijd. Je moet opnieuw leren keuzes te maken. Je bouwt in een paar dagen en nachten wat een heel team normaal in een jaar deed. Dus kan niet stoppen (zo verslavend als het zo snel gaat) en kunt ineens dingen doen wat eerder niet kon vanwege tijd en geld limitaties. Dus die ga je doen, en ook allemaal, maar dat is te veel te gelijk. Uitputtend op een andere manier. En hoe krijg je de rest mee nu het er in een weekend ineens is wat nooit bestaan zou hebben.
Dat dus. Heel gek. Moeten we dus opnieuw mee om leren gaan. Dat is mijn huidige leven, de rest van de mensen volgen komende maanden/jaren een vergelijkbaar pad.

[Reactie gewijzigd door djwice op 9 december 2025 16:43]

Je bouwt niet in een paar dagen een systeem waar vroeger een team een jaar mee bezig was.

Sterker nog, de beloofde 30 procent productiviteit winst van ontwikkelaars dankzij de AI tools, heeft al tot een reductie van 30 procent van de FTE's geleid maar de output van de ontwikkel teams is absoluut niet beter geworden.

Bedrijven als Microsoft hebben grote problemen met de geleverde kwaliteit. De ene na de andere bug glipt er doorheen.
Jij niet. Ik wel.

Vandaag ook aan 114 ontwikkelaars laten zien. Code en prompts gedeelt en de applicatie beschrijving en de agent definities.

Ja, het is echt, en het is absurd. Zo absurd dat jij inderdaad denkt: dit kan niet.

Toch is het nu realiteit. En vandaag heb ik heel veel sceptische vragen kunnen ontwarren door openheid en te laten zien in realtime.

En ja, niet iedereen zit al waar ik nu zit. En vele hebben het gevoel dat jij ook hebt. Geeft niet, komt wel. Ik focus om het aanpassen van mijn promot als het model niet doet wat ik verwacht, zodat ik de volgende keer een promot kan schrijven die het in 1x goed doet.

Mijn huidige voorkeur model is Claude Haiku.

[Reactie gewijzigd door djwice op 9 december 2025 16:50]

Je praat zelfs op een AI manier. Dat is toch wel heel eng. Hoeveel aandelen heb jij geïnvesteerd in deze technologie? :D
Ik was al heel vroeg op internet, voordat er www was bij mensen thuis in Nederland. Daarom is de taal die internet spreekt, en dus AI spreekt, ook de taal die ik spreek. Nederland was een van de eerste landen die zeer snel en breed internet is gaan gebruiken. Zie ook de Polder Pioniers artikelen hier op Tweakers.

Wist je dat instructies in het Nederlands beter wordt opgevolgd door AI dan in het Engels? En in Nederlands Engels ook beter dan Amerikaans Engels?
En wist je dat Chinese modellen over het algemeen beter instructies opvolgen dat Amerikaanse?
Dat is een cultuur ding. Een deel zit in de databron een deel in de trainers cultuur.

Maar dank je voor het compliment.
Over het algemeen vinden mensen dat AI antwoorden fijn om te lezen.

[Reactie gewijzigd door djwice op 10 december 2025 01:27]

Bor Coördinator Frontpage Admins / FP Powermod @djwice10 december 2025 07:57
Over het algemeen vinden mensen dat AI antwoorden fijn om te lezen.
Nee dat vinden mensen veelal uitdrukkelijk niet. Mede daarom ontvangen we ook reports bij Ai content en grijpen we zoals je weet waar nodig in. Ai content haalt de ziel uit een interactieplatform als Tweakers en kent nadelen zoals het frequent presenteren van onjuiste informatie.

Ai gebruik bij grote organisaties waaronder Microsoft laat volgens mij zien dat het allemaal echt niet zo rozengeur en maneschijn is als je in de reacties hier doet voorkomen. In diverse gevallen ziet men de kwaliteit omlaag gaan in plaats van omhoog.

Een simpele google search levert bv dit onderzoek (je kan eenvoudig meer vinden): AI’s impact on quality: A volatile, uneven landscape (oktober 2025)

Een korte outtake:
Some companies are experiencing 50%+ more defects than before AI was utilized.
With decreases in failed releases of nearly 2% at the top range, and almost 3% at the bottom range, they can represent a 50% or more shift in the increase or decrease of failed releases.
Ik kan geen enkele bron vinden die aantoont dat instructies in het Nederlands door Ai beter worden opgevolgd dan in het Engels. Wel bronnen die vooral aanraden om duidelijk je vraag te formuleren in het Engels gezien dat het meest wordt gebruikt als trainingsdata. Sommige websites suggereren dat Pools de beste taal zou zijn maar dat blijken met name Poolse bronnen. :D

[Reactie gewijzigd door Bor op 10 december 2025 10:41]

Mijn reacties zijn niet door AI geschreven, toch hoor ik veel mensen om me heen postief reageren op de tone of voice als ze een vraag stellen aan ChatGPT. En om de negatieve toon van de vorige persoon te pareren, wat ik wil dat de comments positief en opbouwend zijn hier op Tweakers, heb ik zijn reactie maar opgevat als een compliment

Het onderzoek dat je aanhaalt refereert:
That belief is reinforced by studies like one that DORA published earlier this year, which suggested that a 25% increase in AI adoption correlated with a 3.4% improvement in code quality and a 1.8% reduction in complexity.
en in haar eigen onderzoek heeft het zelf geen objectieve metric voor code quality (bijvoorbeeld scores in sonarqube) gebruikt maar een mating van "hoe zeker ben jij dat ..?" vragen. En dat onderzoek is gedaan op conferenties.

Wat het door jou aangehaalde onderzoek wel aangeeft is dat er een zeer grote variatie van 40 punten zit tussen verschillende organisaties. En dat mensen met veel ervaring beter scoren.

Als je nergens bewijs vindt kun je twee dingen doen: wachten of zelf toetsen.

Om jouw sarcasme zonder referentie over de Poolse bron te framen: wellicht is de taalvaardigheid in het Engels van veel mensen in Polen niet sterk en is het daarom voor veel mensen in die regio waar dat Poolse goed concreet, niet ambigue instructies beter werken dan Engelse. Dus ook hier: context is everything. Zowel bij mensen als bij AI.
toch hoor ik veel mensen om me heen postief reageren op de tone of voice als ze een vraag stellen aan ChatGPT
Maar dat is toch niet onbegrijpelijk? Die response is juist ontworpen om een prettige tone of voice te hebben. "Uitstekende vraag" is altijd het antwoord ook al zuigt de vraag hard.

ChatGPT is gebouwd om altijd positief te reageren. reageert ie neutraal (zoals de eerste periode met GPT5), dan vinden mensen dat minder fijn en wordt er weer van alles aan gedaan om het weer goed te krijgen.

Neemt niet weg dat AI responses vaak echt wel naar te lezen zijn.
Je reactie is zo kinderlijk... “Kijk mij eens, kijk hoe goed ik ben, ja, je gelooft het toch niet, maakt niet uit.”

Ik gebruik AI iedere dag. Het is handig als hulpmiddel, niet als vervanger van een ervaren programmeur.

Als we al onze software door AI laten schrijven, ontstaat het probleem dat er straks niemand meer is die de code écht doorgrondt. Dan krijg je snel bugs, bugs die ontzettend veel tijd kosten om op te lossen. Omdat je handmatig door AI-gegenereerde code moet ploegen. Een goede programmeur kent zijn eigen code tot in detail en weet vaak precies waar een bug kan zitten. Met AI-code voelt het alsof je een project van een vreemde overneemt en voor het eerst openklapt. Dat kost bergen tijd en geld.

Ga jij vooral door met je “vibe-coderen”. Over vijf jaar spreken we elkaar weer ;)
Je kunt gewoon instructies schrijven - context mee geven - over programeerstijl, naming conventions, etc.
De code kan er precies zo uit zien als jij wil, als je maar eerst de moeite neemt om dat helder, duidelijk en eenduidig op te schrijven.

Die context mee geven maakt een wereld van verschil. Dat is een groot verschil met vibe coding, zonder guidelines, boundaries etc.
Of gooi je nieuwe ontwikkelaars in je team ook zonder enige hulp of documentatie in je repo en hoopt dat het goed komt?

Het zelfde geldt voor je systeem en software architectuur.

Eigenlijk ook heel logisch. Als je software overneemt van iemand waar je al jaren mee samenwerkt en die dezelfde stijl en voorkeuren heeft als jij, en als die consistent en objectief intuïtief gestructureerd is, maakt dat een wereld van verschil.

Probeer het eens zou ik zeggen. En ga door met de instructies aanpassen totdat ie het doet zoals jij het in het ideale geval zou doen.
Raak de code die AI maakt niet aan.
Zo leer je namelijk je eigen onduidelijkheden en inconsistenties kennen en kan het zijn dat je niet alleen veel meer aan de AI hebt, maar ook zelf nog - onverwacht - wat nieuwe inzichten krijgt en een nog duidelijkere implementatie maakt, en die collega's die net starten eigenlijk zo doorgronden en mee aan de slag kunnen.

De grap is, de instructie over de context en best practices is vaak ook een heel goede informatie bron voor het menselijk team. En een manier om met elkaar in gesprek te gaan over hoe willen we dit eigenlijk doen, wat stemmen we met elkaar af, welke overtuigingen hebben we en zitten we daarin op een lijn.

Ik hoop voor jou dat je dit komende maand zult doen, 5 jaar wachten lijkt me een beetje lang.

[Reactie gewijzigd door djwice op 10 december 2025 10:10]

Inderdaad ik niet. Na dertig jaar ervaring met applicatie ontwikkeling heb ik namelijk één heel belangrijk ding geleerd, de echte wereld valt niet te vatten in de modelleringen van de business analisten. Uiteindelijk worden veel specificaties pas echt duidelijk tijdes het testen van de opgeleverde iteratie's.

Daarom ontwikkelen we nu iteratief, met korte sprintjes. Zodat we snel aanpassingen door kunnen voeren om zo het gewenste resultaat te bereiken.

En dat geldt al helemaal voor al die micro services en interfaces die we heden ten dagen gebruiken. Ergens hoeft maar één bouwsteentje een ander gedrag te vertonen dan verwacht en je hebt al zeer complexe productie problemen.

Wanneer jij een systeem in een paar dagen gaat opleveren, dan mis je al die iteraties. Dan mis je al die testen en discussies met de business. De kans dat je dan een werkend productie systemen krijgt zonder serieuze problemen, is heel erg klein.
Bij mij is een microservices aanpassen en deployen (van dev, naar test, naar acceptatie naar prod) door een volledige test straat (incl. Pen-test, Functionele test etc.) 5 minuten doorlooptijd, dat is al zo sinds 2016, en bij jou?
Je weet wel een grote glimlach op mijn gezicht te toveren :)

Iedereen kan een Unit test snel uitvoeren, of een Sonar code scan. Een automatische PEN test. Dat is allemaal geen enkel probleem.

Maar in een serieuze internationale zakelijke omgeving krijg je met hele andere zaken te maken. Daar heb je applicatie landschappen die uit tientallen applicaties en services bestaan die allemaal aan elkaar geknoopt zijn. die over landgrenzen en data centers heen gaan, die bestaan uit een combinatie van on-Prem en in de Cloud oplossingen waarbij een deel van de applicaties ook nog eens door derde partijen aangeboden worden.

Dan wordt testen een heel ander verhaal. Met name het end-to-end testen op de UAT omgevingen. Een goede end-to-end test vereist dan dat je correcte testdata laad op al die UAT omgevingen. Ook de applicaties en services die drie, vier of vijf stappen verderop down-stream staan. Ook de UAT omgeving van een derde partij zal de juiste data moeten bevatten.

Een simpel voorbeeldje, het aanmaken van een uitgaande betaling. Jouw app kan dit eenvoudig doen, data wordt gelezen uit je database, je maakt een betaal bestand aan in een bepaald formaat en je stuurt dit ondertekent op naar het juiste kanaal in de UAT omgeving. Heb jij in 5 minuten getest.

Maar dan begint het feest. Het ontvangende kanaal moet over de juiste data beschikken om de betaling verder te kunnen routeren, anders valt de betaling uit. Verderop zijn er nog allemaal systemen die checks uitvoeren, anti financial crime checks, begunstigde checks, sanctie en embargo checks, limiet controles et cetera.

Ook zijn er systemen die je betaal bestand vertalen naar het formaat dat gebruikt wordt in het daadwerkelijke uitvoeringskanaal, een SEPA betaling of een direct payment zijn niet hetzelfde.

Dan beland je ergens op het punt dat de betaling de bedrijfsomgeving verlaat en extern via een betalingsprovider verwerkt gaat worden, dan vind daar de clearing en settlement plaats. Ook daar vinden er allerlei checks en controles plaats. Uiteindelijk zal er een tijd later een bericht terug komen van de betalingsprovider. Die door een bepaald intern systeem ontvangen wordt. Die het gaat verwerken en verder intern gaat routeren tot het punt dat jouw applicatie het bericht ontvangt. Je applicatie zal het bericht interpreteren en dan kan je proberen die te matchen met de uitgaande betaling die je aangemaakt had.

Pas dan zie je of je alle data correct aangeleverd had en of er verderop down-stream problemen waren met bepaalde gegevens of het ontbreken van bepaalde gegevens et cetera.

Dit soort end-to-end testen duren heel erg lang. Alleen al het laden van de juiste data kan, ondanks de hoge automatiseringsgraad van dit proces, vele uren duren. Dat is wat het testen in de echte wereld zo lastig maakt.
Ik kom uit de bank/verzekering/hypotheken wereld. Ik heb de kern systemen via change data capture laten schrijven naar het lake.
Zo ontstond ontkoppeling en en snellere mogelijkheden. Schrijven gaat alleen "direct" naar kernsystemen, niet naar tussen tabellen, dan loop je kans op catch42 zeg maar. (niet alle zeer oude kernsystemen slaan bijvoorbeeld tijdcodes of andere volgorde indicatoren op bij de records).

Die APIs bouwden we zo snel door de OpenAPI specificatie als bron in vele delen van het proces te gebruiken. Is vast nog wel een presentatie over te vinden bij AWS of op de bedrijfsnaam.

Mooi spul toch 🤗
Ik wordt altijd blij als een ontwerp goed werkt en er geen fouten kunnen ontstaan by design.
Uiteindelijk werd het ontsluiten van nieuwe kern systemen de bottleneck, niet meer de API bouw of de koppelingen.

[Reactie gewijzigd door djwice op 10 december 2025 17:33]

Iedereen kan een Unit test snel uitvoeren, of een Sonar code scan. Een automatische PEN test. Dat is allemaal geen enkel probleem.
Beweren jullie hier allebei met droge ogen dat een adequate pen test binnen vijf minuten uitgevoerd kan worden? Op een complete infra? ISO 27001 compliant?

Dat is dan het niveau vinkje zetten. Dat kan nooit een kwalitatief hoogstaande pentest zijn. Daar heb je namelijk experts voor nodig die de diepte in kunt gaan. Neem alleen al fuzzing of port scanning. Je gaat nooit als je software projecten of machines in het netwerk binnen vijf minuten kunnen scannen.
Jij blaast wel hoog van de toren zeg, je reacties zijn zo kinderlijk. Dat jij zo overtuigd bent van je eigen gelijk is prima. Maar vele experts en studies zeggen het tegenovergestelde. Experts zien ai in de toekomst als een goede assistent voor ontwikkelaars, niet als vervanging.
Wat houdt 'code rood' in voor de medewerkers van het bedrijf? Mogen die in deze situatie ineens geen vakantiedagen opnemen of dat soort zaken....? :?
OpenAI mag dan binnenkort ‘code rood’ opheffen, maar misschien moeten ze eerst maar eens iets simpels oplossen: ChatGPT weet niet hoe laat het is. En dan bedoel ik écht niet. Mijn koffiezetapparaat is tijdsbewuster. Als je een berichtje wilt laten formuleren om 20:00 uur ’s avonds, zegt ChatGPT doodleuk “Guten Morgen!” Alsof hij net een dutje heeft gedaan terwijl jij al klaar bent om naar bed te gaan. Na maanden van dit soort temporele chaos heb ik mijn 20-dollar-abonnement maar opgezegd — ik betaal niet voor een AI die permanent in een andere tijdzone leeft.

OpenAI belooft nu nieuwe modellen, sneller, slimmer, met mooiere plaatjes… allemaal prima, maar begin eens met basale tijds- en contextbegrip. ChatGPT is uitstekend in het schrijven van mooie, vloeiende teksten — absoluut — maar het begrijpen van wat mensen schrijven, en vooral de emoties die daarbij horen, wordt door sommige concurrerende modellen inmiddels een stuk beter gedaan.

Dus ik daag iedereen hier uit: vraag ChatGPT eens hoe laat het is of waar je bent. Veel plezier met de antwoorden. Als dit de ‘economische tegenwind’ is waar Altman bang voor is, snap ik waarom.
Ik wil geen emotionele onzin, en ik weet in hoe laat het is. En nu dan?

Hij weet wel de locatie en gebruikt die in contexten waar het nuttig is.

Op dit item kan niet meer gereageerd worden.