OpenAI Codex Security moet proactief 'complexe' kwetsbaarheden opsporen en fixen

OpenAI brengt zijn Codex Security-tool als previewversie uit voor abonnees. Deze programmeeragent is gericht op het opsporen van 'complexe' kwetsbaarheden in code. De tool stelt ook verbeteringen voor.

Codex Security is een programmeeragent die codebases continu analyseert om kwetsbaarheden te ontdekken, meldt OpenAI. Als de agent een kwetsbaarheid vindt, wordt de gebruiker op de hoogte gesteld. Daarnaast stelt Codex Security oplossingen voor. OpenAI belooft dat de tool alleen belangrijke veiligheidsrisico's rapporteert.

De functie komt 'in de komende dagen' als researchpreview beschikbaar voor Pro-, Team-, Enterprise- en Edu-abonnees. OpenAI zegt dat Codex Security de komende maand geen extra geld kost. Het bedrijf heeft de programmeeragent vorig jaar al bij een kleine groep gebruikers getest onder de naam Aardvark. De tool zou toen onder meer een Server-Side Request Forgery-kwetsbaarheid hebben ontdekt. Het is niet duidelijk wanneer Codex Security algemeen beschikbaar komt. Claude Code kwam vorige maand met een soortgelijke functie.

OpenAI Codex Security

Door Kevin Krikhaar

Redacteur

07-03-2026 • 12:29

26

Reacties (26)

Sorteer op:

Weergave:

Ik hoop dat het niet dezelfde kant op gaat als de AI slop bij bug bounties. Allerlei theoretische mogelijkheden die na een vluchtige controle onzin is.

Bij complexe kwetsbaarheden lijkt mij sprake van een combinatie van factoren, bijvoorbeeld hard- en software. Het om een hardware probleem heen patchen bijvoorbeeld. Of er is sprake van spaghetti ware door tig mensen geschreven en bewerkt zonder goede documentatie. Dan gaat het ergens in een library fout onder een specifieke omstandigheid.

Goed debuggen en analyseren lijkt mij een vak. Daar heb je dure specialisten voor. Of dit (gedeeltelijk) vervangen kan worden door AI?
Je ziet het inderdaad bij bug bounties en in het algemeen bij open source projecten, ook al meer dat ze standaard meldingen die duidelijk door AI zijn gemaakt, gewoon al instant sluiten omdat er weinig tot niks bruikbaar tussen zit. Het kost alleen maar tijd van developers die al weinig tijd hebben. Open source is niet altijd betaald werk en grotendeels ook hobby achtige toestanden volgens mij.

OpenAI en consoorten zullen wel wat anders vertellen natuurlijk maar ik durf te stellen dat AI momenteel meer security bugs maakt dan dat het voorkomt/oplost/opmerkt. Het moet een keer heel grote gevolgen hebben, willen de AI voorstanders doorhebben dat ze de AI tooling toch niet op alle vlakken 100% kunnen betrouwen. Maar zelfs Openclaw en de security issues die daar uit voorkomen, is blijkbaar nog altijd niet genoeg. Want op zich is AI een goeie hulp, probleem is dat er velen zijn die er 100% op vertrouwen, onder het motto, het kan niet verkeerd zijn. Zeker bij security issues is dat helemaal een groot risico.

Ik blijf erbij, AI wordt gebruikt om, kort door de bocht, nog sneller, nog meer semi optimal "brol" te genereren en niet om het werk te verbeteren. Dat lijkt in ieder geval het uitgangspunt. Plots zijn we terug tevreden met mediocre werk :/.

[Reactie gewijzigd door Powerblast op 7 maart 2026 14:23]

Ik blijf erbij, AI wordt gebruikt om, kort door de bocht, nog sneller, nog meer semi optimal "brol" te genereren en niet om het werk te verbeteren. Dat lijkt in ieder geval het uitgangspunt. Plots zijn we terug tevreden met mediocre werk :/.
Opeens hebben veel bedrijven het ook weer over productiviteit in aantal regels code per tijdseenheid die hoger zou liggen met AI of door AI.

Een waardeloze manier van meten van productiviteit. Iets waar we het met zijn alleen toch al heel lang eens waren. Maar nu lijkt die statistiek weer afgestoft te worden om een nietszeggend punt te maken.
Klopt, daar stoor ik me ook mateloos aan. AI komt in the picture en plots zijn alle standaarden van wat goeie software is, overboord. Zoals je zegt lines of code, zegt totaal niks. Je kan gerust op een paar regels wat schrijven wat een pak trager is dan 50 lijnen code. Dat gaat voor zowat alle talen op.

Leesbaarheid is ook zo een punt. Code die uit AI rolt moet plots niet meer leesbaar zijn, zolang de AI het maar snapt. En daar zit dus juist het punt. Die snapt het (ook) niet. Die heeft via een euromillions spelletje te draaien gegokt op winst.

Begin me persoonlijk hier meer en meer aan te storen. Het is ook plots alsof enkel AI nog de software kan verbeteren. Dus wat mij betreft kunnen het negatieve nieuws over AI niet snel genoeg op elkaar volgen. Hoe meer, hoe sneller dat de decision makers toch wel eens twee keer gaan nadenken vooraleer ze blindelings op AI gaan vertrouwen.
Het is ironisch als door AI gegenereerde apps kwetsbaarheden bevatten die door andere AI's half worden opgelost :D Ondertussen kampt de mens met onbetaalbare hardware, hoge energieprijzen en eindeloze hoeveelheden slop. Over tien jaar vraagt iedereen zich af wat ons in hemelsnaam bezielde terwijl diegenen die op tijd uit de hype stapten schaterlachend hun geld tellen.
Volgens mij is security testen juist iets wat in de toekomst deels door AI plaats kan vinden. Het is vooral veel logica en daar zijn computers best goed in.

Natuurlijk blijven er ook experts nodig, maar die kunnen een deel van hun werk automatiseren dus kunnen efficiënter werken.

De technologie staat daarbij nog wel in zijn kinderschoenen en het is de vraag hoe snel het gaat. Toch zie ik op dit gebied in 1 jaar tijd al veel ontwikkelingen.
Het is vooral veel logica en daar zijn computers best goed in.
Computers zijn goed in logica (code) uitvoeren, maar niet in logisch redeneren.

Dat dat wel zo lijkt bij recente AI is vooral omdat het massa's voorbeelden gezien heeft die het kan nadoen, maar in unieke situaties (out-of-the-box, of eerder out-of-the-trainingsdata redeneren) gaat het meestal mis.

Niet dat dat niet kan veranderen in de toekomst, maar momenteel zie ik niks wat daarop wijst.
[...]

Dat dat wel zo lijkt bij recente AI is vooral omdat het massa's voorbeelden gezien heeft die het kan nadoen, maar in unieke situaties (out-of-the-box, of eerder out-of-the-trainingsdata redeneren) gaat het meestal mis.
Dat is inderdaad ook mijn ervaring. Het gaat redelijk zolang er veel voorbeelden zijn, lees: het moet maar copy paste doen van een github repo. Zodra je wat vraagt dat uit docs moet afgeleid worden, draait het volledig de soep in. Deze week weer eens overstag om nog eens wat te proberen met AI. Ik had er al direct weer genoeg van.

Nu waren het API calls die nergens te vinden waren (en niet in een oude versie te vinden ofzo, gewoon totaal non existing). Vraag je wat door, waar haal je dit nu eigenlijk vandaan. Kreeg ik als antwoord: Je hebt gelijk, ik zat er naast. Sorry maar in een dergelijke tool heb ik nul vertrouwen :/.
Welke tool gebruik je dan?

Hier draai ik hele applicaties in elkaar zonder zelf een regel code te typen…
Claude code, mistral, Chatgpt pro, Copilot. Heb ze allemaal al eens geprobeerd. De ene al wat meer dan de andere. Resultaten zijn buiten het taalgebruik grotendeels dezelfde.

Basic dingen, boilerplate genereren, voorbeeldjes nadien, dat werkt allemaal goed. Laatste nieuwe versies gebruiken draait het al wat meer de soep in. Komt geregeld eerst met versies af die al lang deprecated zijn. Rust lifetimes, forget it, buiten de voorbeelden van het Rust book, maar ook daar gaat weer op dat het leentje buur kan spelen. Het moet eigenlijk niks zelf proberen, want het heeft de nodige voorbeelden.

Moraal van het verhaal, wat mijn IDE al voor me deed, of wat frameworks al grotendeels uit mijn handen probeerden te halen, dat werkt goed. Complexere dingen, zaken waar vooral geen voorbeelden van te vinden zijn, dat draait de soep in. En moet in de soep draaien bedoel ik dus code genereren op basis van functie die niet eens bestaan. Als ik dan doorvraag zegt de tool zelf dat de functies inderdaad niet bestaan. Waarom geef je me ze dan eerst 8)7. Bij doorvragen zegt het dan, ja maar in andere libraries werkt het zo :/.

Ik zou het zeer nuttig vinden moest het op basis van documentatie code kunnen genereren, maar dat kan het alsnog niet. Dusja, ik Jerisson hierboven wel gelijk. Het kan niet out of the box "denken" (copy pasten zeg maar :)). Iets wat zeker voor security juist wel nodig is.

[Reactie gewijzigd door Powerblast op 8 maart 2026 20:17]

Vraag me ook af of echt out of the box denken nodig is. De meeste hacks vinden gewoon plaats met bekende exploits of security issues. Als AI die al kan vinden dan is een groot deel van het werk al gedaan.
Toch zie ik op dit gebied in 1 jaar tijd al veel ontwikkelingen.
Vraagje: Je ziet iets wat nog moet gebeuren. Dus: Wat gebruik je om in de toekomst te kunnen kijken? Een kristallen bol?
Nee, ik bedoel op hoe AI nu werkt en een jaar geleden. Kreeg ik een jaar geleden nog veel foutmeldingen, etc. Nu bouw ik binnen een dag een eerste versie van een applicatie.

Als die ontwikkelingen zich doorzetten (wat geen garantie is), dan gaat het snel beter.
Ik hoop dat het niet dezelfde kant op gaat als de AI slop bij bug bounties. Allerlei theoretische mogelijkheden die na een vluchtige controle onzin is.
Ik zie de bui al hangen. Afgelopen jaren is het aantal responsible disclosure melding geëxplodeerd en de gemiddelde impact ervan gezakt naar ongeveer nul. Het zijn (bijna) allemaal theoretische kwetsbaarheden die ik voorbij zie komen. Het gevolg? Bedrijven zien of door de bomen het bos niet meer, of nemen überhaupt geen meldingen meer aan. De weerbaarheid gaat daardoor achteruit, in plaats van vooruit.

Daarnaast zijn er al specialistische tools voor o.a. Static en Dynamic Application Security Testing (SAST en DAST) en Software Composition Analysis (SCA) die voor zover ik kan beoordelen heel behoorlijk werken en complexere problemen aan het licht kunnen brengen dan op basis van de code alleen.
Ik vind dat de AI als het vind dat het een complexe kwetsbaarheid heeft gevonden dat het ook een proof of concept kan presenteren die ook feitelijk is uitgeprobeerd. Pas wanneer deze technologie genoeg is ontwikkeld zou je die eis kunnen laten varen.
Ai slop bij opensource projecten en big bounties is niet veroorzaakt door ai maar door het soort gebruikers van ai en groep met mensen die het niet kan nalaten om overal geld uit te maken op een zeer negatieve manier. Een software versie van een scammer of zo.

Ai kan ook een prachtige tool zijn. Ik kan van mijzelf uit niet echt reverse engineering doen. Wat ghidra toont heb ik maar een oppervlakkig begrip van. Maar met de ai kan ik executables reverse engineeren en documenteren, de ai kan ze opnieuw implementeren. Ik moet zeker helpen met visuele verificatie en aspecten als overzicht. Maar het werkt geweldig. En omdat via mcp nog niet alles kan, heb ik de ai geïnstrueerd om zichzelf te laten helpen door mij opdrachten te geven. Ik leer zo nog wat over ghidra gebruiken ook.

Het punt is, dat een ai gebruiken om security vulnerabilities te vinden helemaal geen probleem is. Zolang je het als mens begeleid en doet om er zelf beter van te worden. Om je eigen product beter te maken, of om malware te analyseren of zo. Dat is heel anders dan al die script kiddies en andere oplichters die ai gebruiken om met hun slop geld uit bug bounty programmas te krijgen.
Gek dat dit een aparte tool/agent moet zijn en dat het niet standaard in Codex en alle programeeroutput zit. Volgens mij dus meer een marketingstunt om te laten zien dat ze "iets" om veiligheid geven.
Zoals vermeld is de tool voorlopig gratis. Dit impliceert dat er uiteindelijk apart voor betaald moet worden.
Ze geven dus in ieder geval om geld.
Het is heel gebruikelijk om gespecialiseerde modellen te maken. Trainen is ook niet altijd met gegarandeerde uitkomst. Soms krijg je modellen die beter programmeren en soms die beter analyseren. En je hoopt op allebij.

Dan is er ook nog de tooling die de ai tot zijn beschikking heeft die kan verschillen.

Of het is inderdaad gewoon marketing. Maar dat hoeft niet.

Codex kan het ook, maar dit model scoorde waarschijnlijk bij toeval of training gewoon beter op security taken.
Dat snap ik, maar ze zouden deze security agent altijd standaard na Codex output kunnen draaien. Dan krijg je in theorie altijd veilige code wat je m.i. altijd moet willen.
Je kan ook gewoon meteen ouput in Rust of zo vragen of een managed language van een of andere vorm.

Let wel dat je credits inlevert voor elk AI verzoek (als je tenminste een goed model wil). en een tweede nakijk AI draaien maakt de klant kosten hoger.

Ik zou graag mijn eigen AI lokaal draaien, maar de hardware is een beetje te duur geworden.
Zal vast standaard in hun toekomstig product zitten dat met Github moet concurreren.
Niets dat zo goed klinkt als gemigreerde mensen die direct te horen krijgen dat er issues waren waar Github mensen niet van op de hoogte bracht. Dit "lokt" meer mensen.

Ook ideaal gezien ze dit kunnen laten draaien op momenten van minder grote drukte, waardoor hun hardware continu optimaal gebruikt wordt.
Zal ook vast veel hallucineren als het niet kan testen, zit je urenlang bugs te volgen die niet bestaan. Testen is wat moeilijker volgens Anthropic https://blog.mozilla.org/en/firefox/hardening-firefox-anthropic-red-team/
Ik heb zelf een GPT abonnement en kan wel met Codex werken, maar die nieuwe security features kan ik helaas nog niet uit proberen.

Voor zover ik kan zien zit dat nog in een beperkte fase.

“Starting today, Codex Security is rolling out in research preview to ChatGPT Pro, Enterprise, Business, and Edu customers via Codex web with free usage for the next month.”

bron: Zie link open ai

Maar ik gok dat zaken als authenticatie of MFA-flows lastig blijven , omdat die vaak verspreid zitten over backend, tokens en sessies. Dat zie je niet altijd terug in een losse scan van alleen de code.

Jammer, want het lijkt me juist handig om security issues sneller te spotten. Uiteindelijk blijft het toch een extra tool naast handmatige checks en een bredere security review
Stond gisteren idd opeens bij, 'aardvarken'. aangezet, maar nog geen resultaten. By default bekijkt hij enkel de laatste 2 maand commits.

Daarvoor had ik al codex gebruikt, met wisselend success, op een oudere code base had hij echt zware problemen weten te vinden. op nieuwere code maakte hij 'criticals' die eigenlijk nauwelijks medium waren... uiteraard ook enkele false positives....
Top! Laat hij gelijk zien hoe het werkt en vraagt hij dan ook automatisch een hoog bedrag in Bitcoin als hij een goede kwetsbaarheid vindt?

(Vraag ik voor een vriend)

Om te kunnen reageren moet je ingelogd zijn