AI-securitytool Mythos claimt 5 kwetsbaarheden in curl, maar 4 zijn onterecht

Anthropics AI-securitytool Mythos vond in de broncode van curl slechts één kwetsbaarheid, maar claimde er vijf. Vier daarvan waren valspositief, meldt de maker en hoofdontwikkelaar van curl. De resterende kwetsbaarheid is bovendien niet ernstig.

Claude Mythos maakt bij curl-maker en -hoofdontwikkelaar Daniel Stenberg de hooggespannen verwachtingen niet waar. De AI-securitytool van Anthropic vond in de broncode van curl slechts een enkele kwetsbaarheid. Aanvankelijk claimde Mythos vijf kwetsbaarheden, die volgens de tool 'bevestigd' waren. Die bevestiging was door Mythos zelf. Analyse door Stenberg en het beveiligingsteam van curl wees uit dat dit onjuist was.

Vier van de vijf geclaimde kwetsbaarheden waren valspositieve resultaten. De resterende kwetsbaarheid is volgens Stenberg ook nog eens een niet-kritieke kwetsbaarheid, die een zeer lage score op de CVE-schaal krijgt. Deze fout krijgt eind juni een fix in de volgende release van de veelgebruikte commandlinetool voor dataoverdracht tussen verschillende protocollen. Publieke details over de door Mythos gevonden kwetsbaarheid in curl komen eind juni, bij de release van versie 8.21.0.

'Misschien een beetje beter'

Stenberg trekt de persoonlijke conclusie dat 'de grote hype' rond Mythos tot op heden vooral marketing was. Hij ziet geen bewijs dat Mythos meer of ernstigere bugs of kwetsbaarheden vindt dan andere tools die al bestonden vóór de komst van Anthropics AI-securitytool, inclusief AI-tools. "Misschien dat dit model een beetje beter is, maar zelfs als het dat is, is het niet beter in een mate die een significante deuk slaat in het analyseren van code."

De softwaremaker nuanceert zijn conclusie wel met de mededeling dat het hier om slechts één coderepository gaat. Mogelijk is Mythos 'veel beter' wanneer het aan de slag gaat met broncode van andere producten. "Ik kan alleen maar spreken over wat Mythos hier vond." Onlangs meldde Firefox-maker Mozilla dat het met Mythos maar liefst 271 kwetsbaarheden vond in de broncode van zijn browser.

Mythos. Bron: Anthropic

Vorig nieuwsartikel Volgend nieuwsartikel

Door Jasper Bakker

Nieuwsredacteur

Feedback • 11-05-2026 12:11
93 • submitter: Anonymoussaurus

11-05-2026 • 12:11

Submitter: Anonymoussaurus

Lees meer

10 apr 2026

Een omslag voor cybersecurity: Claude Mythos is té goed in lekken vinden

VS vraagt exclusieve overheidstoegang tot AI-modellen 30 dagen voor release

VS vraagt exclusieve overheidstoegang tot AI-modellen 30 dagen voor release Nieuws van 3 juni 2026

Anthropic breidt toegang tot Mythos uit naar 150 organisaties, waaronder in zorg

Anthropic breidt toegang tot Mythos uit naar 150 organisaties, waaronder in zorg Nieuws van 2 juni 2026

Anthropics Mythos heeft al 1600 bugs ontdekt en komt binnenkort toch beschikbaar

Anthropics Mythos heeft al 1600 bugs ontdekt en komt binnenkort toch beschikbaar Nieuws van 24 mei 2026

Mozilla bevestigt: Firefox krijgt nieuwe UI/UX met ronde hoeken en kleurverloop

Mozilla bevestigt: Firefox krijgt nieuwe UI/UX met ronde hoeken en kleurverloop Nieuws van 22 mei 2026

Anthropic haalt OpenAI-medeoprichter binnen voor ontwikkeling van AI-modellen

Anthropic haalt OpenAI-medeoprichter binnen voor ontwikkeling van AI-modellen Nieuws van 19 mei 2026

OpenAI geeft Europese bedrijven toegang tot Mythos-securitytoolconcurrent Cyber

OpenAI geeft Europese bedrijven toegang tot Mythos-securitytoolconcurrent Cyber Nieuws van 12 mei 2026

Microsoft gaat Mythos inzetten om kwetsbaarheden te vinden

Microsoft gaat Mythos inzetten om kwetsbaarheden te vinden Nieuws van 23 april 2026

Mozilla vindt met AI-tool Mythos 271 Firefox-bugs en waarschuwt voor tweedeling

Mozilla vindt met AI-tool Mythos 271 Firefox-bugs en waarschuwt voor tweedeling Nieuws van 22 april 2026

Axios: Amerikaanse NSA blijkt al Anthropic Mythos te gebruiken ondanks conflict

Axios: Amerikaanse NSA blijkt al Anthropic Mythos te gebruiken ondanks conflict Nieuws van 20 april 2026

NCSC waarschuwt bedrijven voor Claude Mythos: patch sneller en gebruik zelf AI

NCSC waarschuwt bedrijven voor Claude Mythos: patch sneller en gebruik zelf AI Nieuws van 15 april 2026

OpenAI brengt net als Anthropic cybersecuritymodel uit voor kleine groep klanten

OpenAI brengt net als Anthropic cybersecuritymodel uit voor kleine groep klanten Nieuws van 15 april 2026

Anthropic maakt programmeermodel Mythos niet openbaar vanwege hackgevaar

Anthropic maakt programmeermodel Mythos niet openbaar vanwege hackgevaar Nieuws van 8 april 2026

Curl stopt met bugbountyprogramma door 'AI-slop'

Curl stopt met bugbountyprogramma door 'AI-slop' Nieuws van 14 januari 2026

Meer producten en artikelen

Systeem- en netwerkutility's Onderwijs en werkgelegenheid Software development Marktontwikkelingen Beveiliging en antivirus Anthropic Anthropic Claude Broncode Curl Cybersecurity Generatieve AI Mythos Open source

Reacties (93)

93

91

44

5

0

36

Wijzig sortering

Mathijs Kok 11 mei 2026 12:51

Aan de andere kant: 'Mozilla vindt met AI-tool Mythos 271 Firefox-bugs' (van Tweakers). En een groot aantal daarvan was eenvoudigweg zeer schadelijk. Het lijkt erop dat Stenberg de security community niet goed volgt, want daarin is de paniek op dit moment behoorlijk. Microsoft heeft een enorm team op het fixen van de nieuwe problemen gezet. Dat doen ze niet omdat Anthropics een hele goede marketingafdeling heeft.

Flamesz @Mathijs Kok • 11 mei 2026 14:10

De claim over de kwetsbaarheden in Firefox is ook gemaakt zonder een hoop context die het toch een stuk minder indrukwekkend laat lijken.

Ik vond dit artikel dat uitlegt hoe de bekendste claims van Anthropic over Mythos vooral marketing praat zijn zeer interessant.

https://www.flyingpenguin.com/the-boy-that-cried-mythos-verification-is-collapsing-trust-in-anthropic/

Beveiliging en antivirus

@Mathijs Kok • 11 mei 2026 15:09

Dit soort vergelijking is te makkelijk. In tegenstelling tot de ontwikkelaars van curl lees ik bij de ontwikkelaars van Firefox niets terug over het aantal valspositieve. En dat is wel heel belangrijk om mee te kunnen laten tellen, omdat we anders de acceptabele bevindingen vergelijken met een mix aan bevindingen. En ook de omvang van de code kunnen we niet negeren, net als wat we precies onder code van ontwikkelaars of die van andere ontvangen verstaan.

Er is eigenlijk geen behoorlijke basis om te kunnen vergelijken. Daarvoor is minimaal behoorlijke transparantie nodig, waar ontwikkelaars helaas niet zomaar aan doen.

casberrypi @Mathijs Kok • 12 mei 2026 09:45

Ik heb persoonlijk met Daniel gewerkt en kan je vertellen dat hij heel goed weet waar hij mee bezig is.

Gelukkig maar, want zijn software is waarschijnlijk het meest gebruikte ooit. De meest security-kritieke ook. Want zowel op Linux als *BSD als Windows is het dé library voor alles dat http client doet. Zo goed als elk apparaat dat gekoppeld staat aan het internet gebruikt curl. Dat maakt het dus tot enorm belangrijk in de security community. Daniel werkt dus ook regelmatig samen met de beste researchers.

eborn @casberrypi • 12 mei 2026 17:29

Zo zijn er natuurlijk veel meer. Ook curl maakt van veel dependencies gebruik. Zo was het verhaal rondom de overname van de xz utils met een backdoor ook wel een flinke als dat echt fout was gegaan

merethan @Mathijs Kok • 11 mei 2026 13:12

Nu is het wel zo dat Microsoft ook vuistdiep in de AI zit met OpenAI. De hype is daar dus ook hoog.

Wat nog steeds kan betekenen dat de Mythos-hype legit it. Maar je zou het toch wel met wat zout kunnen nemen; het beoordelingsvermogen kan ook bij Microsoft beschadigd zijn.

Software development

@Mathijs Kok • 11 mei 2026 13:55

True, maar Firefox is qua codebase, feature set, etc vele malen groter dan de cURL library.

11 mei 2026 12:27

Misschien is curl gewoon een simpeler, al vrij uitontwikkeld stuk software met (daardoor) minder aanvalsvectoren. Dat Mythos dan claimt 5 kwetsbaardheden te hebben gevonden terwijl het er eigenlijk maar één was is misschien een beetje onhandig, maar het heeft er dus wél een gevonden.

Als dit ook de vals-positiefratio ratio is bij grotere software dan zou ik wel de moeite willen nemen om elke claim te onderzoeken (in plaats van zeggen "maar 20% is correct, dus ik kijk er helemaal niet naar).

kristofv @Skit3000 • 11 mei 2026 14:43

Ik begrijp de man zijn mindset hier eigenlijk zelfs niet.

Hij lijkt wel de security & prestaties daaromtrent van zijn eigen project te willen onderbelichten, in de plaats daarvan doet hij hier zo'n halfbakken (want één zwaluw maakt de lente niet gaat in beide richtingen op) kritiek op Mythos.

Kan best accuraat zijn daar niet van maar .. waarom.

Je hebt het goed gedaan, duidelijk, waarom dit publiek natrappen in elke richting

SPee @kristofv • 11 mei 2026 15:38

Als je bekend bent met de historie van bugmeldingen bij curl, dan begrijp je het wel. Ze hadden een bughunt programma, waarmee geld te verdienen was. En sinds recent werden ze gebombardeerd met AI gegenereerde bugmeldingen. 99,9% waren valse meldingen. Toch werd er van hun verwacht dat ze elke melding controleren. Tuurlijk wordt je dan boos als je al dat werk voor niets moet doen. Ze zijn dus ook met dat programma gestopt hierdoor.

En nu komt er een nieuw AI model, dat claimt de ultieme tool te zijn die goed is in bugs vinden. Maar ook daar blijkt 80% fake te zijn en de rest een minor issue. Als dan iedereen op internet tegen je zei dat het allemaal kritieke issues zijn die je moet oplossen, dan is het logisch dat ze er tegenin gaan.

PuzzleSolver @SPee • 11 mei 2026 21:27

Dit is 1 van de grootste problemen die ik ook heb met AI als programmeur. Voor al het nuttige wat het kan voegt het ook veel onnutige ruis toe. Neem b.v. code-reviews van AI. Ze vinden echt van alles wat vaak helemaal niet relevant is, omdat je er wel veel tijd aan gaat besteden mis je andere zaken die wel belangrijk zijn.

En met code genereren heb ik hetzelfde. Dingen die eerdere ergens gedaan zijn gaan goed, maar zodra iets nieuw is of niet vaak voorkomt gaat de AI los met hallucinaties die er vaak wel goed uitzien in code maar nooit gaan werken. Je hebt soms snel een stuk code, maar spendeerd veel meer tijd om het goed werkend te krijgen.

Al de hype die elke keer weer gecreerd wordt help ook niet mee, na een jaar van hype ben ik het wel een beetje zat.

kdekker @kristofv • 21 mei 2026 15:06

Het lastige in dit soort nieuws is dat je niet kunt zien hoe gezaghebbend (o.a. gerelateerd aan kennis en ervaring) een persoon spreekt. Stenberg is een expert en weet waarover hij praat. Zijn codebase is niet klein en hij leunt ook op andere projecten (o.a. diverse SSL smaken kan curl mee overweg). Het is even lastig te zeggen dat 'gevonden lekken' gaat puur over de cURL code, of ook nog een relatie ligt met integraties met curl. Die lijst is behoorlijk lang: https://curl.se/docs/ssl-compared.html,

Overigens staan op de blog van Daniel ook een uitgebreide toelichting op wat Mythos vond: https://daniel.haxx.se/blog/.

Marktontwikkelingen

@Skit3000 • 11 mei 2026 12:34

curl is currently 176,000 lines of C code when we exclude blank lines. The source code consists of 660,000 words, which is 12% more words than the entire English edition of the novel War and Peace.

Eén low CVE finding op basis van zoveel code regels is niet veel.

Het probleem is niet de vele false posities, die onderzoekt men ook. Wat wel een probleem is, is dat Mythos claimt dat de findings bevestigd zijn, terwijl dat dus niet zo is.

@wiseger • 11 mei 2026 12:40

Het ligt aan je perspectief: Aangezien er ruim 20 miljard curl installaties draaien en er tot nu toe pas 188 CVEs zijn gepubliceerd, vind ik één (low) CVE finding toch best knap.

Dat Mythos claimt dat een finding bevestigd is, ligt misschien meer aan de (configuratie van de) tooling waarmee het deze stap uitvoert. Als het in een sandbox bezig is die niet bij elke poging netjes leeg wordt gemaakt, kan ik me voorstellen dat de output van eerdere tests het model ergens in de war kunnen brengen.

Maar dan nog, een foutratio van 4 op 5 is niet slecht. Een aanvallende partij zou er enorme tijdswinst mee boeken.

[Reactie gewijzigd door Skit3000 op 11 mei 2026 12:43]

Overheid @Skit3000 • 11 mei 2026 12:58

Maar dan nog, een foutratio van 4 op 5 is niet slecht. Een aanvallende partij zou er enorme tijdswinst mee boeken.

Als een werknemer een foutscore heeft van 80%, zou je die dan ook willen houden? Je bent dan enkel bezig met dubbelchecken en puinruimen. Dat is gewoon veel te duur.

grrfield @Overheid • 11 mei 2026 14:14

Je gaat er dan vanuit dat je vooraf al weet waar de fouten zitten. Nu krijg je ze op je schoot gegooid en kun je er wat mee doen. Veel geluk ermee om manueel 176.000 lijnen code te doorpluizen. Tot binnen een paar jaar of zo?

Het is gewoon een complementaire tool, geen vervangende tool. En blijkbaar met succes!

[Reactie gewijzigd door grrfield op 11 mei 2026 14:15]

@Overheid • 11 mei 2026 13:18

Hoe lang ben je bezig met verifiëren van een fout in curl? En hoe veel schade ontstaat er met een low level severity bug als er 20 miljard installaties zijn en een kwaadwillende dit in handen heeft? Zelfs als het maar in 0,001% van de gevallen uit te buiten valt, gaat dat nog steeds om miljoenen systemen. Als je weet/verwacht dat Mythos een foutratio van 80% heeft dan is het dat ene dagje werk écht wel waard. Of niet, want een fout in curl die wordt uitgebuit komt niet ten kosten van het team achter curl, maar valt terug op de gebruikers.

Powerblast @Skit3000 • 11 mei 2026 13:55

Ik snap je punt maar ik vind een fout ratio van 4/5 eerlijk gezegd barslecht. Van een automatische tool verwacht ik beter dan wat een mens zou doen, daarvoor gebruik je ook tooling. Ok, het is er weer eentje minder maar mythos claimed wel erg goed te zijn, wat uit deze cijfers alvast niet blijkt. Is natuurlijk maar 1 usecase, dus zoals de author van curl zelf ook aangeeft, misschien dat het bij andere beter werkt. Het strookt in ieder geval wel met wat ik van meerder open source authors hoor, de issue lijsten stromen vol met nonsense issues die allemaal 1 voor 1 moeten bekeken worden en dus erg veel tijd vragen.

[Reactie gewijzigd door Powerblast op 11 mei 2026 13:56]

grrfield @Powerblast • 11 mei 2026 14:21

Programmeurs staren al meer dan 30 jaar op de curl-code en hebben deze niet gevonden. Jij noemt dit bar slecht, ok.

@grrfield • 11 mei 2026 14:45

Programmeurs staren al meer dan 30 jaar op de curl-code en hebben deze niet gevonden. Jij noemt dit bar slecht, ok.

Waar trek je die conclusie uit?

Als het een fout is die zo weinig voorkomt, zo weinig impact heeft dan kan het goed zijn dat hij gewoon (terecht) genegeerd wordt.

Punt blijft dat als de Mythische Tool die Te Goed Was Om Te Releaseen er 4 van de 5 keer volledig naast zit en de 5e keer iets triviaals vindt, dan is de tool overhyped en zinloos.

@Croga • 11 mei 2026 14:52

Volgens mij is het de standaard om gevonden fouten altijd te rapporteren, ook al is de impact (in jouw ogen) klein. Dat er daarna niks mee wordt gedaan is een afweging die het ontwikkelteam verder zelf kan maken, omdat ze de impact bijvoorbeeld lager vinden dan het oplossen van een andere bug of uitbrengen van een nieuwe feature.

Het gaat hier trouwens om een CVE-waardige fout. Dit is dus niet een fout die zorgt dat een systeem niet doet wat je verwacht, maar een waarbij een aanvaller de fout uit kan buiten en toegang kan krijgen tot processen of systemen die normaal gesproken niet toegankelijk zijn. Ook fouten met een lage CVE-classificering zijn fouten die een aanvaller in staat stellen dingen te doen die niet zouden moeten kunnen, al is dat dan vaak alleen in bepaalde situaties of onder bepaalde omstandigheden. Toch; met 20 miljard installaties van curl raakt een omstandigheid die op maar 0,001% van de installaties van toepassing is, tientallen miljoenen systemen.

Powerblast @grrfield • 11 mei 2026 14:45

Van automatische tooling die wordt gebracht als extreem goed verwacht ik dat deze beter werkt. Maar we zijn blijkbaar tevreden als AI maar 1/5 goed heeft… ik zie nog 4/5 verbeterpunten. Maar dat is waarschijnlijk mijn perfectionisme dat meespeelt.

[Reactie gewijzigd door Powerblast op 11 mei 2026 14:50]

Horla @grrfield • 11 mei 2026 14:56

Ik werk niet met curl maar tenzij die tool al 30 jaar niet is aangepast, is je uitspraak niet terecht. Er kan perfect bij de laatste release nieuwe code staan wegens nieuwe functies van de tool.

SPee @Skit3000 • 11 mei 2026 23:05

curl is niet een server programma dat iedereen vanuit het internet kan bereiken. Het is een commandline tool die door een gebruiker wordt gestart. Als een bug zit in het gebruik van een obscure parameter icm foutieve payload van de remote server, dan is er een hele kleine kans op misbruik. Die kwaadwillige moet dan de beheerders van al die miljoenen zo gek krijgen dat ze dat commando uitvoeren. De kans dat een security programma een kritieke fout veroorzaakt is groter.

@SPee • 11 mei 2026 23:14

Klopt, maar als curl bijvoorbeeld vatbaar is voor een manier waarop het onterecht verkeerd gesigneerde certificaten toch goedkeurt en je weet de dns-records van bijvoorbeeld Npm of Docker Hub te spoofen of over te nemen en naar een eigen server te verwijzen, dan kan je elk bestand dat wordt opgevraagd van een gevaarlijke payload voorzien. En ja, daar zijn dan nog extra stappen voor nodig die de gewone sterveling waarschijnlijk niet voor elkaar krijgt, maar een door een staat gesponsorde organisatie wellicht wel.

Lawyerson @Overheid • 13 mei 2026 05:23

AI is een stuk gereedschap. Je hoeft niet naar elk gebruik van AI te kijken alsof ze jouw job ermee willen vervangen.

DdeM @Skit3000 • 11 mei 2026 13:05

Toch, als Mythos zo veel beter is dan alle andere tooling en mensen die op curl losgelaten wordt zou je toch meer kwetsbaarheden verwachten. Veel van de kwetsbaarheden die het in Firefox vond waren ook niet heel spannend, veelal potentieel exploitable pointer issues die in de praktijk nauwelijks voor komen is een beetje knappe codebase. Zou me ook in dat geval niets verbazen als die issues allang ergens een keer voorbij zijn gekomen en in die tijd bewust genegeerd zijn.

ALittleTooLate @Skit3000 • 11 mei 2026 12:48

Ik meldt geregeld dit soort kwetsbaarheden. Je zou denken dat ze meteen worden gefixed. Niet dus. Dit soort kwetsbaarheden laten ze gewoon zitten.

@Skit3000 • 11 mei 2026 14:18

Voor FireFox met 2800 CVE's ongeveer waren er 270 nieuwe gevonden in ruwweg 3 miljoen regels echte code. Met bijna geen false positives (volgens de marketeer-engineers)

@YGDRASSIL • 11 mei 2026 14:53

Zelfs als er van die 270 maar 10 zouden zijn die écht een risico opleveren, dan nog lijkt mij dat een enorm goede score.

grrfield @wiseger • 11 mei 2026 14:11

Ik vind niet gevonden fouten een groter probleem nochtans, want die kun je niet nazien. Die false positives moet je ALTIJD bekijken, want AI weet je wel....

Met de false positives kan het model volgens mij zelf verder aan de slag, aangezien het nu verder kan "leren", want AI weet je wel.

[Reactie gewijzigd door grrfield op 11 mei 2026 14:12]

fenrirs @Skit3000 • 11 mei 2026 12:51

Was dat niet les één software development? Bouw je software uit kleine behapbare brokken, zodat het minder fouten bevat en makkelijker te testen is

dasiro @Skit3000 • 11 mei 2026 13:03

zonder de inhoud te kennen zou ik het feit dat er meer false dan true positieves gevonden worden niet direct gebruiken om te stellen dat de tool een marketing-hype is die misschien maar een beetje beter is dan de concurrentie. Het feit dat die ene gevonden is, doet mij besluiten dat al die voorgaande tools ze dan toch niet gevonden hebben.

GrooV 11 mei 2026 12:19

Antropic is sowieso erg goed in marketing, je moet echt alles met een korreltje zout nemen wat ze zeggen. Daarnaast maken ze modellen dommer na een tijdje na de release, hierdoor halen ze in het begin hoge benchmark scores en publiciteit.

Antropic zegt bijvoorbeeld dat Claude volgende jaar alle software engineers vervangt terwijl ze zelf nog steeds honderden mensen aannemen met een salaris van 300k-500k USD per jaar. Als hun modellen zo goed zijn, waarom hebben ze zelf dan nog engineers nodig?

[Reactie gewijzigd door GrooV op 11 mei 2026 12:20]

Oon @GrooV • 11 mei 2026 12:44

En toch loopt Claude ver voorop als het om technische dingen gaat, dus ze doen vast iets goed

Travelan @Oon • 11 mei 2026 15:19

Dan heb je in Codex GPT-5.5 nog niet gebruikt. Die rent rondjes om Claude Code met Opus 4.6 en 4.7.

jaenster @Travelan • 11 mei 2026 15:34

Beide geprobeert en opus 4.7 komt er nog wel redelijk boven. Maar ben blij dat jij een andere ervaring hebt, gezien codex een stuk goedkoper is

Travelan @jaenster • 11 mei 2026 15:41

Ik vraag me dan af wat je met Opus doet, want inderdaad doet Opus of het heel wat is, maar het bouwt vooral veel scaffolding en over-engineered code zonder na te denken over 'the bigger picture'. Als ik hem in een bestaande codebase laat werken, weet ik zeker dat elke prompt opnieuw het wiel gaat uitvinden. En dat is juist wat GPT-5.5 zeer goed doet.

Opus is als een enthousiaste junior die helemaal wild gaat en alles aanraakt wat er maar aan te raken valt; GPT-5.5 is als een senior software engineer die eerst nadenkt voor hij wat doet.

Wat wel belangrijk is, is dat je de juiste manier van prompting gebruikt. Misschien dat het daar fout gaat, want Anthropic heeft een system prompt van 10k tokens, wat natuurlijk exorbitant is. Dat is ook grotendeels de reden dat je met 3 prompts al aan je limiet van Pro zit.

svennd @Travelan • 11 mei 2026 16:39

+1 zelfde prompt in gemini (~63 lijnen), claude (~470 lijnen) en chatgpt (~58 lijnen). Ik vroeg een (relatief) eenvoudig shell scriptje met uitleg. (gezien ik chatgpt explicitiet geen commentaar laat schrijven tenzij uitdrukkelijk gevraagd)

Lijkt me dat claude nogal "big" denkt.

Zorg @jaenster • 11 mei 2026 15:42

Ik gebruik zelf veelal claude (via github) en waar ik in het verleden prima een dag er vol mee bezig te zijn is het meer en meer limits. Ik heb ook chatgpt dus dacht zal codex eens proberen. Viel me ook niet tegen! Lostte een bug op die ik met Claude (nog) niet had opgelost. Wel gaf ik betere context toe waar het probleem zat dus niet echt een 100% benchmark maar toch

Bigs @Travelan • 11 mei 2026 16:12

De desktop GUI van Codex is ook stukken prettiger. Die van Claude wordt steeds verwarrender, zeker nu deze standaard werktrees is gaan gebruiken. Ik gebruik Claude Code alleen nog maar als m'n Codex credits op zijn.

rvt1 @Travelan • 11 mei 2026 17:49

Ik doe veel c++ en Kotlin, Maar codex is stukke beter ook wat mij betreft, en dan gebruik ik nog de gratis versie.

ik heb zelf Claude 1 maand for 20 euro geprobeerd (twee maanden gelden) en kan dus wel wat vergelijken. Maar ik merk op dat Claude voornamelijk zeer traag is, en met halve oplossingen komt, waarbij Codex met wat meer complete oplossingen komt.

Ik merk ookda t ook bij Codex you zit dat hij problemen niet altijd goed snapt en dat je nog steeds moet ingrijpen bij oplossingen.

ik had laats een UDP stream die je dan moet osplitten bij terminator (dat kan hij weten, want COBS encoded). En dat vergeet hij dan. Als je dan hem vervolgens er op wijst welke classe hij daar voor moet gebruiken dat maakt het wel weer correcte code.

ook een mobile op heeft hij dan wel weer voor nagenoeg 100% gemaakt dat ipv doorgeefluik was voor de data, en dus een stuk makkelijker

al met al, zelf had ik het niet sneller kunnen maken. Maar maak me zeer zorgen als Junior ontwikkelaars code gaan maken die complexer is dan ze aan kunnen (they don't know what they don't know..) we zullen het zien wat er in de komende jar uit elkaar valt :D

Zwarte_os @Oon • 11 mei 2026 13:00

Ze = de engineers die ze claimen niet te hebben.

Robby517 @Oon • 11 mei 2026 17:28

Dat mag wel zeker met het geld dat ze toegestopt krijgen? Daar kan Mozilla vast alleen van dromen.

Zwarte_os @GrooV • 11 mei 2026 12:59

Het is ook complete lariekoek, net zoals die onderzoeken van hun dat A.I. ze probeert te blackmailen of probeert te liegen. Alles om er maar een antropomorfische draai aan te geven zodat het meer is dan dat het lijkt. De EU zou hier eigenijk een stokje voor moeten steken, dat technologie zich niet als persoon mag voordoen, tenzij het bedrijf bereid is om ook alle rechten en plichten van een persoon er aan te binden.

Wouterie @Zwarte_os • 11 mei 2026 14:58

Mijns inziens is het een beetje laat om te komen met wetgeving op dit gebied. Dat mensen computers en andere apparatuur (graag) als mensen behandelen is al langer bekend: link Dus waarom zou een bedrijf daar niet op inhaken? Microsoft deed dat vroeger ook al met Clippy.

Antropomorfisme gaat ver. Zo ver dat mensen zelfs een gezicht denken te zien in stenen op Mars. Dit is echt wat mensen zoeken, wat mensen willen. Wat moet die EU wetgeving inhouden? Mag een digitale assistent zoals Gemini je nog begroeten met: "Waar zullen we mee beginnen?" 'We' is een persoonlijk voornaamwoord, waarbij in elk geval één persoon niet degene achter het toetsenbord is.

R4gnax @Wouterie • 11 mei 2026 19:15

Waar je eens mee zou moeten beginnen is het gebruik van de term AI in alle vormen van reclame verbieden - want er is geen sprake van intelligentie. Zodra je dat doet, haal je alvast de geromantiseerde sci-fi sfeer er vanaf.

[Reactie gewijzigd door R4gnax op 11 mei 2026 19:16]

familyman @R4gnax • 12 mei 2026 23:03

Ja, in combinatie met 'social'. Helemaal top.

droofx @Zwarte_os • 11 mei 2026 17:34

Meer lijkt dan het is

Ethirty @GrooV • 11 mei 2026 12:59

Als hun modellen zo goed zijn, waarom hebben ze zelf dan nog engineers nodig?

In ieder geval niet om de functies van hun mobile app en website gelijk te trekken. Inloggen met Apple ID op hun website: onnodig ingewikkeld. Project omschrijving aanpassen in de app: onmogelijk. En zo is er nog een reeks inconsistenties die me doet vermoeden dat er geen overkoepelend plan is voor hun gebruikers-interactie.

lighting_ @GrooV • 11 mei 2026 12:22

Marketing is maar 1 onderdeel. Als je een slecht of matig product aflevert maar de concurrentie niet zal je marktaandeel dalen

Scribe @lighting_ • 11 mei 2026 12:23

Nouja, ze bieden allemaal matige producten aan dus het is een gelijk speelveld

SinergyX @lighting_ • 11 mei 2026 12:52

Wat heeft dit er nu weer mee te maken? Mythos in zijn huidige vorm tov een eutopische toekomst, kan je redelijk stellen dat het een 'matig' product is. Ja het kan code lezen, ja het kan codeviben, maar gelijktijdig ook zelf 'claimen' kwetsbaarheden te hebben gevonden. Al het claimt meer en beter te doen dan anderen, maar dit bij deze test simpel niet waarmaakt.

Tellsell producten zijn ook 'matig' op z'n best, maar slim stukje marketing zijn ze ver gekomen.

Thekilldevilhil @lighting_ • 11 mei 2026 13:25

Of een argument tegen de huidige staat van een hele klasse aan producten. De eerste lichting van een nieuwe catagorie aan producten is wel vaker in zijn geheel matig. De hele eerste generatie camera telefoons was compleet onbruikbaar. Dat mag je dan niet zeggen want dan ben je "tegen techniek"?

@lighting_ • 11 mei 2026 13:28

Bij een analyse van marketing kun je prima tellsell in je vergelijk meenemen.

lighting_ @hottestbrain • 11 mei 2026 14:52

Nee dat is het niet. En nu?

Scribe @lighting_ • 11 mei 2026 15:10

Technische vooruitgang is niet altijd per definitie positief, het is een kwestie van voordelen tegen nadelen afwegen. Kijk maar daar de Metaverse, NFTs, etc.

Bij AI op dit moment is de kwaliteit van huidige modellem vrij matig ja, al helemaal in contrast met de hoeveelheid geld die er ingestopt wordt. Of dat in de toekomst verandert is een ander verhaal, maar daar had ik het niet over.

lighting_ @Scribe • 11 mei 2026 17:16

AI als copilot is tegenwoordig in elk onderneming aanwezig. Het is glashard ontkennen want de voordelen zijn er wel degelijk.

R4gnax @lighting_ • 11 mei 2026 19:11

Het is glashard ontkennen want de voordelen zijn er wel degelijk.

Die zullen er vast zijn, maar nadelen even zo goed.
En als je enkel voordelen wilt zien, ben je even goed glashard a/h ontkennen.

Zo is er een MIT studie die af trapt met de brute realiteit dat een geschatte 95% van AI adoptie-processen binnen bedrijfsleven blijkt te blijven steken op een niveau dat niet rendabel is.
https://www.reddit.com/r/..._95_of_ai_initiatives_at/

En blijven er ook hardnekkig studies boven komen die aantonen dat 40~50% van de tijdswinst die medewerkers boeken door op individueel niveau AI diensten te gebruiken, teniet gedaan wordt doordat deze tijd kwijt is aan fouten die door de AI gemaakt worden, te herstellen.

[Reactie gewijzigd door R4gnax op 11 mei 2026 19:12]

lighting_ @R4gnax • 11 mei 2026 19:15

Dat is niet zo raar. Na de bubbel van internet is er ook jaren geen winst gemaakt. Het is nieuw en iedereen zoekt naar een verdienmodel. En dat is het mooi aan pionieren. Maar sommige leden verwachten van nieuwe technologieën het volgend jaar meteen winst. Een totaal onrealistisch beeld.

R4gnax @lighting_ • 11 mei 2026 19:17

Het is nieuw en iedereen zoekt naar een verdienmodel.

Het gaat hier om de inzet van AI binnen een onderneming om de processen te verbeteren. Niet over bedrijven die direct zelf op AI-gebaseerde producten in de markt zetten. Heeft dus niets met het zoeken van een verdienmodel te maken.

Daarnaast - de draad van discussie waarbinnen we hier reageren was afgebakend op het hier-en-nu van AI. Dat wil zeggen: Is AI nu, in de huidige vorm, techniek die daadwerkelijk meetbaar iets bijdraagt?
En niet of de toekomst van AI die belofte wel of niet waar kan maken.

[Reactie gewijzigd door R4gnax op 11 mei 2026 19:21]

lighting_ @R4gnax • 11 mei 2026 19:20

Dus al die 100en miljarden investeringen hoeven niet terug verdiend te worden? Geen ROI.

R4gnax @lighting_ • 11 mei 2026 19:23

Oh, het zal vast het zoeken van een verdienmodel inhouden voor bedrijven die eerstelijns AI-diensten verlenen, zoals Anthropic of OpenAI. Maar dat is nogmaals niet het onderwerp waar het hier over gaat. Waar het hier over gaat is de toegevoegde waarde van het toepassen van AI binnen een andere onderneming, als onderdeel van de bedrijfsprocessen. Om daar waarde toe te voegen. Binnen de bestaande processen, die schuilen achter de bestaande producten of diensten van een bedrijf. Producten of diensten die grotendeels niets met AI an-sich te maken hebben.

familyman @R4gnax • 12 mei 2026 23:15

Zonder de tweede, is er geen geld voor het eerste.

familyman @R4gnax • 12 mei 2026 23:14

Niet helemaal juist. De ai bedrijfsmodellen hebben alleen waarde als hun klanten er waarde uit halen.

Dat evenwicht wordt gezocht.

Ik denk dat als we onze bedrijven heruitvinden we heel veel mensen minder nodig hebben. Denk alleen aan de hoeveelheid fte die met input van processen bezig zijn ipv het werk waar ze voor zijn opgeleid.

MrMonkE @GrooV • 11 mei 2026 12:21

Ze zijn zo goed in marketting dat ik ze er van verdenk al maanden geleden AGI te hebben bereikt.

jorisporis @MrMonkE • 11 mei 2026 12:36

Begint al bij de naam mythos 😅

minimensje @jorisporis • 11 mei 2026 17:18

Ik vond het ook een rare keuze, in het frans wordt mytho courant gebruikt voor iemand die pathologisch liegt en overdrijft...

Een mythomaan...

R4gnax @GrooV • 11 mei 2026 18:55

Antropic is sowieso erg goed in marketing, je moet echt alles met een korreltje zout nemen wat ze zeggen.

Klopt. De C compiler waarover ze zo hoog van de toren bliezen om hun nieuwe agentic workflows to promoten, werkte uiteindelijk voor geen meter. En nu ook weer met Mythos. Zo is bijv gebleken dat de 181 exploits die Mythos in Firefox gevonden had, gevonden waren door bewust sandbox-isolatie uit te zetten. Ja doei heh.

starfight 11 mei 2026 12:26

Net zoals "GPT-2" Veel te gevaarlijk was om te releasen, is ook dit vooral (goeie..?) marketing.

HandheldGaming @starfight • 11 mei 2026 13:30

Mensen denken dat sex goed verkoopt... maar angst verkoopt nog veel beter.

Kijk maar naar hier er op de spreidingswet gereageerd wordt. Welk aandeel van de reactie daarop gebaseerd is op ongefundeerde angst.

Maak mensen bang en je verkoopt het verhaal direct. Rondom ML... of AI, of AGI, hoe ze het ook willen noemen hangt puur en alleen een angst motief. Want je bent ook best een beetje cool als je met iets potentieel gevaarlijks wilt werken.

Je kan ook zo'n vergelijk maken voor ICE en EV aangedreven personenvoertuigen. Want er zijn nog een beangstigend aantal mensen die menen dat de kans op voertuigbrand in een EV groter is dan bij een verbrandingsmotor (terwijl het antwoord al in de naam zit).

Voor diegene dit het boeit per 100.000 voertuigen:
ICE: ~1.500
EV: ~25

Om maar niet over andere technische mankementen te spreken. Mja nu schiet ik te diep het konijnenholletje in.

[Reactie gewijzigd door HandheldGaming op 11 mei 2026 13:39]

Mosterd @starfight • 11 mei 2026 12:31

Je kan het ze ook niet kwalijk nemen, ze moeten ongelofelijk veel winst boeken om de investeringen waar te maken en dat is gewoon lastig zonder dit soort marketing.

latka @Mosterd • 11 mei 2026 12:42

"J.P. Morgan calls out AI spend, says $650 billion in annual revenue required to deliver mere 10% return on AI buildout" dat is heel veel geld.

Mosterd @latka • 11 mei 2026 13:21

Je vergeet nog iets veel ergers, zoek maar op wat Barclays voorspelt voor Oracle in november dit jaar.

@Mosterd • 11 mei 2026 13:30

Zet dan gewoon ook ff de context erbij joh:

Barclays has recently downgraded Oracle's debt rating to "Underweight," indicating significant financial risks. This downgrade is attributed to Oracle's substantial capital expenditures for AI infrastructure, which have far exceeded its free cash flow capacity. Barclays warns that Oracle may face a significant funding gap starting in fiscal 2027, potentially depleting its cash reserves by November 2026. The company's debt-to-equity ratio is as high as 500%, placing it at risk of falling to junk bond status.

Umbrah @hottestbrain • 11 mei 2026 14:04

Het stomme is dat je dit soort dingen, hoewel het apolitiek zou moeten zijn, helaas er niet meer los van kan zien...

Ellison heeft behoorlijk wat financiering en ondersteuning aan het huidige bestuur van de VS gegeven, denk aan de TikTok deal, waardoor Oracle min of meer de data van alles/iedereen binnen de VS in handen heeft wat op TikTok zit.
Ondersteuning van World Liberty Financial (indirect via MGX en de emiraten) waarmee hij min of meer betaalde voor toegang tot de president
Zijn overname van diverse media, zoals paramount, warner, CBS, CNN, waarmee hij min of meer het gehele media landschap aan het regime koppelt
De bijdrage van Oracle aan deze AI infrastructuur "boom".

Het ding is, door al deze zaken is het niet ondenkbaar dat in het geval van een bankroet er een 'quid pro quo' situatie ontstaat. Ellison als topman van Oracle wordt al "shadow president of the USA" genoemd, maar het recente verleden laat helaas maar al te goed zien hoe netjes Trump klaar staat voor zijn vriendjes.

In de context van 500% onderwater krijg je al vrij snel het resultaat dat mocht het knallen, er een "too big to fail" situatie als excuus wordt genoemd om de Amerikaanse belastingbetaler er voor op te laten draaien. En hoewel dat charmant klinkt an-sig in de zin van: "dan tenminste niet ons probleem", zijn er diverse redenen waarom het wél ons probleem is:

Pensioenfondsen met aandelen in Amerikaanse bedrijven die hierdoor geraakt worden
Fondsen met Amerikaanse staatsobligaties die mogelijk defaulten
Bedrijven die afzetten aan de VS die hun supply chain zien instorten
Mensen die nog afhankelijk zijn van fossiele brandstoffen die geraakt worden door de petrodollar relatie

Tegen de tijd dat het knalt echter is er vast wel weer een andere zondebok te noemen, zoals "pro AI regulerings"-mensen die dan nét aan de macht zijn, of het vorige regime... het feit is dat hoewel AI een krachtige tool kan zijn (net zoals een kettingzaag) in de handen van de juiste mensen, en het feit dat AI ook nog wel een béétje onderhouden is aan de wet van moore (als in: toename van techniek maakt het in theorie goedkoper/beter), is helaas de relatie tussen de machtige hyperscalers en politiek nu... problematisch. Niet zozeer dat áls oracle knalt dingen slecht gaan, maar dat zodra Oracle knalt, én er betalen belastingbetalers voor, dat de gevolgen >DAN< slecht zijn.

starfight @Mosterd • 11 mei 2026 12:58

Klopt zeker, maar als het dan niet blijkt te doen waarvoor het aangeprezen is verlies je niet enkel klanten maar ook vertrouwen in het product/bedrijf.

Het bedrijf waar ik nu werk heeft ook een enorme AI uitgave, maar omdat het toch allemaal niet zo vlot gaat als verwacht wordt het meer en meer teruggeschroeft.

Mosterd @starfight • 11 mei 2026 13:24

Ze willen mensen vervangen maar weten niet hoe de onderliggende techniek van een LLM werkt, tja dan ga je inderdaad veel te veel uitgeven. Het is niet een techniek die mensen kan vervangen omdat het twee cruciale elementen mist; het zelf-helende (wat opgelost kan worden met SDFT maar dat verhoogt de prijs met 2-2.5x en kan lastig op individueel niveau worden toegepast) en het zelf-lerende (middels simulaties en conceptualiseren), en dat laatste is zeer moeilijk om in nullen en éénen te zetten, volgens mij heeft geen wetenschapper dat nog goed kunnen kraken.

En dan heb ik het nog steeds niet over hoe duur alles wordt als “vervangen personeel” terug gehuurd moet worden en dat die vervolgens veel meer gaan vragen omdat zij logischerwijs het risico nu inzien van vertrouwen in het bedrijf dat zij jou in dienst houden.

Het wordt geen bubbel zoals dotcom; want het heeft zeker een functie, maar hij gaat wel flink leeglopen.

joyrider3774 11 mei 2026 12:35

Er staat in het originele artikel ook dat mythos zo'n 20 bugs gevonden heeft maar dit niet aanzag als gevaarlijk / exploitable.

groene henk 11 mei 2026 12:46

Ik begrijp van onze specialist (hoog in de hacking community) dat deze AI tools veel CVEs vinden, echter dat de tools erg slecht zijn in het bepalen van de severity.

Dus je krijgt heel veel CVEs die critical of hoog zijn en moet die onderzoeken. Dus een bedrijf met heel verschillende apps en servers is heel lang bezig met het nakijken van alle CVEs en kan dus tijd niet aan andere security zaken besteden.

Beter is een AI los te laten op gekke verschijnselen in je netwerk. En dan automatisch deze verschijnselen isoleren in het virtuele netwerk. Gebeurt bijna realtime en dan moet je vervolgens alleen die server onderzoeken.

SuperDre 11 mei 2026 13:07

Omdat het volgens de developers geen ernstig beveiligingsprobleem is maakt het niet dat het niet een gevonden probleem is. En mensen vinden vaak genoeg ook falsepositives, en beter dat er dan naar die code gekeken wordt dan dat het mogelijk wel een kwetsbaarheid was. Soms kan een klein gaatje leiden tot een groot probleem.

LOTG @SuperDre • 11 mei 2026 14:12

Het probleem is dat die stelling niet heel goed schaalt. In dit geval gaat het om een totaal van 5 situaties die je moet analyseren en beoordelen, maar wat als het er 500 zijn? Dit is ook waar opensource projecten dus mee zitten, je krijgt allemaal meldingen waarvan het gros false positives zijn en je bent alleen maar bezig met die te beoordelen.

Op een gegeven moment is je vertrouwen dusdanig laag dat het de moeite niet meer is er na te kijken, en voelt die ene die wel terecht is meer als een gelukstreffer dan dat het effectief een goede melding is.

CURL heeft als voordeel dat het een relatief kleine codebase heeft, waardoor het aantal gevonden "problemen" ook laag is. Schaal dat eens naar een groter project.

Met AI moet je ook nog rekening houden met hoe het model getraind is, en je afvragen waarom er false positives gevonden worden. Heeft dit te maken met de capaciteit om dit te kunnen beoordelen? Of heeft de AI besloten dat het sowieso meerdere issues moet vinden want hij word beloond als die ze vind?

Dat laatste is vaak het probleem bij AI die vreemde dingen uit zich zelf lijkt te doen.

Systeem- en netwerkutility's

11 mei 2026 13:50

Misschien moeten we van de ai-gedreven issue-zoekers niet meer reageren op wat ze aan 'problemen' vinden maar laat ze maar met een exploit komen.

Dat veel huidige software ontwikkelingen worden overspoeld door 'issues' die zouden zijn gevonden maar helemaal geen 'issue' zijn kost aan de ontwikkelaars alleen maar tijd en dergelijke.

iqcgubon 11 mei 2026 14:10

Anthropic en gebakken lucht verkopen, name a more iconic duo.

geerttttt @iqcgubon • 11 mei 2026 19:08

Tja het is beide vrij anekdotisch. Anthropic claimt dat Mythos veel bugs kan vinden, curl claimt dat de hype onterecht is. Beide is niet te bepalen op deze ene casus.

Laat ze eens de broncode van iets groots onderzoeken ipv een eeuwenoude Library die ondertussen al door menig expert doorgeplozen is.

Morrowind3 11 mei 2026 14:41

curl is in C. Toevallig onlangs nog op een presentatie bij een OT conferentie cijfers gezien dat AI relatief extreem slecht is in C, dus het is niet gek dat de tool niet veel success boekt bij curl.

Nieuwe cyber security life hack: gebruik boomer talen en esolangs waar AI te weinig training data van heeft

Koetsie @Morrowind3 • 11 mei 2026 15:35

Zoiets als COBOL?

jj71 @Morrowind3 • 11 mei 2026 22:22

Waarom is AI extreem slecht in C? C is niet bepaald een obscure programmeertaal, het is al meer dan 50 jaar oud en er is waanzinnig veel C code overal te vinden, dus meer dan genoeg om de AI-modellen op te trainen, zou je zeggen.

Morrowind3 @jj71 • 12 mei 2026 08:03

Had te maken met dat C, naast individuele libraries, vooral in proprietary producten gebruikt wordt IIRC. Context begrijpen is daardoor een obstakel. Vooral als je het zelf voor je werk wilt gebruiken, werk je vaak aan een legacy codebase waarbij je eigenlijk weinig hebt aan publiek beschikbare informatie.

Bovendien hadden talen als Python en Javascript C ondertussen ingehaald qua testdata. C is oud maar voor de meeste open source projecten is het niet de eerste keus.

De presentator zei er wel bij dat zijn presentatie met AI gemaakt was

Om te kunnen reageren moet je ingelogd zijn