Claude Opus 4.8 zegt heel eerlijk dat het iets niet weet, beweert Anthropic

Anthropic heeft Claude Opus 4.8 uitgebracht. Dat model volgt Opus 4.7 op dat vorige maand uitkwam. Opus 4.8 scoort in de meeste benchmarks iets beter dan het eerdere taalmodel, maar Anthropic zegt dat Opus 4.8 zich vooral onderscheidt met zijn 'eerlijkheid'. Dat betekent in de praktijk dat Opus vaker toegeeft dat het iets niet weet en minder uitspraken doet die het niet kan onderbouwen.

Anthropic toont een aantal benchmarks voor Opus 4.8 waaruit blijkt dat het model op de meeste maatstaven enkele procentpunten beter presteert dan Opus 4.7. Dat model kwam in april uit. De grootste verbetering zit in de manier waarop Claude in een terminal code kan genereren.

Waar Opus 4.8 vooral verbetert, is diens 'eerlijkheid'. Anthropic zet dat in de context van AI-modellen die regelmatig onterecht conclusies trekken of aangeven dat ze al voortgang hebben gemaakt met een taak terwijl dat niet klopt. Opus 4.8 doet dat veel minder, zegt Anthropic. Het model 'geeft vaker onzekerheid over diens werk aan en doet minder vaak niet-ondersteunde uitspraken'.

Om dat kracht bij te zetten, heeft Anthropic een onderzoeksrapport online gezet. Daarin schrijft het bedrijf dat Opus 4.8 'vier keer minder waarschijnlijk fouten in code laat staan zonder daar een opmerking over te maken'.

Opus 4.8 is te gebruiken via Claude Code en uiteraard Claude.ai en de apps. Anthropic zegt ook dat Opus 4.8 een betere fast mode krijgt, die drie keer minder tokens verbruikt dan eerdere modellen.

Anthropic brengt naast Opus 4.8 ook 'dynamische workflows' uit in Claude Code. Dat betekent dat Claude tot wel 'honderden' subagents aan kan zetten in een enkele sessie, waardoor het mogelijk wordt grotere taken uit te voeren via Claude Code. Anthropic noemt als voorbeeld dat Opus 4.8 migraties kan doen van volledige codebases.

Anthropic Claude stock. Bron: Samuel Boivin/NurPhoto via Getty Images

Vorig nieuwsartikel Volgend nieuwsartikel

Door Tijs Hofmans

Nieuwscoördinator

Feedback • 29-05-2026 07:46
66 • submitter: HexaLogic

29-05-2026 • 07:46

Submitter: HexaLogic

Lees meer

Anthropic dient aanvraag voor beursgang in bij SEC Nieuws van 1 juni 2026

Nederlandse provider onze.nl neemt met AI gesprekken op Nieuws van 1 juni 2026

Anthropic sluit deal met SpaceX en verhoogt gebruikslimieten Claude Nieuws van 6 mei 2026

Anthropic erkent dat Claude vershittificeerde en wijt dat aan bugs Nieuws van 24 april 2026

Mozilla vindt met AI-tool Mythos 271 Firefox-bugs en waarschuwt voor tweedeling Nieuws van 22 april 2026

Opus 4.7 is uit en kan beter programmeren tegen meer tokenverbruik Nieuws van 17 april 2026

Claude Sonnet moet nu bij programmeren consistenter zijn en beter luisteren Nieuws van 18 februari 2026

Anthropic meldt storing van AI-dienst Claude Nieuws van 14 januari 2026

Meer producten en artikelen

Software development Anthropic Anthropic Claude Claude Opus Kunstmatige intelligentie

IT-banen

Meer vacatures

Reacties (66)

-Moderatie-faq

Wijzig sortering

bazs2000 29 mei 2026 08:00

"Ik weet het antwoord niet maar bedankt voor jouw token"

watercoolertje

Software development

@bazs2000 • 29 mei 2026 08:26

Je wekt de suggestie alsof daar wat mis mee is. Maar imo is er niks mis met een eerlijk(er) antwoord.

Als mijn werkgever mij wat vraagt waar ik geen antwoord op weet kost hem dat ook geld en levert hem niks op.

bazs2000 @watercoolertje • 29 mei 2026 08:43

Ik bedoel het niet negatief en ik weet niet of de vergelijking met een werknemer opgaat.

Wij gebruiken AI om vele redenen en betalen daarvoor. Voor de mensen die per opdracht betalen betekent dit dat er wordt betaald terwijl er geen resultaat is.

AI had voor het verwerken van de vraag en het geven van het antwoord resources verbruikt en dat is niet gratis.

De vraag is dan, betalen gebruikers voor de antwoorden of voor de verbruikte resources?

AI is geen werknemer. Staat niet op een loonlijst en het is geen mens. Eerst accepteren dat AI fouten maakt (10% volgens laatste onderzoeken) en nu gaan wij accepteren dat het soms het antwoord niet weet (maar wel voor dat antwoord betalen).

Het kan aan mij liggen maar in het geval van jouw vergelijking. Als ik een werknemer in dienst heb waarvan 10% van het werk fouten bevat en ook nog eens antwoorden niet weet dan zal ik het contract niet verlengen en plaats een vacature om te zoeken naar iemand die beter geschikt is voor de taak.

Concept8 @bazs2000 • 29 mei 2026 09:11

Misschien leert de gebruiker dan welke vragen niet aan het model gesteld moeten worden. Geen enkele werknemer weet alles over alles. Ligt het aan de natuurkundige als die vragen over biologie telkens niet kan beantwoorden en wordt die dan ontslagen? Of krijgt juist de vraagsteller een lastig beoordelingsgesprek omdat die telkens de verkeerde vragen stelt aan de verkeerde entiteit?

bazs2000 @Concept8 • 29 mei 2026 09:24

"U are using it wrong" was langere tijd geleden een gevleugelde uitspraak.

Voordat wij in aannames vervallen "Misschien leert de gebruiker dan welke vragen niet aan het model gesteld moeten worden.", daar gaat het artikel niet over en is ook niet de scope van mijn reacties.

Aan een natuurkundige een biologie-gerelateerde vraag stellen gebruik je als hypothetisch voorbeeld om aan te geven dat je de juiste vraag aan de juiste persoon moet stellen. Dat klopt, daar heb je gelijk in.

Alleen in het geval van AI bestaan er andere verwachtingen. Ik weet niet wat Claude allemaal weet (of niet). Daar zal ik achter moeten zien te komen. Van de natuurkundige weet ik precies waarvan deze kennis heeft en dus zal ik deze geen biologie-gerelateerde vraag stellen.

Het is goed om hier het gesprek over te laten gaan. Waar bestaan AI diensten uit en wat kun (en mag) je ervan verwachten? Op dit moment denken wij dit te weten al verandert er veel. Ik heb nog nooit een Google zoekopdracht zien resulteren in "ik weet het niet" tenzij ik een typfout maakte in een sleutelwoord. AI doet dat zo meteen wel bovenop de reeds bestaande beperkingen.

Ik probeer dit trouwens zo neutraal als mogelijk te houden omdat dit echt een lastig onderwerp is en qua definities die ook nog eens bij iedereen kan verschillen.

Toch, iets dat zo'n groot deel uitmaakt van onze maatschappij zal omkaderd moeten worden en dat is op dit moment nog niet zo. Verschillende modellen van verschillende bedrijven die onderling soms al niet te vergelijken zijn, hoe borgen wij als samenleving dat AI ondubbelzinnig, helder en transparant in de maatschappij wordt neergezet?

Concept8 @bazs2000 • 29 mei 2026 10:37

Ik ben het met je eens dat we collectief moeten leren wat de grenzen zijn van AI. Daarbij denk ik dat een “ik weet het niet” meer bijdraagt tot dat collectieve begrip dan een zelfverzekerde hallucinatie of enkel inhoudsloos geneuzel over hoe goed mijn vraag is en wat ik precies heb gevraagd, zonder kloppend antwoord.

Natuurkunde VS biologie is misschien te plat. Maar we zien al “maak mijn huiswerk voor mij”, “denk logisch na zodat ik dat niet hoef en klakkeloos het eerste hele antwoord naar mijn collega kan sturen”, “los mijn mentale gezondheidsprobleem op” en in sommige gevallen “ondersteun mijn complottheorie”.

Juist omdat de modellen zo universeel lijken is een “you’re holding it wrong” of zachter gezegd een besef van “you’re using it in a way that has a higher probability of negative outcomes or side effects” niet eens zo slecht lijkt me. Bij gesprekken over zelfmoord etc gebeurt dat al meer, en ik denk dat dat, zonder door te slaan naar het niveau van “don’t put your cat in” op de magnetron, nog wel meer mag gebeuren. Door regelgeving, de makers zelf en in het onderwijs.

chime @bazs2000 • 29 mei 2026 10:37

Wel, als je een expert inhuurt en die vervolgens vragen gaat stellen waar die het antwoord niet op weet ga je die toch moeten betalen.

Ook al liggen die vragen binnen het kennisdomein.

De expert zal dan ook wel kunnen voorstellen om er dieper op in te gaan en extra onderzoek te doen, maar ook dan is de uitkomst niet zeker.

Vergelijken met een google opdracht is nogal kort door de bocht, want bij AI stel je de vraag meestal in een bepaalde context, en wil je ook dat er een antwoord terugkomt waarmee je iets kunt doen binnen die context.
En ook google zoek opdrachten sturen wel eens een leeg scherm terug als ze niks terugvinden.

Remzi1993 @Concept8 • 30 mei 2026 11:59

Of krijgt juist de vraagsteller een lastig beoordelingsgesprek omdat die telkens de verkeerde vragen stelt aan de verkeerde entiteit?

In een eerlijke en ideale wereld wordt inderdaad de vraagsteller ontslagen, maar in de huidige wereld en praktijk is dus mijn ervaring dat als je dit soort fratsen ervaart het beste is om zsm een andere baan te vinden. Want het kan ook dossieropbouw zijn om je langzaam aan weg te werken.

Maar even terug komen op de topic, waarom kost het tokens om te beantwoorden dat AI de vraag niet kan beantwoorden? Misschien moet dat gratis, vind ik. Want er is geen informatie geleverd. En je weet niet altijd of het model bepaalde dingen weet of niet

[Reactie gewijzigd door Remzi1993 op 30 mei 2026 12:01]

watercoolertje

Software development

@bazs2000 • 29 mei 2026 09:41

De vraag is dan, betalen gebruikers voor de antwoorden of voor de verbruikte resources?

Mij lijkt het dat laatste het meest logisch, daar zitten namelijk de kosten van een bedrijf in.

Het kan aan mij liggen maar in het geval van jouw vergelijking. Als ik een werknemer in dienst heb waarvan 10% van het werk fouten bevat en ook nog eens antwoorden niet weet dan zal ik het contract niet verlengen en plaats een vacature om te zoeken naar iemand die beter geschikt is voor de taak.

Lijkt mij dat het antwoord waarop die zegt dat ie het niet weet ten koste gaat van het aantal fouten dat ie anders had gemaakt (omdat ie dus maar wat doet). En dus niet een optelsom van beide.

Uiteindelijk kost dit minder resources want efficienter dan de vorige versie, weet/kan ie meer (dus meer juiste antwoorden) en als die dan (itt de oudere versies) ergens echt niet uit komt dan geeft ie dat aan ipv een verzonnen verhaal (wat je veel meer tijd/energie kost ook bij de gebruiker).

bzuidgeest

Software development

@bazs2000 • 29 mei 2026 09:53

Je kan je AI abbo net zo hard opzeggen als het contract met je werknemer als je niet tevreden bent.

En je betaald voor de mogelijkheid om vragen te stellen. De complexiteit van de vragen en het antwoord bepaald hoeveel vragen je krijgt omdat het van een token budget af gaat. Alleen microsoft rekent nog af per vraag in github copilot en dat is zo ongunstig voor ze dat ze net als de rest van de markt per 1 juni overgaan op tokens.

Een kort "weet ik niet" antwoord kan heel belangrijk zijn om te krijgen en kost wellicht praktisch niets. Wellicht is het in sommige gevallen zelfs een short circuit waardoor het niets kost. Een vraag die uitgefilterd word voor de AI aan de gang gaat ermee.

Persoonlijk vind de AI al "eerlijker" dan in het begin. Maar je moet nog steeds opletten dat ze plekken niet zo zeer vol liegen als wel proberen missende data voor je in te vullen. In mijn reverse engineering met AI is dat verdomd lastig. Omdat je vaak een heel close, but not quite correct antwoord krijgt. In animaties zie je dat vaak makkelijk en dan vraag je x,y waardes na te kijken en te corrigeren. Maar voor gameplay rules.... Of het raket traject echt matched en zo... Veel moeilijker te zien. Dus ik stop nu al in de instructies dat een waarde niet gegokt of verzonnen mag worden. Maar hoe "eerlijker" de AI mag zijn, hoe minder verzinsels. Daar is onderzoek naar geweest.

De beste oplossing is de AI annotations laten maken bij zijn werk in ghidra en de repro code en zo. Maar beter is altijd mooier. Jammer dat opus LLM's zo duur zijn in gebruik.

hoeksmarp @bazs2000 • 29 mei 2026 09:57

Dus in de huidige situatie ben je bereid te betalen voor een zelfverzekerd maar verkeerd antwoord en in de nieuwe situatie niet voor een "ik weet dit niet"?

killerfreak @bazs2000 • 29 mei 2026 18:45

In dit geval heb je gewoon voor de verkeerde tool gekozen en ben jij degene die fout zit. Niet de AI

Ohnee, want als jij een fout zou hebben gemaakt had je jezelf natuurlijk al ontslagen en een vacature online gegooid om op zoek te gaan naar iemand die beter weet wat hij wel en niet aan een AI model kan vragen

theseboetz @bazs2000 • 29 mei 2026 20:41

Ik ben verre van AI-profeet, gebruikt het zelf eigenlijk nooit, maar...

Als een werknemer een dag over een antwoord doet, dan kost dat best veel geld. Als je met een beetje prompten hetzelfde in 15 minuten kan, dan mag dat best wat kosten, die 10% fouten kan je er dan zelf uithalen, of een werknemer voor inhuren. Als hij het niet weet, kan je alsnog de werknemer het werk laten doen. De snelheid waarmee AI antwoorden genereert ligt veel hoger dan een werknemer. Het stroomgebruik overigens ook!

WillySis @watercoolertje • 29 mei 2026 23:13

Als ik aan eeb werknemer iets vraag wil ik een eerlijk antwoord. Als de werknemer het niet weet, dan verwacht ik dat hij/zij/het dat ook eerlijk zegt en niet zomaar wat onzin uit zijn duim zuigt. Dat laatste kan enorm veel gaan kosten, terwijl ik bij "dat weet ik niet" gewoon via andere wegen op zoek ga naar het antwoord.

Dat AI modellen soms maar wat verzinnen stoort mij mateloos en maakt ze niet betrouwbaar om (moeilijke) vragen aan te stellen. Ik ben daarom ook vaak terughoudend om AI te gebruiken en vraag ook altijd om de bronnen.

GHengeveld @bazs2000 • 29 mei 2026 08:50

Wat mij betreft is “dit is onbekend” ook gewoon een waardevol antwoord. Als ik een inspecteur mijn huis laat checken op bouwtechnische fouten en hij vind niks, is dat ook waardevol en krijg ik ook gewoon een factuur voor de dienstverlening.

bazs2000 @GHengeveld • 29 mei 2026 09:12

Een inspecteur geeft een rapport waaruit blijkt dat het geen fouten heeft geconstateerd. Een inspecteur zegt niet "ik weet niet of er bouwtechnische fouten zijn". Het rapport dat wordt overhandigd toont ook aan waar de inspecteur geen fouten heeft ontdekt en waar de technische staat dus is goedbevonden.

Is deze vergelijking de juiste?

Dit is een buitengewoon lastig onderwerp, vooral op dit moment. Vandaar dat ik in mijn eerdere antwoord naar @watercoolertje dan ook de vraag stel (niet direct aan hem maar aan alle lezers ervan) waarvoor wij betalen. Als wij betalen om de verbruikte resources dan is dat een ander uitgangspunt dan wanneer wij betalen voor het resultaat.

Op dit moment is AI dusdanig gepositioneerd dat wij gebruikers betalen voor het resultaat. Dat zou zomaar eens anders kunnen liggen.

itavero

@bazs2000 • 29 mei 2026 13:02

Zoals je ook bij de aanpassing ziet die GitHub doorvoert in de facturering van Copilot, lijkt het meer naar usage based billing te gaan, onder het mom van transparantie (zij het niet dat voor ieder model een token weer iets anders kan betekenen/zijn, caching verschilt per provider/model, en het onder de streep dus juist onduideiljker wordt).

Een van de grote problemen die ik daar mee zie is dat GitHub en Anthropic en zo, nu ook zelf de "agentic harness" (zoals Claude Code of Copilot CLI) aanbieden.
Zij zijn er enigszins bij gebaat als we meer tokens verbruiken, dus wie zegt dat zij nu focussen op efficientie van hun harness.. Daar heb ik wel wat vraagtekens bij.
Er zijn wel onafhankelijke opties overigens.

Standeman @bazs2000 • 29 mei 2026 08:05

Beter dan: "Hier is een bullshit antwoord, bedankt voor je token".

JayPe

@Standeman • 29 mei 2026 11:59

Precies

Hele draad met reacties om niets. Misschien zegt ie wel: dank voor je vraag. ik weet het niet. het kost je geen token. Fijne dag.

Ohnee, fijne dag is het nooit. Het is altijd: kan ik je ergens anders nog mee helpen?

EKlvin @bazs2000 • 29 mei 2026 08:46

Of het spuugt een lap hallucineerde teksten uit en je bent 10x zoveel tokens kwijt.

jhnddy @bazs2000 • 29 mei 2026 09:33

Dat vind ik terecht. De AI servers staan over zulke vragen net zo hard te stampen als op vragen die ze wél kunnen beantwoorden.

Hemingr @bazs2000 • 29 mei 2026 11:10

Ik doe veel met het auditeren van bedrijven en processes, zowel als auditee en auditor. Wij leren onze mensen daat "dat weet ik niet" een bijzonder valide antwoord is. Een beter antwoord dan onzin.

Thijzer @bazs2000 • 29 mei 2026 08:07

Geen idee, maar hier is een samenvatting van jouw vraag.

PWR. @bazs2000 • 29 mei 2026 17:55

Bedankt voor je token, ik vertel je BS.

cane 29 mei 2026 08:11

Ik merk zelf niet echt veel verbeteringen ten opzichte van 4.7. Met 4.7 moest ik herhaaldelijk veel toezeggingen doen en de kwaliteit en "fixes" waar hij mee aan kwam zetten was echt waardeloos, draai nu 4.8 sinds gister en heb even kort de workflows uitgeprobeerd maar het is allemaal maar magertjes en dat ze nog steeds Mythos "marketing" niet releasen terwijl GPT 5.5 net zo goed is, ik denk dat ik maar weer terug ga naar OpenAI eigenlijk. Ik wissel af en toe en ik wou dat ik nu nog ChatGPT 5.5 Pro had, die was echt goed. Momenteel gebruik ik Claude Max x20 met 4.8 en qua limieten voelt het alsof je Claude Pro hebt met Sonnet 4.6, echt bagger.

HyperioN @cane • 29 mei 2026 08:19

Oprechte vraag: wat doe je allemaal dat je een Max x20 abo nodig hebt?

Ik zit tegenwoordig zo’n beetje de hele dag te werken met Claude Code, is de hele dag aan het brewing tinkering whirlpooling etc., maar kom eigenlijk nooit aan de x5 limiet.

Niemand_Anders @HyperioN • 29 mei 2026 09:41

Ik heb 5 Max20 abonnementen. Kost 1000 dollar per maand, maar daar staat tegenover dat mijn factureerbare uren omhoog zijn gegaan van 15 naar 45 per week. Wij rekenen 150 euro per uur. Da's 3000 euro extra inkomen per week, ~12,000 per maand voor slechts een investering van 1000 euro en 5 Miniforums X1 lite computertjes. Vanuit Konsole kan ik ze eenvoudig alle 5 beheren. WorkTrees zijn soms een oplossing, maar ik vind het fijner om op aparte machines te werken.

Ik vond 4.7 al zeer sterk, zeker als je eerst begint in plan mode en je CC de opdracht geeft alle vragen direct te stellen, wat de mogelijke antwoorden zijn en wat het beste antwoord is. Daaruit laat ik dan meestal een handoff document genereren en gebruikt ik in een nieuwe sessie. Deze werkwijze scheelt mij heel erg veel tijd.

Naast Claude, heb ik ook nog een CodeLLM abonnement met 30 dollar extra credits per maand en CodeLLM maakt eerst de 20,000 abo credits op voordat het de aangekochte credits aanraakt. Erg netjes. Ik gebruik CodeLLM vooral voor images, video's (korte clips), t2s, s2t en je kunt de CodeLLM API gebruiken met je abonnement credits, dus mijn smarthome controller maakt er ook nog wat gebruik van.

Af en toe gebruik ik het ook om wat verschillende LLM modellen met elkaar te vergelijken, maar ongeveer 1,5 maand geleden hebben ze de UI aangepast en vind ik het minder fijn werken.

Henk1827 @Niemand_Anders • 29 mei 2026 10:34

Gefeliciteerd met je success, maar dit soort verhalen zijn heel lastig te verifieren. Ik heb een hoop IT afdelingen gezien sinds de eerste Copilot (GPT2), maar zelfs de grootste hypers zien een bescheiden productiviteitswinst. Het hangt ook een beetje van de business af, als de kwaliteit laag mag zijn dan “slop” je ‘m gewoon even. Maar bij bedrijven met kritieke systemen zijn bovenstaande verhalen kletspraat.

Gamebuster @Henk1827 • 29 mei 2026 11:01

dit soort verhalen zijn heel lastig te verifieren.

Ik heb dit gesprek ook vaker gehad en sommigen geloven het gewoon niet. Het is echt prima te doen om gewoon "alles" met AI te doen. Zodra je QA ook met AI afhandelt kan je zo vele projecten tegelijk draaien met AI.

Het is bijna zo simpel als "voer de user stories, mails, slacks etc" direct aan Claude, laat Claude het uitzoeken, fixen, testen (unit tests, integratie tests, e2e tests, letterlijk met een browser laten klikken) en laat het een PR/MR maken. Check the PR, deploy en test (of test en deploy, volgorde mag je zelf kiezen hah)

Claude sessies draaien bij mij soms langer dan een uur zonder enige interactie.

Om te beginnen, neem een claude code abonnement, installeer de superpowers plugin, en gebruik die.

[Reactie gewijzigd door Gamebuster op 29 mei 2026 11:02]

demianmonteverd @Gamebuster • 29 mei 2026 11:35

Die plugin (superpowers) is echt ... maar dat is smaak misschien (vreet context, doet bijv. zaken die je met hooks in git / je ai harnass of met fsnotify al kunt doen zonder context verlies, etc.).

Voor wat betreft of mensen je geloven of niet. De onderzoeken geven aan dat het ongeveer 4-8% verbetering aan de productiviteit laat zien. Als mensen die ervaringen hebben, dan is het logisch dat ze jou niet direct geloven. Het is gewoon enorm afhankelijk van wat je doet. Mijn vriendin heeft ook success met AI (meer dan die 4-8% uit de onderzoeken), maar vrienden van ons hebben slechtere verhalen. Zou het daarom niet op jezelf betrekken als mensen je niet geloven om die reden.

Gamebuster @demianmonteverd • 29 mei 2026 11:43

Het maakt me inderdaad verder niet uit, ik weet zelf dat mijn productiviteit compleet anders is. Beter? dat weet ik niet. Het hele werk is nu anders. Ik schrijf 0 regels code nu, en ik focus me volledig op documenteren en QA - zaken die ik voorheen veel minder deed. Mijn fantasie is dan ook dat als de documentatie en QA op orde is, dat AI "gedwongen" wordt om iets goeds op te leveren en ik tegelijkertijd "Bewijs" heb dat het in orde is, en ik zo vrijwel niets handmatig hoef te doen.

Ik ben dan ook veel tijd kwijt aan het verbeteren van tooling. Ik denk oprecht dat ik bijna de helft van mijn tijd bezig ben (misschien wel meer...) met het verbeteren, experimenteren, etc van een AI workflow ipv het werk zelf.

Ik zie dit echter totaal niet als "loondiefstal" o.i.d. - ik werk gewoon mijn tijd, ik besteed tijd aan werk, en ik ben volledig transparant hoe ik mijn tijd indeel en waar de tijd heen gaat, en de tijd die ik stop in tooling vs "het werk zelf" houd ik ook bij. Zaken die parallel gedaan worden, verdeel ik dan over de gewerkte uren; als ik in een blok van 4 uur aan 2 projecten heb gewerkt, gaat er 2 uur naar project A en 2 uur naar project B. Ik vind het onethisch om dan 4 uur per project te factureren.

Tassadar32 @Henk1827 • 29 mei 2026 11:38

Mijn grootste bottleneck is op dit moment tokens en machines. Met meer zou ik veel meer werk gedaan kunnen krijgen.

Cerebriform @Niemand_Anders • 29 mei 2026 10:00

Wauw dat is een geweldige stijging in productiviteit inderdaad. Dit is werk als developer?

TigerXtrm @Niemand_Anders • 29 mei 2026 10:26

Wacht ff, dus je bent AI gaan gebruiken om slopcode te schrijven... en daarvoor factureer je je klanten MEER uren dan je daarvoor deed? Je klanten betalen meer terwijl jij letterlijk minder werk doet?

Beetje kromme situatie, niet?

Dix0r @TigerXtrm • 29 mei 2026 10:36

Je houdt h klanten hier nu nog mee voor de gek.

Er komt alleen een periode waarbij men dit doorheeft en dit dus ook terug wil zien in het tarief. Ik ken partijen die al bewust die vraag stellen.

Race to the bottom e/o normalisatie.

demianmonteverd @Dix0r • 29 mei 2026 12:26

Geen idee van de kwaliteit die geleverd word door de werkgever van Niemand_Anders, maar... 150 per uur voor een externe consultant... Dat is helemaal niet duur. Zeker als je er rekening mee houdt dat men uitgaat van 30% bankzitten. Zoals altijd met software, gaat het er om dat je de juiste beslissingen/keuzes op het juiste moment met de juiste informatie maakt en dan haal je die 150 voor een iets grotere organisatie die zo'n bedrijf inhuurt er zeker wel uit. Als je een kleiner bedrijf/organisatie bent dan haal je het er niet uit, dan moet je ook deze helden niet aannemen voor je klus.

Rhizix @TigerXtrm • 29 mei 2026 10:45

"om slopcode te schrijven"
Man man man, zeg me dat je nog nooit een deftige Agent workflow gebruikt hebt zonder het te zeggen.

Ja er is een zondvloed aan slop, maar om steeds maar met dat zinnetje te gebruiken zodra het voor AI/LLM aanwezig is, is gewoon dom.

Caelorum @TigerXtrm • 29 mei 2026 11:05

Hoezo? Die uren facturatie is sowieso al super dom. Je betaald uiteindelijk voor de kunde en kennis.
Zodra iemand beter wordt gaat de uurprijs normaliter ook omhoog omdat het hoeveelheid werk in uren als het goed is omlaag gaat. Dat kan je blijven doen, maar je kan ook gewoon je uren omhoog doen.
Toen ik nog bij een bedrijf werkte waar we per kwartier factureerden had ik ook vaak 120% facturabele uren terwijl ik eigenlijk maar 80% had kunnen halen volgens jouw regels.

demianmonteverd @Caelorum • 29 mei 2026 12:28

Het verhaal van de loodgieter en de rekening voor een paar minuten werk: 10 euro oplossing monteren, 90 euro het probleem vinden en de juiste oplossing weten.

Gamebuster @Niemand_Anders • 29 mei 2026 10:58

Interessant dat je 5 machines gebruikt; ik heb al mijn projecten in worktrees / dockers / containers gezet (ahum, laten zetten, claude) en draai alles op 1 degelijke desktop (64GB RAM, 7950X)

Heb regelmatig 4+ interactieve sessies die elk weer vele sub-agents hebben draaien, en dit past meestal nog binnen 1 claude code max (regelmatig zit ik aan het limiet maar dan pak ik wat extra-usage)

Wat was voor jou de reden om letterlijk 5 machines te gebruiken ipv een container?

Nefiorim @HyperioN • 29 mei 2026 08:22

De lol begint bij grotere taken en subagents.

Als jij 1 op 1 met je CC bezig bent dan gaat het vaak zo snel nog niet. Als je effort op max zet en je hebt gespecialiseerde subagents die geactiveerd worden en in de achtergrond draaien terwijl jij verder gaat met andere dingen dan doet t snel pijn

DeCo @Nefiorim • 29 mei 2026 09:40

Oprechte ietwat offtopic vraag.. waarom en hoe dan?

Ik gebruik Github Copilot in Jetbrains voor een tientje per maand. Het is een prima assistent, die ik uitdagingen kan voorleggen en in veel gevallen bijna mooie antwoorden terug geeft en mij op die manier goed aanvult. Het versnelt mijn werk significant. Maar dat is het dan wel.

Hoe zet je die agents in en voor wat? Ik bedoel, een .NET solution is wat het is. Ik durf er niet eens agents geautomatiseerd er op los te laten. Bovendien is het een behoorlijk kostbare bedoeling, maar dat zal vast teruggewonnen kunnen worden in efficientie en doorlooptijden.

ik vermoed dat ik nog te conservatief en ouderwers ben hier voor..

Caelorum @DeCo • 29 mei 2026 11:10

Als het niet werkt betekend dat je de infra voor de agent niet goed hebt. Meer tools, meer context, meer informatie over hoe bepaalde taken uit te voeren.

Zelf gebruik ik het om architectuurdocumentatie te schrijven, te cross-referencen met alle powerpoints en word documenten die rondzwerven en met de documentatie van teams. Ik geef de AI tegenwoordig een prompt van max 5 zinnen, dan gaat het eerst plannen en dan met meerdere subagents aan de slag. Het eindresultaat is best wel indrukwekkend. (en mijn werk is vooral verschoven naar lezen en controleren wat het uitspuugt, net zoals met teksten geschreven door de rest van de afdeling dus)

Voor wijzigingen in solutions is het niet anders. Je moet vooral ook echt de context beschikbaar hebben voor de agent en duidelijke uitleg over hoe het bepaalde taken kan uitvoeren. Als de AI niet 90% tot 95% van je wijziging voor je kan doen dan zit er IMO iets mis in je AI infra of je workflow. Om AI effectief te gebruiken moet je echt leren het te gebruiken, zoals je ook ooit hebt geleerd om in .net te ontwikkelen met een IDE.

Gamebuster @HyperioN • 29 mei 2026 10:55

Ik heb al meerdere keren op het limiet gezeten, ik heb claude code de hele dag draaien met meerdere projecten tegelijk, incl. veel CI / QA processen die autonoom dingen checken

Keypunchie @cane • 29 mei 2026 10:58

Eens over de limieten, maar dat de "fixes" bagger zijn? Het is ook een beetje hoe je het gebruikt.

Het verschil tussen Sonnet en Opus vind ik dag en nacht, maar Opus is voor mij heel bruikbaar. Dan heb ik wel redelijk bescheiden codebases, dus dat zou het verschil ook kunnen zijn.

cane @Keypunchie • 29 mei 2026 11:57

Hij gaat niet automatisch door op problemen die hij wel kan oplossen maar hij vult wel de autocomplete in, hij negeert gewoon /loop en /goals en verplicht je interactie met de CLI.

Wanneer het wel bezig is heeft Claude nog enorm veel last van tunnelvisie en moet je naar mijn ervaring hem constant bij sturen anders gaat hij bezig met oplossingen die eigenlijk geen oplossingen zijn en meer een overfittingsprobleem veroorzaken.

Ik gebruik Claude/GPT nu al wat jaren sinds 2022 (ChatGPT 3.5) en ik probeer ook steeds meer dingen te pushen en draai wat benchmarks om te kijken wat nu wel mogelijk is, maar ik irriteer me nog mateloos aan die dingen en GPT heeft daar minder problemen mee op dit moment.

Het helpt ook niet dat ze constant de models steeds nerfen in aanloop naar nieuwe model releases. Benchmarks zijn niet alles natuurlijk, maar je merkt het wel als je het dagelijks gebruikt en ook de data laat dat zien. Bijvoorbeeld https://marginlab.ai/trackers/claude-code/ (Status: Degradation detected over past 7 days)

Henk1827 29 mei 2026 08:33

Claude weet helemaal niet of het iets wel of niet weet. Het kijkt alleen naar het aantal keren dat dat iets in zijn dataset voorkomt, en encodeert dat in zijn parameters.

Niemand_Anders @Henk1827 • 29 mei 2026 09:48

Die fase zijn we al zeer lang voorbij! Claude (en andere thinking modellen) checken namelijk of de response ook antwoord geeft op de vraag en anders formuleert het een nieuw antwoord en in sommige gevallen stelt het dan aanvullende vragen. Om die reden worden de LLM modellen ook steeds beter in het uitvoeren van taken.

Zijn dataset wordt alleen gebruikt voor het trainen van het data model. Die dataset wordt vrijwel niet gebruikt voor het uitvoeren van je instructie. Daarom gebruiken deze modellen ook tools. Als het iets niet weet, doet het een internet search en combineert dat met de bestanden welke het heeft gelezen op jouw computer.

Henk1827 @Niemand_Anders • 29 mei 2026 10:15

Hoe bedoel allang voorbij? Is een LLM bewust geworden? Nee. Een LLM weet helemaal niets van zichzelf. Het is misschien een beetje een flauwe of filosofische discussie, maar als de parameter in het model aangeeft dat de kans groot is dat het zo is dan, krijg je dat als output van het model dat het zo is. “Thinking” is niets anders dan weer de vraag en antwoord met hetzelfde model (of een ander) stellen, en daar weer op reageren. Er is niets menselijks aan, kijk uit dat je daar niet intrapt.

Ik heb zelf modellen geprogrammeerd en getrained.

demianmonteverd @Henk1827 • 29 mei 2026 11:15

Er is een paper over de manier waarop je met een berekening aan de hand van de latent space die per aanbevolen/kandidaat token kan uit aangeven wat de kans is dat er sprake is van een hallucinatie. Het is vrij duur om te doen / draaien, maar wellicht heeft anthropic dat kunnen verbeteren. Het is nog steeds kansberekening, zoals jij aangeeft, maar men is er dus mee bezig in de academische wereld (en waarschijnlijk zijn ze al verder bij anthropic).

Keypunchie @Henk1827 • 29 mei 2026 18:29

Het is zeker niet menselijk, maar is het daarmee dan ook geen denken?

Het eindresultaat is in ieder geval niet dom.

Net zoals een schaakcomputer ook maar "posities doorrekent"... Het verslaat daarmee wel nagenoeg iedereen van de mensheid, behalve misschidn een handjevol wereldtoppers

FrederikVDN 29 mei 2026 08:17

Dit is het vb van een echt verdienmodel, Ikzelf werk veel met die toepassingen omdat het mij helpt om vlugger te programmeren.
Maar Claude word zo geprezen en heb eens getest 1 op 1 vb( Beide Pro abbo genoemen) met Perplexity, Perplexity gaat dieper in op de code met de welisweer de zo goed als de juiste syntax, waar claude veel steken laat vallen en veel vergeet en na een uur of 2 zegt Claude al dat ik aan mijn limit zit, dit is echt te gek..waar ik met Perplexity vb een paar dagen kan prompten...
Perplexity heeft dan andere nadelen qua privacy maar dat heeft iedere AI assistent wel denk ik, gewoon opletten dat je geen gevoelige info zoals sleutels,paswoorden en persoonlijke info doorgeeft en dat je op tijd uw geschiedenis verwijderd.

carpcatcher @FrederikVDN • 29 mei 2026 08:36

Claude heeft per week een blok en per 5 uur een blok waarin je x aantal tokens mag verbruiken.
enige tijd geleden hadden ze in in het paasweekend, in de ochtend en nachtelijke uren (GMT-6) een voordeel. (off-peak usage) wat een verademing was dat voor het Pro-abonnement.

Deze maand gebruik ik Claude weer intensief en daardoor zit ik opnieuw aan een Max-abonnement.
totaal per maand zou ik het niet nodig hebben, maar tijdens werk uren wil ik doorwerken..

satya @FrederikVDN • 29 mei 2026 09:35

Geheugen is een optionele kost bij Claude. Normaal is het 1 uur, en voor meer zou betaald moeten worden.

In projects bouwt het juist geheugen op, en er zijn mensen die er om die reden iets tussen zetten zodat ze oneindig geuegen hebben. Daarbovenop speelt nog een EU Act die alles ouder dan 30 fagen standaard verwijderd wil hebben.

Pasteis 29 mei 2026 08:27

De grote sprongen in taalmodellen lijken toch wel al langzaam voorbij te zijn. Het zit hem nu in optimalisaties zoals betrouwbaarheid. Mijn verwachting is dat deze fase ook wel redelijk lang gaat duren... omdat ik denk dat het 80% effort zal zijn om de laatste 20% van de volwassenheid te halen.

Wel verfrissend als LLM's eerlijk zijn als ze het niet weten of hun oprechte twijfels uitspreken.

demianmonteverd @Pasteis • 29 mei 2026 11:11

Dat dit model (enigsinds) kan aangeven of het wel of niet een correct/juist antwoord kan formuleren is wel echt een verbetering. En nog steeds maakt men verbeteringen die het gebruik verbeteren, zoals die workflows nu eindelijk (nog niet getest zelf) in de tooling zelf gezet te hebben. Scheelt enorm als het werkt voor gebruikers.

iqcgubon 29 mei 2026 08:42

Wat krĳgen we nu? Dit hadden die clankers al van in het begin moeten doen ipv constant shit te verzinnen.

watercoolertje

Software development

@iqcgubon • 29 mei 2026 09:59

Dit heet gewoon evolutie en dat maken alle producten mee, en wijzelf ook. Dus ja het was mooi geweest als dat met een zo was, maar is het reëel om te stellen dat dat nodig was? Echt niet

Het is aan jou om het eerder niet te gebruiken als het je niet zint en nu wel als het je wel zint. I

iqcgubon @watercoolertje • 29 mei 2026 10:40

Ja, want mensen zijn OH ZO verantwoordelijk in het omgaan met nieuwe technologie. AI boeren verkopen hun bots as het neusje van de zalm. De alleskunners die iedereen gaan vervangen. Maar als ze dan harder hallucineren dan een schizofreen in het gesticht is het antwoord "ja maar je gebruikt het verkeerd!"

Dit had er absoluut van in het begin in moeten zitten. Of op zijn minst een gigantisch rode disclaimer bij elk antwoord dat uit tekstvoorspeller 3000 voorkomt.

Quintiemero @iqcgubon • 29 mei 2026 11:39

Er staat atlijd al een disclamier. En 'hallicuneren' is integraal onderdeel van een LLM.

RobjeDopje 29 mei 2026 08:15

ChatGPT 5.6 in 3, 2, 1...

Cybje

@RobjeDopje • 29 mei 2026 08:21

Ik heb eigenlijk het idee dat GPT 5.5 al aardig goed was op dit gebied. Ik doe coding sessies met zowel Codex/GPT en Claude Code/Opus en GPT gaf veel eerder aan als het iets niet wist, of ging brainstormen met mij als gebruiker, of als ik zelf een onjuistheid in mijn prompt had staan dan geeft GPT dat ook eerder aan. En ja, Opus 4.6/4.7 deed dat ook wel, maar in mindere mate.

djexplo @RobjeDopje • 29 mei 2026 08:37

Het trainen van een basismodel zoals GPT-4, of Gemini 1.0 Ultra, is duur, typisch rond de 100 Miljoen, en kost maanden aan tijd.

Wat je hier ziet is eigenlijk het optimalizeren van een bestaand model, en alles er om heen. Zoals updates aan tooling, b.v. om een PDF beter te parsen naar losse tekst en plaatjes, of uitbreiding van de embedded Python environment, of het fine-tuning van het model (beperkte training) op bepaalde use-cases zoals math-problems.

Dit is eigenlijk een continue process vergelijkbaar bij sprints bij een normaal IT bedrijf. Waarbij er eigenlijk gewoon elke 2 tot 3 maanden een release gepland staat. Waarbij GPT-5.6 volgens polymarket nu 30 Juni of 31 Juli komt.

Bouwer21000 29 mei 2026 11:54

Hm, ik zie dit nog niet bevestigd in externe benchmarks.

ArtificialAnalysis.ai heeft hiervoor de Omniscience Hallucination Rate, daar scoort Opus 4.8 maar heel marginaal beter dan Opus 4.7: https://artificialanalysis.ai/?omniscience=omniscience-hallucination-rate

Myri 29 mei 2026 14:30

Anthropic zegt ook dat Opus 4.8 een betere fast mode krijgt, die drie keer minder tokens verbruikt dan eerdere modellen.

Wel...
Opus 4.6 = 3x multiplier
Opus 4.6 Fast mode = 30x multiplier

Ik vermoed dat het dan met een 10x multiplier zal in de markt gezet worden? Anders ben je de mensen gewoon aan het oplichten met marketing-praat

ASNNetworks @Myri • 29 mei 2026 17:40

Opus 4.6 Fast Mode heeft geen 30x multiplier. Jij haalt dat vermoedelijk van Github Copilot vandaan die er een 30x multiplier aan plakt. Dat heeft niks te maken met de prijzen die Anthropic zelf rekent. Zo is er ook geen 3x multiplier voor Opus. Bij Anthropic zelf kosten Opus tokens $5/$25 per 1M input/output vs $3/$15 bij Sonnet. Dus zo'n 1,66x zo duur.

Bij Claude API zelf heeft Opus 4.6/7 Fast Mode namelijk 6x de input/output prijs als normaal. Daar wordt ook niet gewerkt met multipliers, maar worden de tokens simpelweg hoger belast. En met Opus 4.8 wordt dit 3x minder dan de huidige Fast Mode, dus 2x zo duur als normaal, maar wel 2.5x de snelheid. Hieronder de exacte prijzen per 1M input/output

Opus 4.6/7/8: $5/$25
Opus 4.6/7 Fast Mode: $30/$150
Opus 4.8 Fast Mode: $10/$50

https://code.claude.com/docs/en/fast-mode

Overigens goed om te weten: Fast Mode is nog steeds enkel te gebruiken met usage credits. Dus als je een Pro/Max abonnement hebt, moet je alsnog usage credits hebben die via API worden belast. Je kan dus niet je abonnement usage hiermee verbruiken helaas. Hopelijk voegen ze dat toe, want het komt wel eens voor dat ik dan eind van de week zit en nog genoeg usage over heb. Dan zou ik wel Fast Mode willen gebruiken om 2x usage te verbruiken voor 2.5x de snelheid.

[Reactie gewijzigd door ASNNetworks op 29 mei 2026 18:21]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (66)

Sorteer op:

Weergave: