Claude Opus 4.8 zegt heel eerlijk dat het iets niet weet, beweert Anthropic

Anthropic heeft Claude Opus 4.8 uitgebracht. Dat model volgt Opus 4.7 dat vorige maand uitkwam. Opus 4.8 scoort in de meeste benchmarks iets beter dan het eerdere taalmodel, maar Anthropic zegt dat Opus 4.8 zich vooral onderscheidt met zijn 'eerlijkheid'. Dat betekent in de praktijk dat Opus vaker toegeeft dat het iets niet weet en minder uitspraken doet die het niet kan onderbouwen.

Anthropic toont een aantal benchmarks voor Opus 4.8 waaruit blijkt dat het model op de meeste maatstaven enkele procentpunten beter presteert dan Opus 4.7. Dat model kwam in april uit. De grootste verbetering zit in de manier waarop Claude in een terminal code kan genereren.

Waar Opus 4.8 vooral verbetert, is diens 'eerlijkheid'. Anthropic zet dat in de context van AI-modellen die regelmatig onterecht conclusies trekken of aangeven dat ze al voortgang hebben gemaakt met een taak terwijl dat niet klopt. Opus 4.8 doet dat veel minder, zegt Anthropic. Het model 'geeft vaker onzekerheid over diens werk aan en doet minder vaak niet-ondersteunde uitspraken'.

Om dat kracht bij te zetten, heeft Anthropic een onderzoeksrapport online gezet. Daarin schrijft het bedrijf dat Opus 4.8 'vier keer minder waarschijnlijk fouten in code laat staan zonder dat daar een opmerking over te maken'.

Opus 4.8 is te gebruiken via Claude Code en uiteraard Claude.ai en de apps. Anthropic zegt ook dat Opus 4.8 een betere fast mode krijgt, die drie keer minder tokens verbruikt dan eerdere modellen.

Anthropic brengt naast Opus 4.8 ook 'dynamische workflows' uit in Claude Code. Dat betekent dat Claude tot wel 'honderden' subagents aan kan zetten in een enkele sessie, waardoor het mogelijk wordt grotere taken uit te voeren via Claude Code. Anthropic noemt als voorbeeld dat Opus 4.8 migraties kan doen van volledige codebases.

Anthropic Claude stock. Bron: Samuel Boivin/NurPhoto via Getty Images

Door Tijs Hofmans

Nieuwscoördinator

29-05-2026 • 07:46

59

Submitter: HexaLogic

Reacties (59)

Sorteer op:

Weergave:

"Ik weet het antwoord niet maar bedankt voor jouw token"
Je wekt de suggestie alsof daar wat mis mee is. Maar imo is er niks mis met een eerlijk(er) antwoord.

Als mijn werkgever mij wat vraagt waar ik geen antwoord op weet kost hem dat ook geld en levert hem niks op.
Ik bedoel het niet negatief en ik weet niet of de vergelijking met een werknemer opgaat.

Wij gebruiken AI om vele redenen en betalen daarvoor. Voor de mensen die per opdracht betalen betekent dit dat er wordt betaald terwijl er geen resultaat is.

AI had voor het verwerken van de vraag en het geven van het antwoord resources verbruikt en dat is niet gratis.

De vraag is dan, betalen gebruikers voor de antwoorden of voor de verbruikte resources?

AI is geen werknemer. Staat niet op een loonlijst en het is geen mens. Eerst accepteren dat AI fouten maakt (10% volgens laatste onderzoeken) en nu gaan wij accepteren dat het soms het antwoord niet weet (maar wel voor dat antwoord betalen).

Het kan aan mij liggen maar in het geval van jouw vergelijking. Als ik een werknemer in dienst heb waarvan 10% van het werk fouten bevat en ook nog eens antwoorden niet weet dan zal ik het contract niet verlengen en plaats een vacature om te zoeken naar iemand die beter geschikt is voor de taak. ;)
Misschien leert de gebruiker dan welke vragen niet aan het model gesteld moeten worden. Geen enkele werknemer weet alles over alles. Ligt het aan de natuurkundige als die vragen over biologie telkens niet kan beantwoorden en wordt die dan ontslagen? Of krijgt juist de vraagsteller een lastig beoordelingsgesprek omdat die telkens de verkeerde vragen stelt aan de verkeerde entiteit?
"U are using it wrong" was langere tijd geleden een gevleugelde uitspraak.

Voordat wij in aannames vervallen "Misschien leert de gebruiker dan welke vragen niet aan het model gesteld moeten worden.", daar gaat het artikel niet over en is ook niet de scope van mijn reacties.

Aan een natuurkundige een biologie-gerelateerde vraag stellen gebruik je als hypothetisch voorbeeld om aan te geven dat je de juiste vraag aan de juiste persoon moet stellen. Dat klopt, daar heb je gelijk in.

Alleen in het geval van AI bestaan er andere verwachtingen. Ik weet niet wat Claude allemaal weet (of niet). Daar zal ik achter moeten zien te komen. Van de natuurkundige weet ik precies waarvan deze kennis heeft en dus zal ik deze geen biologie-gerelateerde vraag stellen.

Het is goed om hier het gesprek over te laten gaan. Waar bestaan AI diensten uit en wat kun (en mag) je ervan verwachten? Op dit moment denken wij dit te weten al verandert er veel. Ik heb nog nooit een Google zoekopdracht zien resulteren in "ik weet het niet" tenzij ik een typfout maakte in een sleutelwoord. AI doet dat zo meteen wel bovenop de reeds bestaande beperkingen.

Ik probeer dit trouwens zo neutraal als mogelijk te houden omdat dit echt een lastig onderwerp is en qua definities die ook nog eens bij iedereen kan verschillen.

Toch, iets dat zo'n groot deel uitmaakt van onze maatschappij zal omkaderd moeten worden en dat is op dit moment nog niet zo. Verschillende modellen van verschillende bedrijven die onderling soms al niet te vergelijken zijn, hoe borgen wij als samenleving dat AI ondubbelzinnig, helder en transparant in de maatschappij wordt neergezet? :)
Ik ben het met je eens dat we collectief moeten leren wat de grenzen zijn van AI. Daarbij denk ik dat een “ik weet het niet” meer bijdraagt tot dat collectieve begrip dan een zelfverzekerde hallucinatie of enkel inhoudsloos geneuzel over hoe goed mijn vraag is en wat ik precies heb gevraagd, zonder kloppend antwoord.

Natuurkunde VS biologie is misschien te plat. Maar we zien al “maak mijn huiswerk voor mij”, “denk logisch na zodat ik dat niet hoef en klakkeloos het eerste hele antwoord naar mijn collega kan sturen”, “los mijn mentale gezondheidsprobleem op” en in sommige gevallen “ondersteun mijn complottheorie”.

Juist omdat de modellen zo universeel lijken is een “you’re holding it wrong” of zachter gezegd een besef van “you’re using it in a way that has a higher probability of negative outcomes or side effects” niet eens zo slecht lijkt me. Bij gesprekken over zelfmoord etc gebeurt dat al meer, en ik denk dat dat, zonder door te slaan naar het niveau van “don’t put your cat in” op de magnetron, nog wel meer mag gebeuren. Door regelgeving, de makers zelf en in het onderwijs.
Wel, als je een expert inhuurt en die vervolgens vragen gaat stellen waar die het antwoord niet op weet ga je die toch moeten betalen.

Ook al liggen die vragen binnen het kennisdomein.

De expert zal dan ook wel kunnen voorstellen om er dieper op in te gaan en extra onderzoek te doen, maar ook dan is de uitkomst niet zeker.

Vergelijken met een google opdracht is nogal kort door de bocht, want bij AI stel je de vraag meestal in een bepaalde context, en wil je ook dat er een antwoord terugkomt waarmee je iets kunt doen binnen die context.
En ook google zoek opdrachten sturen wel eens een leeg scherm terug als ze niks terugvinden.
De vraag is dan, betalen gebruikers voor de antwoorden of voor de verbruikte resources?
Mij lijkt het dat laatste het meest logisch, daar zitten namelijk de kosten van een bedrijf in.
Het kan aan mij liggen maar in het geval van jouw vergelijking. Als ik een werknemer in dienst heb waarvan 10% van het werk fouten bevat en ook nog eens antwoorden niet weet dan zal ik het contract niet verlengen en plaats een vacature om te zoeken naar iemand die beter geschikt is voor de taak. ;)
Lijkt mij dat het antwoord waarop die zegt dat ie het niet weet ten koste gaat van het aantal fouten dat ie anders had gemaakt (omdat ie dus maar wat doet). En dus niet een optelsom van beide.

Uiteindelijk kost dit minder resources want efficienter dan de vorige versie, weet/kan ie meer (dus meer juiste antwoorden) en als die dan (itt de oudere versies) ergens echt niet uit komt dan geeft ie dat aan ipv een verzonnen verhaal (wat je veel meer tijd/energie kost ook bij de gebruiker).
Je kan je AI abbo net zo hard opzeggen als het contract met je werknemer als je niet tevreden bent.

En je betaald voor de mogelijkheid om vragen te stellen. De complexiteit van de vragen en het antwoord bepaald hoeveel vragen je krijgt omdat het van een token budget af gaat. Alleen microsoft rekent nog af per vraag in github copilot en dat is zo ongunstig voor ze dat ze net als de rest van de markt per 1 juni overgaan op tokens.

Een kort "weet ik niet" antwoord kan heel belangrijk zijn om te krijgen en kost wellicht praktisch niets. Wellicht is het in sommige gevallen zelfs een short circuit waardoor het niets kost. Een vraag die uitgefilterd word voor de AI aan de gang gaat ermee.

Persoonlijk vind de AI al "eerlijker" dan in het begin. Maar je moet nog steeds opletten dat ze plekken niet zo zeer vol liegen als wel proberen missende data voor je in te vullen. In mijn reverse engineering met AI is dat verdomd lastig. Omdat je vaak een heel close, but not quite correct antwoord krijgt. In animaties zie je dat vaak makkelijk en dan vraag je x,y waardes na te kijken en te corrigeren. Maar voor gameplay rules.... Of het raket traject echt matched en zo... Veel moeilijker te zien. Dus ik stop nu al in de instructies dat een waarde niet gegokt of verzonnen mag worden. Maar hoe "eerlijker" de AI mag zijn, hoe minder verzinsels. Daar is onderzoek naar geweest.

De beste oplossing is de AI annotations laten maken bij zijn werk in ghidra en de repro code en zo. Maar beter is altijd mooier. Jammer dat opus LLM's zo duur zijn in gebruik.
Dus in de huidige situatie ben je bereid te betalen voor een zelfverzekerd maar verkeerd antwoord en in de nieuwe situatie niet voor een "ik weet dit niet"?
Wat mij betreft is “dit is onbekend” ook gewoon een waardevol antwoord. Als ik een inspecteur mijn huis laat checken op bouwtechnische fouten en hij vind niks, is dat ook waardevol en krijg ik ook gewoon een factuur voor de dienstverlening.
Een inspecteur geeft een rapport waaruit blijkt dat het geen fouten heeft geconstateerd. Een inspecteur zegt niet "ik weet niet of er bouwtechnische fouten zijn". Het rapport dat wordt overhandigd toont ook aan waar de inspecteur geen fouten heeft ontdekt en waar de technische staat dus is goedbevonden.

Is deze vergelijking de juiste?

Dit is een buitengewoon lastig onderwerp, vooral op dit moment. Vandaar dat ik in mijn eerdere antwoord naar @watercoolertje dan ook de vraag stel (niet direct aan hem maar aan alle lezers ervan) waarvoor wij betalen. Als wij betalen om de verbruikte resources dan is dat een ander uitgangspunt dan wanneer wij betalen voor het resultaat.

Op dit moment is AI dusdanig gepositioneerd dat wij gebruikers betalen voor het resultaat. Dat zou zomaar eens anders kunnen liggen. :)
Zoals je ook bij de aanpassing ziet die GitHub doorvoert in de facturering van Copilot, lijkt het meer naar usage based billing te gaan, onder het mom van transparantie (zij het niet dat voor ieder model een token weer iets anders kan betekenen/zijn, caching verschilt per provider/model, en het onder de streep dus juist onduideiljker wordt).

Een van de grote problemen die ik daar mee zie is dat GitHub en Anthropic en zo, nu ook zelf de "agentic harness" (zoals Claude Code of Copilot CLI) aanbieden.
Zij zijn er enigszins bij gebaat als we meer tokens verbruiken, dus wie zegt dat zij nu focussen op efficientie van hun harness.. Daar heb ik wel wat vraagtekens bij.
Er zijn wel onafhankelijke opties overigens.
Beter dan: "Hier is een bullshit antwoord, bedankt voor je token".
Precies

Hele draad met reacties om niets. Misschien zegt ie wel: dank voor je vraag. ik weet het niet. het kost je geen token. Fijne dag.


Ohnee, fijne dag is het nooit. Het is altijd: kan ik je ergens anders nog mee helpen?
Of het spuugt een lap hallucineerde teksten uit en je bent 10x zoveel tokens kwijt.
Dat vind ik terecht. De AI servers staan over zulke vragen net zo hard te stampen als op vragen die ze wél kunnen beantwoorden.
Ik doe veel met het auditeren van bedrijven en processes, zowel als auditee en auditor. Wij leren onze mensen daat "dat weet ik niet" een bijzonder valide antwoord is. Een beter antwoord dan onzin.
Geen idee, maar hier is een samenvatting van jouw vraag.
Ik merk zelf niet echt veel verbeteringen ten opzichte van 4.7. Met 4.7 moest ik herhaaldelijk veel toezeggingen doen en de kwaliteit en "fixes" waar hij mee aan kwam zetten was echt waardeloos, draai nu 4.8 sinds gister en heb even kort de workflows uitgeprobeerd maar het is allemaal maar magertjes en dat ze nog steeds Mythos "marketing" niet releasen terwijl GPT 5.5 net zo goed is, ik denk dat ik maar weer terug ga naar OpenAI eigenlijk. Ik wissel af en toe en ik wou dat ik nu nog ChatGPT 5.5 Pro had, die was echt goed. Momenteel gebruik ik Claude Max x20 met 4.8 en qua limieten voelt het alsof je Claude Pro hebt met Sonnet 4.6, echt bagger.
Oprechte vraag: wat doe je allemaal dat je een Max x20 abo nodig hebt?

Ik zit tegenwoordig zo’n beetje de hele dag te werken met Claude Code, is de hele dag aan het brewing tinkering whirlpooling etc., maar kom eigenlijk nooit aan de x5 limiet.
Ik heb 5 Max20 abonnementen. Kost 1000 dollar per maand, maar daar staat tegenover dat mijn factureerbare uren omhoog zijn gegaan van 15 naar 45 per week. Wij rekenen 150 euro per uur. Da's 3000 euro extra inkomen per week, ~12,000 per maand voor slechts een investering van 1000 euro en 5 Miniforums X1 lite computertjes. Vanuit Konsole kan ik ze eenvoudig alle 5 beheren. WorkTrees zijn soms een oplossing, maar ik vind het fijner om op aparte machines te werken.

Ik vond 4.7 al zeer sterk, zeker als je eerst begint in plan mode en je CC de opdracht geeft alle vragen direct te stellen, wat de mogelijke antwoorden zijn en wat het beste antwoord is. Daaruit laat ik dan meestal een handoff document genereren en gebruikt ik in een nieuwe sessie. Deze werkwijze scheelt mij heel erg veel tijd.

Naast Claude, heb ik ook nog een CodeLLM abonnement met 30 dollar extra credits per maand en CodeLLM maakt eerst de 20,000 abo credits op voordat het de aangekochte credits aanraakt. Erg netjes. Ik gebruik CodeLLM vooral voor images, video's (korte clips), t2s, s2t en je kunt de CodeLLM API gebruiken met je abonnement credits, dus mijn smarthome controller maakt er ook nog wat gebruik van.

Af en toe gebruik ik het ook om wat verschillende LLM modellen met elkaar te vergelijken, maar ongeveer 1,5 maand geleden hebben ze de UI aangepast en vind ik het minder fijn werken.
Gefeliciteerd met je success, maar dit soort verhalen zijn heel lastig te verifieren. Ik heb een hoop IT afdelingen gezien sinds de eerste Copilot (GPT2), maar zelfs de grootste hypers zien een bescheiden productiviteitswinst. Het hangt ook een beetje van de business af, als de kwaliteit laag mag zijn dan “slop” je ‘m gewoon even. Maar bij bedrijven met kritieke systemen zijn bovenstaande verhalen kletspraat.
dit soort verhalen zijn heel lastig te verifieren.
Ik heb dit gesprek ook vaker gehad en sommigen geloven het gewoon niet. Het is echt prima te doen om gewoon "alles" met AI te doen. Zodra je QA ook met AI afhandelt kan je zo vele projecten tegelijk draaien met AI.

Het is bijna zo simpel als "voer de user stories, mails, slacks etc" direct aan Claude, laat Claude het uitzoeken, fixen, testen (unit tests, integratie tests, e2e tests, letterlijk met een browser laten klikken) en laat het een PR/MR maken. Check the PR, deploy en test (of test en deploy, volgorde mag je zelf kiezen hah)

Claude sessies draaien bij mij soms langer dan een uur zonder enige interactie.

Om te beginnen, neem een claude code abonnement, installeer de superpowers plugin, en gebruik die.

[Reactie gewijzigd door Gamebuster op 29 mei 2026 11:02]

Die plugin (superpowers) is echt ... maar dat is smaak misschien (vreet context, doet bijv. zaken die je met hooks in git / je ai harnass of met fsnotify al kunt doen zonder context verlies, etc.).

Voor wat betreft of mensen je geloven of niet. De onderzoeken geven aan dat het ongeveer 4-8% verbetering aan de productiviteit laat zien. Als mensen die ervaringen hebben, dan is het logisch dat ze jou niet direct geloven. Het is gewoon enorm afhankelijk van wat je doet. Mijn vriendin heeft ook success met AI (meer dan die 4-8% uit de onderzoeken), maar vrienden van ons hebben slechtere verhalen. Zou het daarom niet op jezelf betrekken als mensen je niet geloven om die reden.
Het maakt me inderdaad verder niet uit, ik weet zelf dat mijn productiviteit compleet anders is. Beter? dat weet ik niet. Het hele werk is nu anders. Ik schrijf 0 regels code nu, en ik focus me volledig op documenteren en QA - zaken die ik voorheen veel minder deed. Mijn fantasie is dan ook dat als de documentatie en QA op orde is, dat AI "gedwongen" wordt om iets goeds op te leveren en ik tegelijkertijd "Bewijs" heb dat het in orde is, en ik zo vrijwel niets handmatig hoef te doen.

Ik ben dan ook veel tijd kwijt aan het verbeteren van tooling. Ik denk oprecht dat ik bijna de helft van mijn tijd bezig ben (misschien wel meer...) met het verbeteren, experimenteren, etc van een AI workflow ipv het werk zelf.

Ik zie dit echter totaal niet als "loondiefstal" o.i.d. - ik werk gewoon mijn tijd, ik besteed tijd aan werk, en ik ben volledig transparant hoe ik mijn tijd indeel en waar de tijd heen gaat, en de tijd die ik stop in tooling vs "het werk zelf" houd ik ook bij. Zaken die parallel gedaan worden, verdeel ik dan over de gewerkte uren; als ik in een blok van 4 uur aan 2 projecten heb gewerkt, gaat er 2 uur naar project A en 2 uur naar project B. Ik vind het onethisch om dan 4 uur per project te factureren.
Mijn grootste bottleneck is op dit moment tokens en machines. Met meer zou ik veel meer werk gedaan kunnen krijgen.
Wauw dat is een geweldige stijging in productiviteit inderdaad. Dit is werk als developer?
Wacht ff, dus je bent AI gaan gebruiken om slopcode te schrijven... en daarvoor factureer je je klanten MEER uren dan je daarvoor deed? Je klanten betalen meer terwijl jij letterlijk minder werk doet?

Beetje kromme situatie, niet?
Je houdt h klanten hier nu nog mee voor de gek.

Er komt alleen een periode waarbij men dit doorheeft en dit dus ook terug wil zien in het tarief. Ik ken partijen die al bewust die vraag stellen.

Race to the bottom e/o normalisatie.
Geen idee van de kwaliteit die geleverd word door de werkgever van Niemand_Anders, maar... 150 per uur voor een externe consultant... Dat is helemaal niet duur. Zeker als je er rekening mee houdt dat men uitgaat van 30% bankzitten. Zoals altijd met software, gaat het er om dat je de juiste beslissingen/keuzes op het juiste moment met de juiste informatie maakt en dan haal je die 150 voor een iets grotere organisatie die zo'n bedrijf inhuurt er zeker wel uit. Als je een kleiner bedrijf/organisatie bent dan haal je het er niet uit, dan moet je ook deze helden niet aannemen voor je klus.
"om slopcode te schrijven"
Man man man, zeg me dat je nog nooit een deftige Agent workflow gebruikt hebt zonder het te zeggen.

Ja er is een zondvloed aan slop, maar om steeds maar met dat zinnetje te gebruiken zodra het voor AI/LLM aanwezig is, is gewoon dom.
Hoezo? Die uren facturatie is sowieso al super dom. Je betaald uiteindelijk voor de kunde en kennis.
Zodra iemand beter wordt gaat de uurprijs normaliter ook omhoog omdat het hoeveelheid werk in uren als het goed is omlaag gaat. Dat kan je blijven doen, maar je kan ook gewoon je uren omhoog doen.
Toen ik nog bij een bedrijf werkte waar we per kwartier factureerden had ik ook vaak 120% facturabele uren terwijl ik eigenlijk maar 80% had kunnen halen volgens jouw regels.
Het verhaal van de loodgieter en de rekening voor een paar minuten werk: 10 euro oplossing monteren, 90 euro het probleem vinden en de juiste oplossing weten.
Interessant dat je 5 machines gebruikt; ik heb al mijn projecten in worktrees / dockers / containers gezet (ahum, laten zetten, claude) en draai alles op 1 degelijke desktop (64GB RAM, 7950X)

Heb regelmatig 4+ interactieve sessies die elk weer vele sub-agents hebben draaien, en dit past meestal nog binnen 1 claude code max (regelmatig zit ik aan het limiet maar dan pak ik wat extra-usage)

Wat was voor jou de reden om letterlijk 5 machines te gebruiken ipv een container?
De lol begint bij grotere taken en subagents.

Als jij 1 op 1 met je CC bezig bent dan gaat het vaak zo snel nog niet. Als je effort op max zet en je hebt gespecialiseerde subagents die geactiveerd worden en in de achtergrond draaien terwijl jij verder gaat met andere dingen dan doet t snel pijn :)
Oprechte ietwat offtopic vraag.. waarom en hoe dan?

Ik gebruik Github Copilot in Jetbrains voor een tientje per maand. Het is een prima assistent, die ik uitdagingen kan voorleggen en in veel gevallen bijna mooie antwoorden terug geeft en mij op die manier goed aanvult. Het versnelt mijn werk significant. Maar dat is het dan wel.

Hoe zet je die agents in en voor wat? Ik bedoel, een .NET solution is wat het is. Ik durf er niet eens agents geautomatiseerd er op los te laten. Bovendien is het een behoorlijk kostbare bedoeling, maar dat zal vast teruggewonnen kunnen worden in efficientie en doorlooptijden.

ik vermoed dat ik nog te conservatief en ouderwers ben hier voor..
Als het niet werkt betekend dat je de infra voor de agent niet goed hebt. Meer tools, meer context, meer informatie over hoe bepaalde taken uit te voeren.

Zelf gebruik ik het om architectuurdocumentatie te schrijven, te cross-referencen met alle powerpoints en word documenten die rondzwerven en met de documentatie van teams. Ik geef de AI tegenwoordig een prompt van max 5 zinnen, dan gaat het eerst plannen en dan met meerdere subagents aan de slag. Het eindresultaat is best wel indrukwekkend. (en mijn werk is vooral verschoven naar lezen en controleren wat het uitspuugt, net zoals met teksten geschreven door de rest van de afdeling dus)

Voor wijzigingen in solutions is het niet anders. Je moet vooral ook echt de context beschikbaar hebben voor de agent en duidelijke uitleg over hoe het bepaalde taken kan uitvoeren. Als de AI niet 90% tot 95% van je wijziging voor je kan doen dan zit er IMO iets mis in je AI infra of je workflow. Om AI effectief te gebruiken moet je echt leren het te gebruiken, zoals je ook ooit hebt geleerd om in .net te ontwikkelen met een IDE.
Ik heb al meerdere keren op het limiet gezeten, ik heb claude code de hele dag draaien met meerdere projecten tegelijk, incl. veel CI / QA processen die autonoom dingen checken
Eens over de limieten, maar dat de "fixes" bagger zijn? Het is ook een beetje hoe je het gebruikt.

Het verschil tussen Sonnet en Opus vind ik dag en nacht, maar Opus is voor mij heel bruikbaar. Dan heb ik wel redelijk bescheiden codebases, dus dat zou het verschil ook kunnen zijn.
Hij gaat niet automatisch door op problemen die hij wel kan oplossen maar hij vult wel de autocomplete in, hij negeert gewoon /loop en /goals en verplicht je interactie met de CLI.

Wanneer het wel bezig is heeft Claude nog enorm veel last van tunnelvisie en moet je naar mijn ervaring hem constant bij sturen anders gaat hij bezig met oplossingen die eigenlijk geen oplossingen zijn en meer een overfittingsprobleem veroorzaken.

Ik gebruik Claude/GPT nu al wat jaren sinds 2022 (ChatGPT 3.5) en ik probeer ook steeds meer dingen te pushen en draai wat benchmarks om te kijken wat nu wel mogelijk is, maar ik irriteer me nog mateloos aan die dingen en GPT heeft daar minder problemen mee op dit moment.

Het helpt ook niet dat ze constant de models steeds nerfen in aanloop naar nieuwe model releases. Benchmarks zijn niet alles natuurlijk, maar je merkt het wel als je het dagelijks gebruikt en ook de data laat dat zien. Bijvoorbeeld https://marginlab.ai/trackers/claude-code/ (Status: Degradation detected over past 7 days)
Claude weet helemaal niet of het iets wel of niet weet. Het kijkt alleen naar het aantal keren dat dat iets in zijn dataset voorkomt, en encodeert dat in zijn parameters.
Die fase zijn we al zeer lang voorbij! Claude (en andere thinking modellen) checken namelijk of de response ook antwoord geeft op de vraag en anders formuleert het een nieuw antwoord en in sommige gevallen stelt het dan aanvullende vragen. Om die reden worden de LLM modellen ook steeds beter in het uitvoeren van taken.

Zijn dataset wordt alleen gebruikt voor het trainen van het data model. Die dataset wordt vrijwel niet gebruikt voor het uitvoeren van je instructie. Daarom gebruiken deze modellen ook tools. Als het iets niet weet, doet het een internet search en combineert dat met de bestanden welke het heeft gelezen op jouw computer.
Hoe bedoel allang voorbij? Is een LLM bewust geworden? Nee. Een LLM weet helemaal niets van zichzelf. Het is misschien een beetje een flauwe of filosofische discussie, maar als de parameter in het model aangeeft dat de kans groot is dat het zo is dan, krijg je dat als output van het model dat het zo is. “Thinking” is niets anders dan weer de vraag en antwoord met hetzelfde model (of een ander) stellen, en daar weer op reageren. Er is niets menselijks aan, kijk uit dat je daar niet intrapt.

Ik heb zelf modellen geprogrammeerd en getrained.
Er is een paper over de manier waarop je met een berekening aan de hand van de latent space die per aanbevolen/kandidaat token kan uit aangeven wat de kans is dat er sprake is van een hallucinatie. Het is vrij duur om te doen / draaien, maar wellicht heeft anthropic dat kunnen verbeteren. Het is nog steeds kansberekening, zoals jij aangeeft, maar men is er dus mee bezig in de academische wereld (en waarschijnlijk zijn ze al verder bij anthropic).
Dit is het vb van een echt verdienmodel, Ikzelf werk veel met die toepassingen omdat het mij helpt om vlugger te programmeren.
Maar Claude word zo geprezen en heb eens getest 1 op 1 vb( Beide Pro abbo genoemen) met Perplexity, Perplexity gaat dieper in op de code met de welisweer de zo goed als de juiste syntax, waar claude veel steken laat vallen en veel vergeet en na een uur of 2 zegt Claude al dat ik aan mijn limit zit, dit is echt te gek..waar ik met Perplexity vb een paar dagen kan prompten...
Perplexity heeft dan andere nadelen qua privacy maar dat heeft iedere AI assistent wel denk ik, gewoon opletten dat je geen gevoelige info zoals sleutels,paswoorden en persoonlijke info doorgeeft en dat je op tijd uw geschiedenis verwijderd.
Claude heeft per week een blok en per 5 uur een blok waarin je x aantal tokens mag verbruiken.
enige tijd geleden hadden ze in in het paasweekend, in de ochtend en nachtelijke uren (GMT-6) een voordeel. (off-peak usage) wat een verademing was dat voor het Pro-abonnement.

Deze maand gebruik ik Claude weer intensief en daardoor zit ik opnieuw aan een Max-abonnement.
totaal per maand zou ik het niet nodig hebben, maar tijdens werk uren wil ik doorwerken..
Geheugen is een optionele kost bij Claude. Normaal is het 1 uur, en voor meer zou betaald moeten worden.

In projects bouwt het juist geheugen op, en er zijn mensen die er om die reden iets tussen zetten zodat ze oneindig geuegen hebben. Daarbovenop speelt nog een EU Act die alles ouder dan 30 fagen standaard verwijderd wil hebben.
De grote sprongen in taalmodellen lijken toch wel al langzaam voorbij te zijn. Het zit hem nu in optimalisaties zoals betrouwbaarheid. Mijn verwachting is dat deze fase ook wel redelijk lang gaat duren... omdat ik denk dat het 80% effort zal zijn om de laatste 20% van de volwassenheid te halen.

Wel verfrissend als LLM's eerlijk zijn als ze het niet weten of hun oprechte twijfels uitspreken.
Dat dit model (enigsinds) kan aangeven of het wel of niet een correct/juist antwoord kan formuleren is wel echt een verbetering. En nog steeds maakt men verbeteringen die het gebruik verbeteren, zoals die workflows nu eindelijk (nog niet getest zelf) in de tooling zelf gezet te hebben. Scheelt enorm als het werkt voor gebruikers.
Wat krijgen we nu? Dit hadden die clankers al van in het begin moeten doen ipv constant shit te verzinnen.
Dit heet gewoon evolutie en dat maken alle producten mee, en wijzelf ook. Dus ja het was mooi geweest als dat met een zo was, maar is het reëel om te stellen dat dat nodig was? Echt niet :)

Het is aan jou om het eerder niet te gebruiken als het je niet zint en nu wel als het je wel zint. I
Ja, want mensen zijn OH ZO verantwoordelijk in het omgaan met nieuwe technologie. AI boeren verkopen hun bots as het neusje van de zalm. De alleskunners die iedereen gaan vervangen. Maar als ze dan harder hallucineren dan een schizofreen in het gesticht is het antwoord "ja maar je gebruikt het verkeerd!"

Dit had er absoluut van in het begin in moeten zitten. Of op zijn minst een gigantisch rode disclaimer bij elk antwoord dat uit tekstvoorspeller 3000 voorkomt.
Er staat atlijd al een disclamier. En 'hallicuneren' is integraal onderdeel van een LLM.
ChatGPT 5.6 in 3, 2, 1...
Ik heb eigenlijk het idee dat GPT 5.5 al aardig goed was op dit gebied. Ik doe coding sessies met zowel Codex/GPT en Claude Code/Opus en GPT gaf veel eerder aan als het iets niet wist, of ging brainstormen met mij als gebruiker, of als ik zelf een onjuistheid in mijn prompt had staan dan geeft GPT dat ook eerder aan. En ja, Opus 4.6/4.7 deed dat ook wel, maar in mindere mate.
Het trainen van een basismodel zoals GPT-4, of Gemini 1.0 Ultra, is duur, typisch rond de 100 Miljoen, en kost maanden aan tijd.

Wat je hier ziet is eigenlijk het optimalizeren van een bestaand model, en alles er om heen. Zoals updates aan tooling, b.v. om een PDF beter te parsen naar losse tekst en plaatjes, of uitbreiding van de embedded Python environment, of het fine-tuning van het model (beperkte training) op bepaalde use-cases zoals math-problems.

Dit is eigenlijk een continue process vergelijkbaar bij sprints bij een normaal IT bedrijf. Waarbij er eigenlijk gewoon elke 2 tot 3 maanden een release gepland staat. Waarbij GPT-5.6 volgens polymarket nu 30 Juni of 31 Juli komt.
Hm, ik zie dit nog niet bevestigd in externe benchmarks.

ArtificialAnalysis.ai heeft hiervoor de Omniscience Hallucination Rate, daar scoort Opus 4.8 maar heel marginaal beter dan Opus 4.7: https://artificialanalysis.ai/?omniscience=omniscience-hallucination-rate
Anthropic zegt ook dat Opus 4.8 een betere fast mode krijgt, die drie keer minder tokens verbruikt dan eerdere modellen.
Wel...
Opus 4.6 = 3x multiplier
Opus 4.6 Fast mode = 30x multiplier

Ik vermoed dat het dan met een 10x multiplier zal in de markt gezet worden? Anders ben je de mensen gewoon aan het oplichten met marketing-praat

Om te kunnen reageren moet je ingelogd zijn