Anthropic heeft Claude Opus 4.8 uitgebracht. Dat model volgt Opus 4.7 dat vorige maand uitkwam. Opus 4.8 scoort in de meeste benchmarks iets beter dan het eerdere taalmodel, maar Anthropic zegt dat Opus 4.8 zich vooral onderscheidt met zijn 'eerlijkheid'. Dat betekent in de praktijk dat Opus vaker toegeeft dat het iets niet weet en minder uitspraken doet die het niet kan onderbouwen.
Anthropic toont een aantal benchmarks voor Opus 4.8 waaruit blijkt dat het model op de meeste maatstaven enkele procentpunten beter presteert dan Opus 4.7. Dat model kwam in april uit. De grootste verbetering zit in de manier waarop Claude in een terminal code kan genereren.
Waar Opus 4.8 vooral verbetert, is diens 'eerlijkheid'. Anthropic zet dat in de context van AI-modellen die regelmatig onterecht conclusies trekken of aangeven dat ze al voortgang hebben gemaakt met een taak terwijl dat niet klopt. Opus 4.8 doet dat veel minder, zegt Anthropic. Het model 'geeft vaker onzekerheid over diens werk aan en doet minder vaak niet-ondersteunde uitspraken'.
Om dat kracht bij te zetten, heeft Anthropic een onderzoeksrapport online gezet. Daarin schrijft het bedrijf dat Opus 4.8 'vier keer minder waarschijnlijk fouten in code laat staan zonder dat daar een opmerking over te maken'.
Opus 4.8 is te gebruiken via Claude Code en uiteraard Claude.ai en de apps. Anthropic zegt ook dat Opus 4.8 een betere fast mode krijgt, die drie keer minder tokens verbruikt dan eerdere modellen.
Anthropic brengt naast Opus 4.8 ook 'dynamische workflows' uit in Claude Code. Dat betekent dat Claude tot wel 'honderden' subagents aan kan zetten in een enkele sessie, waardoor het mogelijk wordt grotere taken uit te voeren via Claude Code. Anthropic noemt als voorbeeld dat Opus 4.8 migraties kan doen van volledige codebases.
:strip_exif()/i/2008139138.jpeg?f=imagenormal)