Anthropic zegt dat recente problemen met Claude, of beter gezegd, van het recente vershittificeren daarvan, komt door een aantal aanpassingen en systeemprompts die het bedrijf daaraan deed. Dat waren fouten die inmiddels zijn verbeterd, zegt Anthropic na klachten van gebruikers.
Anthropic heeft een postmortem gepubliceerd na een onderzoek dat het deed naar Claude. Recent klaagden steeds meer gebruikers dat de llm significant slechtere antwoorden gaf. Onder andere de 'diepte' van het redeneermodel leek sterk te zijn afgenomen. Onder andere een werknemer van AMD beschreef uitgebreid hoe Claude in februari plotseling minder effectief bleek te zijn, onder andere door instructies te negeren, gebaseerd op duizenden van haar sessies in Claude. Op Reddit ontstond een lopende megathread waarin honderden gebruikers ongeveer dezelfde problemen herkenden.
Het bedrijf achter de llm erkent die problemen, maar ontkent dat het Claude bewust slechter maakte. Anthropic heeft onderzoek gedaan en daaruit kwamen drie problemen. Ten eerste veranderde Anthropic het standaardredeneermodel van 'hoog' naar 'medium', naar eigen zeggen om lag in de tool te verbeteren. "Dat was de verkeerde afweging", zegt het bedrijf.
Systeemprompts
Llm’s gebruiken eigen systeemprompts die bepalen welke content ze genereren en op welke manier, bijvoorbeeld door de toon of lengte van antwoorden. Of het gebruik van emoji's. Tweakers beschreef vorig jaar hoe zulke modellen werken en wat er kan gebeuren als een bedrijf de verkeerde systeemprompt gebruikt.
Een ander probleem was een systeemprompt die Anthropic aanpaste. In die prompt droeg Anthropic Claude op 'minder uitvoerig' te zijn, maar dat leidde er onbedoeld toe dat modellen Sonnet en Opus minder goede code schreven.
Een derde probleem was dat Anthropic een aanpassing deed waarbij het redeneren via sessies waarin meer dan een uur geen activiteit was stopzette. Door een bug bij die aanpassing bleef dat ook bij nieuwe sessies gebeuren, 'waardoor Claude vergeetachtig en repetitief overkwam'.
Geen bewust beleid (?)
Anthropic noemt dat als drie expliciet verschillende problemen, maar omdat de aanpassingen op verschillende momenten en verschillende schalen werden doorgevoerd, voelde dat volgens het bedrijf als 'brede, inconsistente degradatie'.
Het ging volgens Anthropic dus niet om een bewuste verslechtering van het model. De timing ervan is wel opvallend. Recent schroeven steeds meer AI-bedrijven de mogelijkheden van hun llm's terug, met name om daarmee geld, tijd en middelen te besparen. Llm's presteren beter naarmate ze meer context en geschiedenis hebben, maar dat kost ook veel geld en rekenkracht. Voor bedrijven die nog geen gezond verdienmodel hebben, kan dat nogal heftig zijn. Tweakers beschreef deze week nog tegen welke beperkingen AI-modellen oplopen en welke oplossingen ze daarvoor doorvoeren.
:strip_exif()/i/2008139138.jpeg?f=imagenormal)