Anthropic erkent dat Claude vershittificeerde en wijt dat aan bugs

Anthropic zegt dat recente problemen met Claude, of beter gezegd, van het recente vershittificeren daarvan, komt door een aantal aanpassingen en systeemprompts die het bedrijf daaraan deed. Dat waren fouten die inmiddels zijn verbeterd, zegt Anthropic na klachten van gebruikers.

Anthropic heeft een postmortem gepubliceerd na een onderzoek dat het deed naar Claude. Recent klaagden steeds meer gebruikers dat de llm significant slechtere antwoorden gaf. Onder andere de 'diepte' van het redeneermodel leek sterk te zijn afgenomen. Onder andere een werknemer van AMD beschreef uitgebreid hoe Claude in februari plotseling minder effectief bleek te zijn, onder andere door instructies te negeren, gebaseerd op duizenden van haar sessies in Claude. Op Reddit ontstond een lopende megathread waarin honderden gebruikers ongeveer dezelfde problemen herkenden.

Het bedrijf achter de llm erkent die problemen, maar ontkent dat het Claude bewust slechter maakte. Anthropic heeft onderzoek gedaan en daaruit kwamen drie problemen. Ten eerste veranderde Anthropic het standaardredeneermodel van 'hoog' naar 'medium', naar eigen zeggen om lag in de tool te verbeteren. "Dat was de verkeerde afweging", zegt het bedrijf.

Systeemprompts

Llm’s gebruiken eigen systeemprompts die bepalen welke content ze genereren en op welke manier, bijvoorbeeld door de toon of lengte van antwoorden. Of het gebruik van emoji's. Tweakers beschreef vorig jaar hoe zulke modellen werken en wat er kan gebeuren als een bedrijf de verkeerde systeemprompt gebruikt.

Een ander probleem was een systeemprompt die Anthropic aanpaste. In die prompt droeg Anthropic Claude op 'minder uitvoerig' te zijn, maar dat leidde er onbedoeld toe dat modellen Sonnet en Opus minder goede code schreven.

Een derde probleem was dat Anthropic een aanpassing deed waarbij het redeneren via sessies waarin meer dan een uur geen activiteit was stopzette. Door een bug bij die aanpassing bleef dat ook bij nieuwe sessies gebeuren, 'waardoor Claude vergeetachtig en repetitief overkwam'.

Geen bewust beleid (?)

Anthropic noemt dat als drie expliciet verschillende problemen, maar omdat de aanpassingen op verschillende momenten en verschillende schalen werden doorgevoerd, voelde dat volgens het bedrijf als 'brede, inconsistente degradatie'.

Het ging volgens Anthropic dus niet om een bewuste verslechtering van het model. De timing ervan is wel opvallend. Recent schroeven steeds meer AI-bedrijven de mogelijkheden van hun llm's terug, met name om daarmee geld, tijd en middelen te besparen. Llm's presteren beter naarmate ze meer context en geschiedenis hebben, maar dat kost ook veel geld en rekenkracht. Voor bedrijven die nog geen gezond verdienmodel hebben, kan dat nogal heftig zijn. Tweakers beschreef deze week nog tegen welke beperkingen AI-modellen oplopen en welke oplossingen ze daarvoor doorvoeren.

Anthropic Claude stock. Bron: Samuel Boivin/NurPhoto via Getty Images

Door Tijs Hofmans

Nieuwscoördinator

24-04-2026 • 14:22

71

Reacties (71)

Sorteer op:

Weergave:

Ten eerste veranderde Anthropic het standaardredeneermodel aan bij van 'hoog' naar 'medium', naar eigen zeggen om lag in de tool te verbeteren. "Dat was de verkeerde afweging", zegt het bedri
Dat was geen bug maar een bewuste keuze.
Een ander probleem was een systeemprompt die Anthropic aanpaste. In die prompt droeg Anthropic Claude op 'minder uitvoerig' te zijn,
Ook een keuze, geen bug.
Een derde probleem was dat Anthropic een aanpassing deed waarbij het redeneren via sessies van meer dan een uur daarvoor stopzette.
Kan tot een bug hebben geleid maar ook hier begon het met een keuze.

Misschien wat kort door de bocht maar volgens mij probeert Anthropic het af te schuiven op bugs terwijl het zelf deze keuzes heeft gemaakt.
The implementation had a bug. Instead of clearing thinking history once, it cleared it on every turn for the rest of the session.

Klinkt toch als een programmeerfout, iets dat anders had gemoeten. Bijvoorbeeld een “clear-routine” dit net binnen een loop stond terwijl die er buiten had gemoeten.
Dus een bug.
Basz2000 heeft gelijk: er staat "the implementation" als onderwerp, die implementation was een besparing invoeren die oude sessie opkuist voor ram te besparen op al die instances dat open stonden, 1 uur lijkt me erg agressief. en dat is de keuze die uiteindelijk voor een bug zorgde.

Misschien moet anthrophic een subscription stop zetten als ze niet meer compute voldoende hebben. Dan zouden ze al die maatregelen niet moeten nemen en zou de ervaring van de oudere klanten niet verergeren. Je hoort als bedrijf te kunnen schalen als je wilt groeien.

Nu voelt het aan alsof ze zoveel mogelijk winst wilden met zo weinig mogelijk hardware.

[Reactie gewijzigd door sebastienbo op 24 april 2026 16:26]

Een bug of niet hangt puur van de definitie af, het systeem functioneert niet meer door een instelling die anders uitpakt dan bedoeld. Ik kan dat prima onder een bug scharen.

Een bug is ook al lang niet meer een beestje dat door de transistor buizen loopt dus dat de betekenis een beetje verschuift als de techniek een enorme sprong maakt vind ik niet vreemd.
Laten we het woord 'bug' niet verwateren. De huidige definitie is prima en behoeft geen aanpassing. De tijd van transistorbuizen ligt (op enkele vakgebieden na) al langere tijd achter ons dus daar zou ik mij ook niet op beroepen.

Iets wordt te makkelijk onder bug geschaard terwijl er vaak een bewuste keuze achter zit. Laten we reëel wezen, als gebruikers niet hadden geklaagd dan had Anthropic niets gedaan omdat de wijziging toch niet tot klachten had geleid. Nu wel dus moeten zij iets doen en het is flauw om dan te doen alsof zij er niets aan kunnen doen. :)
Als je het originele postmortem leest, zeggen ze ook niet dat het een bug was. Ze zijn er juist vrij open over dat het bewuste keuzes waren, en volgens hen hadden ze de impact van die keuzes onderschat. Ik vind het een plausibel verhaal. Best een goede reactie van een bedrijf op een ongelukkige keuze, als je het mij vraagt.
Wat is de huidige definitie dan?

M.i. is een taalmodel een ondoorzichtig systeem waarbij het aanpassen van een variabele onbedoelde effecten kan hebben; blijkbaar heeft Anthropic aanpassingen gedaan waarvan zij hebben verwacht dat deze geen negatieve effecten zouden hebben, maar dat was wel het geval.
Ik denk eerder wel negatieve effecten maar niet op deze schaal. Eerst de dienst goed maken zodat je een userbase krijgt, dan langzaam terugschroeven en hopen dat men het niet te veel merkt. Dat is ze duidelijk niet gelukt.
Een bug is mijn beeld: het systeem werkt niet zoals beschreven, het had moeten werken.

Dit valt mijn inziens onder: we hebben bewust zaken aangepast en nu zijn er meer klachten dan gedacht over een feature die we bewust hebben ingebouwd.

De lijn is inderdaad fijn, want het zouden ook onverwachte bijeffecten van een bewuste wijziging kunnen zijn. Dan valt het misschien wel weer onder de definitie bug.

Zou Anthropic ook stilaan niet tegen de grenzen beginnen lopen van wat ze zelf aan kosten nog kunnen dragen en zo proberen de kosten te drukken?

[Reactie gewijzigd door Powerblast op 24 april 2026 14:40]

Mja als je het letterlijk zo configureert dat hij minder moet redeneren en minder uitvoerig moet zijn, dan vind ik het geen 'bug' als het minder werkt. Dat is gewoon een systeem dat werkt zoals geschreven.

[Reactie gewijzigd door Llopigat op 24 april 2026 15:12]

Eens. Als ik mijn applicatie minder geheugen en/of CPU geef, gaat ie op een gegeven moment ws ook minder goed performen onder load. Dat is geen bug, dat is gewoon een aanpassing in hoe je systeem configureert.
Dit is te simpel. Een modern LLM loopt vaak tegen context grootte limieten aan bij "reasoning" taken, waarbij een LLM instructies voor zichzelf schrijft.

Als een LLM bondiger is voor zichzelf dan wordt de kwaliteit vaak beter, niet slechter. Maar het is geen universele regel. Anthropic zat verkeerd in de afweging.
transistor buizen
Transistors of buizen?
Een bug in het management dan :) Ze hebben configuratie parameters gewijzigd zonder de effecten goed (genoeg) te testen.
Ja, en dat is precies wat ze toegeven in hun postmortem.
Ik vind dit wat kort door de bocht. Alles is terug te brengen tot een keuzemoment.

Als software anders reageert dan bedoelt/verwacht, noemen we dat typisch een bug. De definitie is nogal breed en hangt dus erg af van je perceptie van het systeem/de software. Om het objectief te bekijken zou je de specificaties/requirements van het systeem moeten hebben, maar helaas, die worden ook door mensen gemaakt en bevatten dus ook fouten en/of ambiguïteit.

Als ik een formule in een algoritme denk te optimaliseren omdat het gewenst is dat deze sneller uitgevoerd kan worden en hierbij een fout maak, zou je dat dan wel als bug zien?
Ik had immers ook kunnen kiezen de werkende code te laten staan en de huidige snelheid (of traagheid) te accepteren.

Nu wordt er bij tools als dit iets minder "traditionele" code geschreven, maar zo'n systemprompt zie ik persoonlijk ook als code (alleen is de "interpreter" een LLM). Ik snap dat dat de perceptie kan beïnvloeden.
Op het moment dat je als bedrijf iets wijzigt waardoor iets 'minder uitvoerig' wordt of het standaardredeneermodel aanpast van 'hoog' naar 'medium dan is het geen bug meer wat mij betreft. Hoe ben ik te kort door de bocht vraag ik mij dan af. :)
Leest allemaal als kostenbesparingskeuzes.
Anthropic heeft gewoon enorm veel features geshipt in een korte tijd en dan is het logisch dat er pijnpunten zijn. Ze hebben immers geen feedback loop gehad, behalve de interne. Nu hebben ze feedback en worden de zaken eindelijk geoptimaliseerd.

Ze kunnen het alleen niet op die manier verkopen, want dan halen ze hun eigen motto (software enginering is dood, AI kan dat afhandelen) soort van onderuit. Hun hele playbook draait om dat beeld en het feit dat AI de volledige pipeline kan vervangen.

Dat zal best zo zijn, maar ergens is het bestaande proces er natuurlijk om een reden.
Lijkt me geen bug inderdaad maar eerder foutieve 'configuratie'.
Met betrekking tot de laatste. Die keuze was ook niet de bug, maar de implementatie bevatte een bug. Het begon natuurlijk wel bij een keuze om dat te gaan implementeren, maar dat is bij elke feature zo..
Door een bug bij die aanpassing bleef dat ook bij nieuwe sessies gebeuren, 'waardoor Claude vergeetachtig en repetitief overkwam'.
En waar baseer je dit bericht op? Je hebt de inzichten die Anthropic zelf ook tot diens beschikking heeft?
Precies wat ik wilde posten.
Ze nemen 3 maatregelen om de kwaliteit (inspanning) voor klanten de reduceren.
De nu het resultaat daarvan helemaal verkeerd uitpakt zekken ze sorry, dat was niet de bedoeling.
Het waren wel degelijk intentionele kostenbesparingen zonder prijsverlaging.

[Reactie gewijzigd door Geekomatic op 24 april 2026 15:52]

Vershittificeerde? Wat een lelijk woord.
Volgens wikipedia zeggen we Platformverval, ook platformverloedering.

Ook is dit geen `Enshittification` omdat het te wijten was aan bugs en niet om meer winst te halen (toch officieel).

[Reactie gewijzigd door Li1quid op 24 april 2026 14:56]

Het was niet te wijten aan bugs, er zaten bewuste keuzes achter die hebben geleid tot een verslechtering van de dienst.

Enshittificatie (zeer lelijk inderdaad) is wat mij betreft een prima omschrijving van hetgeen dat is gebeurd. :)

Hoewel lelijk vind ik enshittificatie een heel goed woord. Platformverval kan meer betekenen terwijl dat lelijke woord aangeeft dat er een weloverwogen besluit achter zit.
<PersoonlijkeMening>Inderdaad, een lelijk woord.</PersoonlijkeMening>
<Feit>Platformverval, of platformverloedering zeggen beide niets over eventuele opzet van de beheerders/eigenaren van dat platform</Feit> - geen onbelangrijke nuance die met deze vertaling wegvallen.
Ik geloof er niks van. De enshittification is gewoon nog steeds bezig. Zelfs vandaag nog heeft Claude een suggestie gedaan in een lang verhaal waar ik niet op inging en beweerd die een paar berichten later dat IK de suggestie heb gedaan en wilde die het uitvoeren. En het is niet de eerste keer dat die dit doet.
Jij gebruikt de narcistische versie of wat? :+
Daar lijkt het wel een beetje op haha. Zo vroeg ik ook een keer om wat informatie over mijn muis. Antwoordt Claude met "First, a small correction — the PRO X2 Superstrike is a mouse, not a keyboard. I'll assume that's what you meant.".

Ik heb het nog nooit met Claude over keyboards gehad.
Dit lijkt voortdurend een strategie die bij meerdere modellen en bedrijven naar voren komt. Het is een kwestie van kijken hoe ver je een product kunt degraderen, zodanig dat winstmaximalisatie wordt bereikt (want minder kosten per verzoek).

Ik heb enkele maanden gebruik gemaakt van Gemini 3 Flash en naar aanleiding hiervan het duurste Google AI Ultra abonnement genomen. Dat werd sinds even geleden ineens zo slecht dat ik genoodzaakt was om volledig over te stappen naar een alternatief.

Ik vind het zeer kwalijk, want ik sluit een abonnement af onder het huidige model en bepaalde voorwaarden, die tijdens de looptijd gewoon even aangepast worden waar bovendien totaal niet transparant over wordt gecommuniceerd.
Ik heb de laatste tijd echt dat het per dag soms lijkt te verschillen hoe goed of fout Claude Code in combinatie met Opus lijkt te werken. Dag 1 kan hij perfect en volledig foutloos en uitgebreid code schrijven, en denkt het écht nuttig mee met verbeteringen en optimalisaties, en de andere dag heb ik écht het idee anderhalf jaar terug in de tijd te gaan waarin ik echt elke regel code moest controleren omdat het anders echt shit ging schrijven en dingen deed wat niet gevraagd is en ook de helft van wat er is voorgesteld niet maakt of af maakt.

Maar dit heb ik tot vorige week ook nog meegemaakt. Onwijs frustrerend is dat. Gelukkig heeft Claude in de laatste updates van afgelopen 2 weken diverse aanpassingen doorgevoerd zodat je beter kunt volgen wat Claude Code denkt en aanpast zodat je het veel sneller kunt corrigeren. Maar hinderlijk is het absoluut.
Ow! Daarom dus dat het leek alsof ie plots heel wat vergeetachtiger werd. Ik heb best wel wat problemen gehad waarbij hij de weg verloor. Uiteindelijk heb ik dit zelf wel kunnen verhelpen door mijn stijl van prompten aan te passen en veel meer gebruik te maken van externe md-files bovenop Claudes’ eigen geheugen.

Eigenlijk ben ik Anthropic hier wel dankbaar voor want door dit akkefietje is mijn workflow met Claude (in de console) enorm verbeterd met lager token-verbruik. Ook controleer ik nu zowat alles wat Claude oplevert. Wat ook hielp was de taken behapbaarder te maken door sub-agents te gebruiken. Zit nu vast in mijn routine en werkt heerlijk.
Voor mij toch maar weer een bewijs dat open weights modellen een duidelijke meerwaarde bieden als je op AI modellen betrouwd voor je zaak of je job.

Anthropic spreekt van bugs maar maakt in elk item dat ze aanhalen een bewuste keuze om kwaliteit te ruilen voor minder werklast voor hun serverpark.

Daarnaast maakten ze ook de bewuste keuze hierover naar hun klanten toe niet transparant te communiceren in de eerste instantie.

Als betaaldende gebruiker zou ik me best genaaid voelen.
Jorgen Moderator Beeld & Geluid 24 april 2026 15:23
Dit lijkt dan niet alleen in Claude te gebeuren. ChatGPT lijkt ondanks de nieuwere modellen ook steeds minder te begrijpen, steeds minder context te onthouden en steeds minder diep inhoudelijk te reageren. Ik ben tegenwoordig steeds meer tijd kwijt aan het doorspreken van de voorgaande stappen in een casus, dan met de nieuwe punten zelf.
Vershittificeerde 🤣🤣 als je ook op het woord googled kom je bij dit artikel uit.


Tweakers, kap eens met woorden vernederlandsen, het leest als ragebait.

[Reactie gewijzigd door Desiler op 24 april 2026 14:41]

AuteurTijsZonderH Nieuwscoördinator @Desiler24 april 2026 14:41
Tijs is zonder H.

En enshittification is een woord, begrip en ontwikkeling, ik vind dit een prima Nederlandse vertaling.
Ik vind het ook een leuke. En als andere optie, de VPRO vertaalde 'enshittification' eind vorig jaar als 'verkuttificatie': https://tegenlicht.vpro.nl/artikelen/de-verkuttificatie-van-het-internet-volgens-cory-doctorow
Ondertussen kent het Nederlands gewoon al het gangbare woord "verloedering" dat de lading prima dekt.

Bijvoorbeeld: "Als je Engelse termen waar al een normaal Nederlands woord voor bestaat gaat vernederlandsen, is dat een voorbeeld van taalverloedering".

[Reactie gewijzigd door ZinloosGeweldig op 24 april 2026 15:06]

Maar enshittification slaat specifiek op het fenomeen waar bedrijven eerst een beter product aanbieden om klanten te binden om vervolgens het te gaan uitkleden, 'verloederen' dekt dat niet echt.
Ik ben het met die definitie niet eens, men heeft het bijvoorbeeld ook over de "enshittification" van het Internet als geheel.

Het Internet is geen product dat door een bedrijf is aangeboden om klanten te binden met het doel dat later uit te gaan kleden.
Verloedering is meer een gebrek aan onderhoud en aandacht, 'enshittification' is meer bewust beleid.
Platformverloedering komt vooral doordat de uitbaters meer aandacht besteden aan belanghebbenden als aandeelhouders en adverteerders, en minder aandacht aan gebruikers.

Er wordt echt niet de bewuste keuze gemaakt om het platform kutter te maken voor gebruikers. De keuze die gemaakt wordt is "waarde creëren voor aandeelhouders/adverteerders" waarbij naar de gebruiker niet omgekeken wordt.

Vergelijk dat met verloedering van arme wijken omdat er daar niet naar omgekeken wordt. In beide gevallen is het minder aandacht besteden aan dat aspect een bewuste keuze, het werkelijk kutter worden is vervolgens een gevolg van die verminderde aandacht.
Sorry, maar deze vertaling is echt verschrikkelijk. Al weet ik eerlijk gezegd ook niet echt wat een betere 'vertaling' zou zijn. Verkuttificering kom ik ook tegen, ben ik ook geen fan van. Ik zou gewoon iets zeggen als 'dat Claude in kwaliteit achteruit ging'. Dat klinkt/leest (in elk geval voor mij) toch een stuk beter.

[Reactie gewijzigd door Jorizzz op 24 april 2026 14:56]

Zoals hierboven gesteld, verloedering
Ook een optie, al heb ik daar vooral associaties als 'de buurt verloederde'. Weet niet of ik dat hier helemaal passend vind, maar dat kan geheel aan mij liggen.
Dat is een specifieke vorm van verloedering. Je kan het hebben over verloedering van de leefomgeving (de buurt die verloedert), taalverloedering (waaronder onnodig veelvuldig gebruik van barbarismen erwijl er gewoon een Nederlands woord voor bestaat), platformverloedering (perfect voor waar in dit artikel "vershittificatie" gebruikt wordt), en zo verder.
Staat Vershittificeerde in het woordenboek dan? Waarom kan ik er niks over vinden? Het is gewoon fout 😂 waarom zo die drang om woorden die alleen in het Engels bestaan te willen vertalen naar het Nederlands?

[Reactie gewijzigd door Desiler op 24 april 2026 14:44]

Aan de ene kant is het lovenswaardig om niet elk vreemd woord klakkeloos over te nemen in het nederlands als er prima vertalingen voor zijn.

Aan de andere kant is enshittifcation een begrip (aan het worden).

Ik denk dat een vernederlandsing de juiste oplossing is/wordt, net als bv 'downloaden'
Ja, en zoals: “ik heb mijn telefoon geüpdatet.”
Taal is dynamisch, als het maar vaak genoeg wordt overgenomen en in gebruik wordt genomen dan kan het prima een woord worden. Al ben ikzelf dan liever wat consequenter en zou ik het 'verpoeping' noemen.

Verder volgt het woord wel correct de Nederlandse spelwijze, hoe komen we anders op nieuwe woorden?
Voor nieuwe woorden ben ik meer voorstander van neologismen dan van het vernederlandsen van woorden uit andere talen.

Mooi voorbeeld vind ik het woord "mansplaining" dat we in het Nederlands gewoon overgenomen hebben, maar in het Duits is dat "Herrklärung". Dat is toch veel mooier!
Er staan heel veel woorden in het woordenboek die er eerder niet in stonden.
Laten we dit het woord van het jaar maken.
Bovendien zou het dan verpoepering / verpoeperificering o.i.d moeten zijn?
Als Belg ben ik het daar niet mee eens.
Zo jammer dat de "+1 Grappig" verdwenen is... :)
Poepen in België is toch een stuk plezanter dan in Nederland
Wellicht een suggestie voor de van Dale: vershittificering - hetgeen er met het taalgebruik op Tweakers gebeurt.
Vershittificering - waar een bepaald slag mensen volkomen onnodig over de zeik van gaat.
Ik vind het zelfs beter klinken en het punt veel duidelijker maken.
Ik heb het elders vertaald zien worden als verk*tting. Maar ik snap wel dat jullie dat niet gekozen hebben hier.

Dat gezegd hebbende: ik weet niet of ik het überhaupt eens ben met de keuze voor het woord enshittification in deze context. Ik vind het eigenlijk een vrij goede postmortem van een incident, veroorzaakt door twee bewuste, maar ongelukkige, keuzes en een bug.
Ik ben juist blij dat het begrip "enshittification" meer ingeburgerd raakt, en het lijkt me in dit geval de lading uitstekend dekken.
Niet beter dan verloedering
Behalve dat iedereen het nu roept bij elke bug of feature die ze niet aan staat
Zal me niks verbazen als die vertaling ook op een dag op Tweakers zal staan :+
How do you do fellow kids moment :X

Om te kunnen reageren moet je ingelogd zijn