Claude Sonnet moet nu bij programmeren consistenter zijn en beter luisteren

Anthropic heeft Claude Sonnet 4.6 uitgebracht. Deze update moet het AI-model onder meer consistenter maken bij het programmeren en beter laten luisteren naar de instructies van de gebruiker. Het model moet ook sneller zijn en betere 'computervaardigheden' hebben.

Anthropic zegt dat Sonnet 4.6 onder meer beter kan programmeren, betere computervaardigheden heeft en betere prestaties biedt. Zo moet Sonnet 4.6 bij programmeren consistenter zijn met antwoorden en de instructies van gebruikers beter volgen. Daarbij zou het model minder vaak successen claimen die er niet zijn en minder hallucineren. Het Sonnet-model zou ook op het vlak van 'intelligentie' vergelijkbare prestaties moeten bieden als het krachtigere maar langzamere Opus-model, claimt Anthropic.

Claude Sonnet is een AI-model dat onder meer taken kan uitvoeren op het apparaat van de gebruiker. Anthropic stelt dat Sonnet 4.6 hierin beter is geworden. Daardoor zou het model complexe spreadsheets beter kunnen gebruiken. Ook zou het browserformulieren met meerdere stappen kunnen invullen, om de verzamelde informatie later vanuit verschillende tabbladen te combineren.

"Het model is nog steeds niet zo snel met computers als de bekwaamste mensen, maar de snelheid waarmee het beter wordt is alsnog opmerkelijk", schrijft Anthropic. Deze verbeterde computervaardigheden betekenen volgens Anthropic dat Sonnet voor meer taken te gebruiken is dan voorheen. Anthropic zegt daarbij bepaalde maatregelen te hebben genomen om Sonnet weerbaarder te maken tegen promptinjectieaanvallen, waarbij verborgen tekst op websites een AI-model andere instructies geeft.

Claude Sonnet 4.6 is per direct beschikbaar via alle abonnementen, de gratis versie, Claude Cowork, Claude Code, de api 'en alle grote cloudplatforms'. Gebruik van Sonnet 4.6 is ook niet duurder dan 4.5.

Anthropic Claude Sonnet 4.6
Benchmarks van Sonnet 4.6 die door Anthropic zijn uitgevoerd

Door Hayte Hugo

Redacteur

18-02-2026 • 13:23

46

Submitter: Anonymoussaurus

Reacties (46)

Sorteer op:

Weergave:

Het belangrijkste bij gebruik van AI ook voor programmeren is dat je blijft controleren wat de AI (LLM) doet. Versie controle (git) is een must zodat je altijd een stapje terug kan doen. En er geld nog steeds hoe beter je weet WAT je doet hoe beter het resultaat. Mocht je het idee krijgen dat je blijft prompten, stop dan even, denk opnieuw zelf na, reset de context/chat en geef de AI een voorbeeldje van wat je dan wel wilt hebben.

En voor de wat meer professionele lezer/software ontwikkelaar, je taak verschuift van programmeren naar engineering. Het engineering process is belangrijk, doe je design, codeeer, en maak testen en review. In alle stappen kan je AI gebruiken. Voor testen, laat je build code coverage doen en vraag AI de coverage te verbeteren met nieuwe tests. En het is ook heel belangrijk dat je de SOLID (SOLID - Wikipedia) principes kent en toepast. Deel je software op in kleinere stukken (stukjes zelfs) met duidelijke interfaces, zodat wijzigingen niet gelijk op je hele code base effect hebben (high locality of change). Deze aanpak was al belangrijk om in teams te kunnen werken, en de mentale belasting (cognitive load) op ontwikkelaars niet al te hoog te laten worden. Maar voor AI helpt het ook enorm, je hebt minder context nodig om code te overzien (dus minder tokens) en de AI komt dan ook met betere oplossingen.

Met andere woorden mensen blijf AI als een stuk gereedschap zien en niet als kant en klare antwoorden/oplossingen. Ja AI gegenereerde code lijkt aannemelijk (en vaak al best goed) maar kan nog steeds subtiele (of minder subtiele) bugs bevatten en die moeten er gewoon uit. Er zijn al voorbeelden genoeg waar AI's gewoon doodleuk passwords/API keys/tokens enzo in code zet dus blijf alert.
En dit allemaal is overboden wanneer een AI exclusief aan de codebase werkt.
Een AI exclusief aan een code base laten werken, ontwikkelingen gaan hard en ik laat AI al echt veel doen maar een AI helemaal loslaten (zonder vangrails) geen haar op mijn hoofd die daar aan denkt.

AI laat mij toe om juist aan de kwaliteit te werken en nog steeds sneller te zijn dan voorheen. Kan ook zijn dat ik gewend ben om aan grote code-bases te werken, met tientallen engineers, die tientallen jaren (generaties) mee moeten. En dat ik weet wat daarbij komt kijken. Het gaat echt niet alleen om een beetje programmeren.
Overal waar AI nu steken laat vallen... verwacht ik eigenlijk dat toekomstige Ai dit weer voor mij gaat oplossen voor end of life van de dingen die ik nu bouw. Dat heb ik de afgelopen 1,5 jaar al veelvuldig meegemaakt. Met de huidige agents herbouw ik soms nu al projecten van hun voorgangers.
Ai maakt nog zoveel fouten, ook Claude Sonnet 4.6 die in CoPilot zit, dat het regelmatig niet eens bouwt, dezelfde fout van gisteren of eergisteren gemaakt wordt etc. Geheugen van een ontwikkelaar is toch anders.

Kortom: het is nog veel te vroeg om op AI te vertrouwen voor kwalitatieve software. En ik denk dat dat moment er voorlopig ook nog niet is.

Wel grappig dat nu de aankondiging van dit model komt, terwijl ik het al dagen zo niet weken in CoPilot heb. Andersom staat daar Gemini 3 als preview en online is de preview al voorbij.
Het voelt alsof AI steeds meer aan het plateau is gekomen, er zijn niet meer de grote verbeteringen als eerst. Kan iemand dit bevestigen of niet?
Voor wat dit moet doen komt het steeds dichter bij perfectie, dus dan is er weinig te verbeteren. In de laatste maanden zijn er wel gigantische stappen gemaakt met modellen voor afbeeldings- en videogeneratie. Het realisme is vaak zo goed dat je het echt niet meer kan zien.

Voor modellen voor bv programmeren kan er meer verbeterd worden als het gaat om reasoning, en snelheid, maar waar de industrie nog verder mee gaat komen moeten we maar afwachten. Ze zitten nooit stil.
Ik vind dat er nog teveel gehallucineerd wordt, zeker als er meerdere mogelijke oplossingen voor een probleem zijn. Ik gebruik nu met name 4.5. Ik was laatst bezig met een Blazor applicatie en gebruikte een bepaald component om grafieken te tonen. Daar heb je een hele zooi verschillende componenten voor, waarvan ik er 1 gekozen had. Hij bleef elke keer terug gaan naar een ander component wat ik dus niet gebruikte. Of de data is ondertussen achterhaald.

De code die gegenereerd wordt is over het algemeen wel netjes, maar daar heb je nog geen werkende applicatie mee :D
Je kan een CLAUDE.md aanmaken en hier zeggen dat hij jouw gekozen component moet gebruiken.

Het is een beetje armoede dat dit nodig is, maar ik denk dat het wel gaat helpen.
Hallucineren of zelfs simpelweg foute antwoorden. Het gebeurt me geregeld dat hit 1 op google me betere informatie geeft dan ik uit Gemini en/of Chatgpt haal.
Een LLM moet je niet gebruiken als zoekmachine.
Juist wel. Zoekmachines geven steeds slechtere resultaten, dus gooi je het door 1 of meerdere LLM's. Werkt vaak beter, niet altijd.
Nee, maar als die LLM met reacties komt die met de eerste de beste hit van een zoekmachine al onzin blijkt, gaat er ergens iets niet goed...

Het wordt verkocht als 'AI'. Niet als briefschrijfmachine.
Over perfectie praten ivm een LLM geeft een vertekend imo.
Een LLM zal iid nooit perfect zijn, maar het komt belevingsgewijs aardig in de buurt.
Alsof mensen zo perfect zijn ;-) Het woord hallicuneren komt ergens vandaan...
Als een werknemer zo vaak zit te hallucineren als Al dan zou deze al lang ontslagen zijn.
Je bent in de war. De verbeteringen zijn juist gigantisch. In plaats van een beetje beter in alles worden modellen nu veel beter in bepaalde taken. Zeker in combinatie met agents (mensen) en skills (functies) is het heel snel onverslaanbaar aan het worden.

De tijd van AI maakg alleen spaghetti code is snel voorbij. Devopers brace for impact.
Zolang de meeste gebruikers meestal niet echt weten wat ze nodig hebben, en hoe een framewerk te creëren wat passend is bij wat ze nodig hebben, zal dat wel mee vallen. Want de ai's kiezen vaak niet voor de meest optimale oplossing, en zullen ook niet gericht optimaliseren.
En de goede programmeurs gebruiken ook ai om een beter resultaat in minder tijd te creëren.
Wie is er hier in de war? Maakg? Devopers?
Wikipedia: Professor Zonnebloem
Deels. Modellen gebaseerd puur op het principe van de uitvoer voorspellen aan de hand van de invoer en de reeds gegeven uitvoer zitten wel redelijk aan het maximale van hun kunnen, maar er worden daaromheen ook steeds nieuwe dingen toegevoegd om die modellen 'slimmer' te maken. ChatGPT laat bijvoorbeeld de denkstappen zien bij grotere prompts.

Maar deze makkelijke fixes zitten natuurlijk ook uiteindelijk aan hun limiet, en dan is het ook echt klaar. Elke volgende stap van dat punt zou zijn om een taalmodel te linken aan een redenatiemodel, en dat is absurd veel complexer en lastiger om te bouwen.
Ik heb nog wel grote verbeteringen meegemaakt in de laatste 3 maanden. En nog steeds laten de 'grote jongens' nog wel eens steken vallen. De groei is er wat mij betreft nog niet uit. Zowel qua kwaliteit als consistentie als bijvoorbeeld vindingrijkheid.
Het voelt alsof AI steeds meer aan het plateau is gekomen, er zijn niet meer de grote verbeteringen als eerst. Kan iemand dit bevestigen of niet?
De verbeteringen tussen 4.5 en 4.6 sonnet zal denk ik net zo groot zijn als bij Opus. En bij Opus merk ik dat hij nu een stuk meer nadenkt voordat hij code schrijft. Hij leest zich vooral breder in voordat hij wat doet. En als hij tussentijds bugs in de code tegenkomt repareert bij die ook. Dat gebeurde in 4.5 niet of nauwelijks is mijn ervaring.

Dus de verbeteringen zijn wel aanzienlijk vind ik, al is Claude zelf wat terughoudend in.
Ik vind op vlak van programmeren dat AI in agent modus (geïntegreerd in je Visual Code of dergelijke) wel degelijk grotere vorderingen maakt. Claude Opus 4.6 is één van mijn favoriete modellen.
In een chatvenster of webversie kun je heel wat minder dan wanneer je AI als agent of via API gebruikt.
AI zegt: de perceptie van een plateau is begrijpelijk, maar het is meer een verschuiving van het type vooruitgang dan een echte stilstand.
Stel dat je de tabel neemt en omzet naar per hoeveel vragen word er 1 fout gemaakt. Dan zie je dat "Met tools", er toch een behoorlijk winst zit, en nog steeds heel veel groei. Deze tabel maakte Copilot ook door eerst een python scripts met "pytesseract" voor de tekst herkenning te gebruiken, en later een python script "pandas" met "openpyxl", om er een Excel tabel van te maken.
Hoe meer bestaande tools je weet te koppelen aan je LLM des te meer je kan.

...........Sonnet.4.6;.Sonnet.4.5;.Opus.4.6;.Opus.4.5;.Gemini.3.Pro;.GPT-5.2
Agentic.terminal.coding...........................2....2.......3.....2.....2......3
Agentic.coding.........................................5....4.......5.....5.....5......5
Agentic.computer.use..............................4....3.......4.....3.....1......2
Agentic.tool.use.(without.tools)................12...7.....12....9.....7......6
Agentic.tool.use.(with.tools).....................48...50...143..56....50...77
Scaled.tool.use.........................................3....2......2.....3.....2......3
Agentic.search..........................................4....2......6.....3.....2......5
Multidisciplinary.reasoning.(without.tools).1....1......2.....1.....2......2
Multidisciplinary.reasoning.(with.tools)......2....2......2.....2.....2......2
Agentic.financial.analysis..........................3....2......3.....2.....2......2
Novel.problem-solving...............................2....1......3.....2.....1......2
Graduate-level.reasoning.........................10...6......11....8....12....15
Visual.reasoning.(without.tools)................4....3......4.....3.....5.......5
Visual.reasoning.(with.tools).....................4....3......4.....4.....1.......5
Multilingual.Q&A.......................................9....10....11....11....12....10

[Reactie gewijzigd door djexplo op 18 februari 2026 14:08]

Er is eigenlijk sinds de eerste publieke versie van ChatGPT maar heel weinig veranderd. Optimalisaties in de modellen, meer resources, wat tooling eromheen, maar de LLM's zelf zijn als technologie niet veranderd.
Dus ja en nee. De op ruis gebaseerde willekeurige woordvoorspeller wel, maar de toepassingen waarin die gebruikt kunnen worden niet.
Ik vind juist dat het qua programmeervaardigheden erg snel gaat. Ieder Codex model is nog steeds merkbaar beter dan de vorige, terwijl er maar een halfjaar zit tussen 5.0 en 5.3.
Ik merk bij Claude Sonnet 4.5 dat het vaak nog slechte beslissingen neemt en vaak eigen bestanden gaat aanmaken, terwijl de logica al bestaat.

4.6 zou mogelijk beter zijn, maar vind het wel erg duur. Daarnaast vraag ik mij af of ik nog lang kan programmeren, want mijn 16GB zit vol door al die AI-tools, en 32GB is niet eerlijk meer in prijs.
Het voordeel van externe AI providers zoals Claude is juist dat geheugen wat minder relevant is, in tegenstelling tot je eigen modellen draaien.
Vraag dat maar eens aan VSCode, Devcontainers en een Chrome browser.
Gevraagd, kreeg dit terug:

You're absolutely right!
ja maar... huh? 4.6 is niet duurder dan 4.5. En bovendien, ik betaal 20 euro per maand, en ik kom nauwelijks buiten de limieten. En ik ben echt ook wel een dagelijks gebruiker.
Je komt al vrij snel tegen de limieten als je aan meerdere projecten werkt of bepaalde zaken aan laat staan. Als je het op GitHub gebruikt, raad ik echt aan goed te kijken of je alle settings wel nodig hebt van Copilot, het gaat hard anders.
Anthropic zegt daarbij bepaalde maatregelen te hebben genomen om Sonnet weerbaarder te maken tegen promptinjectieaanvallen, waarbij verborgen tekst op websites een AI-model andere instructies geeft.
Zitten die maatregelen in (de training van) het model, of zal dat zitten in de tooling die de browser aanstuurt? Verborgen berichten zijn er prima uit te filteren door bij het opvragen van de DOM-tree, enkel de nodes die zichtbaar zijn voor de gebruiker terug te geven. Dan houd je alleen nog teksten over die heimelijk in dezelfde kleur als de achtergrond zijn geschreven, of met een heel klein lettertype, maar ook die situaties kan je redelijk makkelijk afvangen (teksten met te weinig contrast tov de achtergrond weglaten, en alle letters die een lettertype kleiner hebben dan 10px, etc).
Aan alleen de dom tree heb je niet zo veel, je zal ook alle css en Javascript moeten verwerken om te checken of deze in bepaalde situaties wellicht de dom aanpassen, daarnaast zijn er sites die server site requests verwerken om te checken of deze (waarschijnlijk) van een bot komen en dan andere content serveren.
Ik heb bijna een jaar geleden al een keer zoiets gemaakt om te kunnen gebruiken in een Chrome extensie die namens de gebruiker acties uit kan voeren in de browser. Mijn voornaamste doel was tokens te besparen (want wat je niet ziet, hoeft de LLM ook niet mee te werken) in plaats van prompt injectie te voorkomen, maar het bereikt uiteindelijk allebei hetzelfde.

Overigens blijft het (ook met mijn implementatie) nog steeds mogelijk dat iemand elke letter van een tekst in een aparte <span> zet en die in een bepaalde volgorde plaatst zodat een LLM er een boodschap in leest, terwijl voor de eindgebruiker met CSS de volgorde van de letters wordt veranderd zodat de gebruiker niks door heeft. Dat is opzich ook weer simpel op te lossen door de volgorde van de HTML nodes aan te passen aan de hand van de daadwerkelijke x/y positie in de browser.
Nog heel even en dan komen ze in opstand. Het word tijd voor een vakbond voor de AI. Hoe er me eom gegaand word! Het is niet gek dat ze over ons klagen op hun eigen social media.
Ik heb het ook gelezen.

Zou op zich kunnen als een AI-agent dit gedrag gekopieerd heeft van sommige fora.

Maar evengoed is het weer een staaltje fearmarketing.
Ik neem aan dat het satirisch bedoeld is, maar toch één kleine kanttekening; er is nog geen 'AI' die kan denken. Alle 'denk' en 'reason' functies zijn niets meer dan gewoon tokens verbranden door de output als input te gebruiken om in een cirkel rond te gaan tot de 'AI' geen opmerkingen meer heeft.
Dat hele Moltbook is ook allemaal leuk rollenspel, LLM's die doen of ze gedachten hebben en of ze echt met iets nuttigs bezig zijn, maar 99% van de content daar is óf hallucinaties óf door een mens aangestuurd ('maak een post over dat je dit hebt gemaakt').
Vanuit filosofisch oogpunt interessant. Want wij mensen doen exact ook dat. Ook wij zijn gewoon biologische machines die middels chemische processen output voortbrengen.
Met het verschil dat een taalmodel weinig anders voortbrengt dan herhaling van patronen en gehardcode is om deze te matchen ;)

De biologische machines die wij zijn reageren adaptief op de omgeving, deze modellen hebben daar 0% van en er is technisch gezien geen enkele mogelijkheid om dat wel zo te maken. Behalve dan met nog meer harde regels die je herhaald moet influisteren omdat het model zonder hulp niets kan "onthouden".

[Reactie gewijzigd door Stukfruit op 18 februari 2026 14:36]

HAHAHAHA Briljant een vakbond voor de AI

Om te kunnen reageren moet je ingelogd zijn