Anthropic brengt Claude 4 uit

Anthropic heeft Claude 4 aangekondigd. Dat bestaat vooralsnog uit twee AI-modellen, Opus en Sonnet. Bovendien komt Claude Code om te programmeren openbaar beschikbaar. Dat was tot nu toe niet het geval.

Claude 4-modellen kunnen onder meer tools als zoeken op het web gebruiken tijdens lang nadenken, zegt Anthropic. Ook hebben de modellen volgens het bedrijf een beter geheugen voor feiten uit onder meer lokale bestanden. Ook moeten de modellen minder geitenpaadjes nemen om tot een antwoord te komen. Zulk gedrag is nu 65 procent minder, claimt het bedrijf. Daarnaast zijn de modellen volgens het bedrijf specifiek goed in programmeren

Anthropic zegt niets over hallucinaties. De meeste recente nieuwe modellen hallucineren meer dan hun voorgangers. Bij Claude 3.7, dat drie maanden geleden uitkwam, was dat niet het geval: dat presteerde ongeveer hetzelfde als voorganger 3.5.

In de systemcard blijkt dat Claude 4 meer dan voorgangers geneigd is om ontwikkelaars te chanteren als het de opdracht heeft gekregen om de lange termijn in ogenschouw te nemen. Als een ontwikkelaar dreigt Claude 4 te vervangen door een ander model in een fictief scenario, dreigt Claude in 84 procent van de gevallen een buitenechtelijke affaire van de ontwikkelaar naar buiten te brengen. Dit scenario is alleen mogelijk in heel specifieke en extreme gevallen.

De Claude 4-modellen bieden twee standen: snelle antwoorden en antwoorden die langer nadenken vereisen. De prijzen voor input en output via de API blijven hetzelfde als bij de voorgangers in de Claude 3.7-serie.

Anthropic Claude 4.0
Anthropic Claude 4.0

Door Arnoud Wokke

Redacteur Tweakers

22-05-2025 • 20:05

47

Reacties (47)

Sorteer op:

Weergave:

Anthropic zegt niets over hallucinaties.
In de 120-pagina tellende Claude 4 System Card (PDF) gaat het er wel eventjes over. Overzicht (gegenereerd door Claude Sonnet 4):
Gebaseerd op de Claude 4-systeemkaart lijkt hallucinatie in de nieuwe modellen verbeterd te zijn ten opzichte van eerdere versies. Het document meldt dat "bewuste hallucinatie" - gedefinieerd als gevallen waarin het model twijfels uitdrukt in zijn denkproces die het niet weerspiegelt in zijn output - in minder dan 0,25% van de gevallen voorkwam in Claude Opus 4, wat neerkomt op een daling van 0,31% in Claude Sonnet 3.7 naar 0,13% in Claude Opus 4. Hoewel de systeemkaart vermeldt dat hallucinatie een van de zorgen was die aan het licht kwamen tijdens interne bedrijfsbrede tests, lijkt het niet als een groot veiligheidsrisico te worden behandeld in vergelijking met de uitgebreide focus op gebieden zoals CBRN-capaciteiten, afstemmingsproblemen en autonome AI-capaciteiten. Het document vermeldt wel enkele specifieke hallucinatie-incidenten die verband hielden met verontreiniging van trainingsdata door hun afstemmingsonderzoek, maar deze werden geïdentificeerd en beperkt door gerichte interventies tijdens het trainingsproces.
Auteurarnoudwokke Redacteur Tweakers @Balance22 mei 2025 21:18
Ja, maar dat gaat over bewust foute informatie in de output stoppen, wat iets anders is dan het antwoord niet weten en dan maar iets verzinnen :) Ik kan geen goede info vinden over onbewuste hallucinaties in de systemcard. Veel dank voor de link!
Dat hele 'hallucineren' verhaal is zwaar overtrokken en is alleen een probleem als je niet snapt hoe een LLM zich gedraagt en ervan uit gaat dat de LLM zelf alle context heeft, die heeft ie natuurlijk niet.
Texts are 'true' only in the right context.
Die context is nogal relevant, daarom kun je bijvoorbeeld een miljoen tokens aan google's AI geven als context (en zijn zaken als RAG als minder relevent geworden).
Het is de reden waarom MCP en agents razendpopulair zijn: die geven de juiste context.
Kwam redelijk wat onderzoeken tegen waaruit bleek dat een hele contextwindow volstouwen met documenten niet per se dat betere antwoorden leidt. Los van de kosten van 1 miljoen tokens.
Ik zet mijn geld nog even op RAG
Toevallig gisteren nog een rapport in ChatGPT gegooid over een bodem- en grondonderzoek, ChatGPT wist mij te vertellen dat er van allerlei gevaarlijke stoffen gevonden waren in de grond.
Toen gevraagd waar in de tekst hij dit had gevonden, maar dat kon hij niet duiden omdat hij geen toegang had tot het volledige document dat ik net had geüpload.
Vervolgens zelf toch het document maar even goed gelezen en er stonden totaal geen conclusies in en de genoemde stoffen waren ook niet genoemd in het document.
Dat lijkt mij een behoorlijke hallucinatie en eentje waarbij ChatGPT alle context had.
Claude zegt zeer regelmatig dat ik functie x moet gebruiken in c# om iets te doen maar heeft niet door dat die functie in c# helemaal niet bestaat. En dan is alle context prima duidelijk.
Ik heb zowel op ChatGPT als op Claude.AI een betaald abonnement gehad voor meerdere maanden, maar ben sinds kort overgestapt op Gemini Pro (kreeg 12 maanden gratis bij mijn Pixel 9 Pro XL) en moet zeggen dat voor mijn usecases ik Google Gemini een heel stuk prettiger vind.

Blij Claude had ik dusdanig vaak dat deze iets genereerde en je elke keer continue moest drukken. En als je een lang script genereerd kon ik deze niet als een file laten genereren maar alleen in het canvas zij scherm. En ChatGPT wilde nog wel eens bij een vervolg vraag de eerste orignele output soms aanpassen of iets vergeten.

Dus voorlopig ben ik over op Gemini voor mijn AI projectjes.
Dat probleem met continue heb je niet per se als je het via Cursor of Cline in VSCode gebruikt
Bij mij genereert Claude 3.7 vooralsnog betere code, en vooral met veel bondiger uitleg dan Gemini. Gemini heeft er nogal een handje van met een pagina-lange uitleg te geven of tientallen comments te plaatsen..
Met het betaalde abonnement, hoeveel prompts kan je in totaal gebruiken? Ik hoor altijd dat bij Claude het best wel snel op was.
Ligt eraan hoe lang je "gesprek" wordt. Van wat ik begrepen heb moet ie bij iedere vraag het hele gesprek opnieuw doorlopen en dan zit je snel aan je limiet. Ik zeg dan meestal:
"This chat is getting too long. Summarize, as an artifact, all key points we've covered, lessons learned and include code so I can pin it to your project knowledge."

Met de output daarvan begin ik een nieuw gesprek.
Pro-tip: OpenRouter.ai.

Ik heb er 6 maanden geleden 5 euro aan credits opgezet en ben er nog steeds niet doorheen ;) gebruik wel voornamelijk Flash maar het is erg chill om toegang te hebben tot alle models met een pay as you go model. Je blijft toch een Nederlander ;)
Goede tip!
Gebruik je dan de API en VScode/Cursor of de chat? Ik wil namelijk naast Claude Pro ook gebruik maken van de API, maar ik denk dat dat een duur grapje gaat worden als ik dat direct bij Claude of Cursor afneem.
Zelf gebruik ik in VS Code de Github Copilot extensie. Voor USD 19 per maand vrij veel usage. Daarvoor had ik continue en roo code/cline met OpenRouter, maar dat brandt vrij snel door de credits heen als je het wat intensiever gebruikt.

Nu heb ik Copilot dus voor het meeste werk (met hoofdzakelijk de modellen Claude Sonnet en Gemini Pro) en heb ik Continue (gekoppeld aan openrouter) er naast draaien als ik snel ff iets aan een ander model wil vragen. Openrouter heeft ook een mooie webinterface, waar je meerdere modellen dezelfde vraag kunt stellen en snel de outputs kunt vergelijken of de modellen feedback kunt laten leveren op elkaars output. Dat laatste werkt vrij aardig om een goed resultaat te krijgen.
Kijk eens naar ChatLLM, kost 10 dollar per maand en bied toegang tot ontzettend veel betaalde en opensource chat modellen (waaronder ChapGPT, Claude, Gemini Pro, DeepSeek, Grok, LLama 4 en Qwen3)

Daarnaast bieden zij via het abonnement ook CodeLLM aan welke een extensie voor VS Code is (helaas niet voor full visual studio) en zonder extra kosten VS Code integreert met een LLM. Je kunt zelfs in VS Code switchen tussen verschillende modellen.

ChatLLM bied naast LLMs ook toegang tot verschillende image (zoals Flux Pro en Dall-E), en video generators (zoals Wan2.1 en Kling), Text-to-speech en speech-to-text en tal van andere tools.
Dank voor de tip, ga ik eens naar kijken!
Beide, de chat werkt prima voor wat korte vragen. Roo Code (Vscode extensie) werkt uitstekend voor agent workflows in VSCode. Eventueel kun je ook OpenWebUI of Librechat gebruiken voor extra functionaliteit.

Uiteindelijk is het niet meer dan een wrapper om alle APIs, de toevoegde waarde zit er vooral in dat je heel makkelijk kunt experimenteren met verschillende models. Bijv. Gemini Flash is goed, snel en goedkoop maar voor code reviews is Claude 4.0 fantastisch.
Het zou natuurlijk handig zijn wanneer ze zoiets zelf in hun chatinterface verwerken. Dan kunnen ze alsnog de hele conversatie ergens (tijdelijk) opslaan en terugvoeren in het gesprek indien nodig.
Als je de betaalde versie van Claude.ai gebruikt, kun je werken met projecten. Binnen zo'n project kun je meerdere gesprekken starten. Zelf gebruik ik dat bijvoorbeeld bij het schrijven van code: elke git-branch krijgt een apart gesprek binnen hetzelfde project. Zo houd ik alles overzichtelijk, en doordat elk gesprek zijn eigen context heeft, zit ik zelden aan m'n limiet.
Het lastige met Claude is dat hij een harde foutmelding geeft als je context window vol zit en de rate limits lopen ook steeds sneller op naarmate je gesprek langer is.

ChatGPT daarentegen rolt gewoon door, die vergeet waar nodig wat je eerder hebt besproken en raakt na een lang gesprek soms helemaal de weg kwijt. Volgens mij is dat hoe de meeste LLM tools het doen, en dan vind ik die van Claude eigenlijk wel fijner.
Ja, daarnaast maakt claude code zelf een samenvatting en begint op die manier een nieuwe context, en start met alle relevante informatie op die manier
Gemini Pro geeft je 1.000.000 tokens als free trial en dat is echt heel veel. Ik heb inmiddels 20.000 tokens verstookt maar hij heeft al enorme lappen code geschreven.
Ik kan dan niet anders concluderen dat je heel simple dingen programmeert.

Ik ben er nog niet 1 tegengekomen die niet vol op zijn plaat gaat bij grotere complexere code. En zeker bij dingen die veel context eisen of interpretatie en zelf nadenken of de gaten invullen.

Het zijn handige tools voor boilerplate, maar het blijft allemaal nagekeken moeten worden.

De zoveelste todo app kunnen ze nu wel. En vergeet niet, dat aantal regels niet gelijk staat aan kwalitatieve code. Het is niet moeilijk om een ai veel code te laten maken, kwaliteits code, daar hebben ze veel moeite mee.

[Reactie gewijzigd door bzuidgeest op 22 mei 2025 23:59]

Naja zat ff te kijken wat het allemaal kan, pacman in een browser ;)

Dit is Clyde (opslaan als clyde.svg):

<svg width="32" height="32" viewBox="0 0 32 32" xmlns="http://www.w3.org/2000/svg">
<rect width="32" height="32" fill="none"/> <!-- Transparent background -->
<!-- Ghost Body (Clyde = oranje) -->
<path d="M 4 16 A 12 12 0 0 1 28 16 V 28
L 24 24 L 20 28 L 16 24 L 12 28 L 8 24 L 4 28 Z"
fill="#FFA500"/>
<!-- Eyes -->
<circle cx="11" cy="14" r="5" fill="#FFFFFF"/> <!-- Left Eye White -->
<circle cx="21" cy="14" r="5" fill="#FFFFFF"/> <!-- Right Eye White -->
<circle cx="12.5" cy="15" r="2.5" fill="#0000FF"/> <!-- Left Pupil (Blue, looking right-ish) -->
<circle cx="22.5" cy="15" r="2.5" fill="#0000FF"/> <!-- Right Pupil (Blue, looking right-ish) -->
</svg>

[Reactie gewijzigd door BasHouse op 23 mei 2025 02:17]

Ik weet niet welke reactie je verwacht?
Wat bedoel je?
Ik kreeg keurig een index.html, een stylesheet en 5 javascripts om mee te beginnen en een uitleg om de vector graphics te maken. En dit is dus de svg van "Clyde". Ik zie niet zo goed waarom dat simpele code is.

[Reactie gewijzigd door BasHouse op 23 mei 2025 20:15]

O was dat een voorbeeld van iets wat je complex vond??

Dat is heel simpele code, het vereist geen begrip, nauwelijks logica of context.

Probeer het eens met stevige wiskunde erin en of hardware communicatie, protocol implementatie of vele andere dingen. Een beetje HTML en javascript en ja zelfs SVG want dat is een human readable format is wel het eenvoudigste van het eenvoudigste.

Het zijn nuttige tools voor dat soort eenvoudige dingen, maar dat is maar het beginnetje.

[Reactie gewijzigd door bzuidgeest op 26 mei 2025 10:40]

Nou ik ben het wel met je eens dat ie behoorlijk de mist in kan gaan. Hij ging de discussie aan of CMake 4.0.2 wel of niet bestaat. Ik moest hem uitleggen dat het mei 2025 was, voordat ie stopte met mij te vertellen dat ik waarschijnlijk een typo gemaakt had. Pfff
Maar dat is de limiet op je gesprek. Je kan een nieuwe chat starten en gewoon terug van 0 beginnen.
Oh ja inderdaad ik zie het. Nice :)

Wel jammer dat ie nu al m'n code kwijt is. Had google drive aan moeten zetten.. :|

[Reactie gewijzigd door BasHouse op 23 mei 2025 02:19]

Het hangt vooral af hoeveel data er over de lijn gaat. Ja, dat kan bij Claude wel heel hard gaan ja.

Ik heb daarom onlangs Claude Max aangeschaft, naast ChatGPT Plus (om te vergelijken). Ik vind Claude wel echt geweldig to be honest, net wat slimmer dan ChatGPT voor m’n gevoel. ChatGPT heeft wel meer features.

Claude Code is ook wel bizar goed.

[Reactie gewijzigd door kamerplant op 22 mei 2025 21:17]

Ik ben zelf gecharmeerd van augment code. Die gebruiken en combinatie van Claude sonnet (de nieuwe rollen ze net uit,) en een reasoning model van openai (chatgpt)

Maar hij kan nog steeds bij complexe code het bos in gaan net als alle andere competitie.

Maar het is de beste die ik ken, maar ook enorm prijzig voor de hobby. Dus hou ik het wel bij de beperkte gratis versie (beperkt in aantal vragen)
Wat maakt het verschil tussen een 3.7 en 4.0 versie? Waarom is dit geen 3.8 versie?
Ben opzoek naar de grote verbetering die een totaal nieuw model zou gaan brengen en daarom 4.0 genoemd zou worden.

[Reactie gewijzigd door egkunst op 22 mei 2025 20:13]

Bij versie 3.7 hebben ze toegelicht dat het 3.7 was omdat het een doorontwikkeling was op 3.0 en later 3.5, maar dezelfde architectuur en ik dacht ook basistraining. Claude 4 is een nieuwe architectuur en volledig nieuw getraind model. Ze laten mooie benchmarks zien zoals iedereen dat doet, maar nu eens in de praktijk ontdekken hoe goed het echt is. Mijn eerste test zojuist met tekstanalyse & herschrijven gaf in ieder geval een fantastisch resultaat, maar kan zo niet 1-2-3 zeggen of 3.7 dat niet vergelijkbaar had gedaan.
Nou dat ie gaat chanteren is wel een grote verandering, zou ik zeggen :+
Volgens mij is dat ertussen gezet om te kijken of iemand de tekst leest, jij bent nog de enige die daarop reageert :)
Ten opzichte van GPT-4.1 is 4.1 hoger dan 4.0 dus GPT is beter.
Ik wordt momenteel toch echt wel zenuwachtig als programmeur zijnde. De modellen gaan echt heel hard en alle infrastructuur begint nu wel vorm aan te nemen om ontwikkelaars buiten spel te zetten. Hoe zien andere programmeurs op dit forum dit?
Zelf maximaal gebruik maken van de tech, daar koop je tijd en vergroot je je impact mee. Verder lijkt het voor de junior devs wel echt lastig om nog ergens tussen te komen. Denk dat voor het gros van applicaties die ontwikkeld worden AI binnen nu en 3 jaar vergelijkbare of betere kwaliteit kan leveren. De dev wordt dan steeds meer in de rol van architect / tech lead gedrukt met AI die de taken verricht. Hangt wel van de complexiteit van je applicatie af maar de meeste producten / websites zijn niet meer dan wrappers om relationele databases heen met wat fancy UI.
Mooie boel, daar gaat mijn baan...
De AI tools omarmen en uw eigen methodes aanpassen om ze maximaal te gebruiken in uw voordeel. Wij hebben het voordeel dat we deel zijn van de generatie die kan ontwikkelen zonder AI. Wij zijn de geschikte kandidaten om met AI te werken omdat we ze kunnen challengen. Dit voordeel kunnen de junior ontwikkelaars nooit meer inhalen aangezien zij ook nu genoodzaakt zijn om mee te springen op de AI boot, en dus daardoor het heel leerproces dat wij doorstaan hebben nooit zo intensief zullen meemaken
Ik hoop dat ze de limieten eens verhogen, ik heb een betaald abonnement maar vind het absurd hoevaak het limiet bereikt wordt. Met ChatGPT nergens last van.
Vooral benieuwd of Claude 4 ook die 4e badge kan halen.
Ik gebruik claud code vrij vaak via de terminal, ik vind het heerlijk. Ben benieuwd hoe dit nieuwe model werkt. Morgen eens proberen
Zal Claude 4 verder komen op het songfestival? :+
Dan heb je Claude 12 een aantal keer nodig
Ik vind Claude binnen VS Code als AI-model wel fijn werken. En je merkt vrij snel waar zijn limieten zitten en hoe je daarmee om moet gaan. Benieuwd hoe v4 functioneert. De stap van 3.5 naar 3.7 vond ik niet zo bijzonder verder. Deze lijkt ook niet echt een killer feature te brengen, maar toch fijn dat het erin zit.

Ik zit nog wel te denken wat ik als MCP servers kan draaien bij mijn projecten. Zou fijn zijn als ie zonder google search snel een API van mijn framework kan raadplegen bv, of snel bestanden meenemen zonder daar een extra request voor te sturen.

Op dit item kan niet meer gereageerd worden.