Anthropic brengt Claude 3.7 Sonnet uit

Anthropic heeft zijn nieuwste AI-model uitgebracht: Claude 3.7 Sonnet. Naast de standaardmodus heeft het model een 'extended thinking mode' waarbij het stapsgewijs redeneert en dit zichtbaar maakt voor gebruikers.

Claude 3.7 Sonnet is per direct beschikbaar via alle Claude-abonnementen, de Anthropic-api, Amazon Bedrock en Google Cloud Vertex AI. Extended thinking mode is niet beschikbaar voor de gratis versie. Anders dan bij andere llm’s, zegt Anthropic dat de redeneermodus geen apart model is en zit ingebakken in Claude 3.7 Sonnet. Api-gebruikers krijgen gedetailleerde controle over de denktijd van het model, waarmee ze kunnen bepalen hoeveel tokens het model mag gebruiken om te redeneren. In benchmarktests presteert Claude 3.7 Sonnet volgens Anthropic beter dan concurrerende modellen op swe-bench Verified en tau-bench, twee frameworks die de capaciteiten van AI-modellen testen op real-world softwareproblemen en complexe taken.

Gelijktijdig introduceert Anthropic ook Claude Code als beperkte onderzoekspreview. Deze tool stelt ontwikkelaars in staat om programmeertaken rechtstreeks vanuit hun terminal aan Claude te delegeren. Naast deze releases heeft Anthropic ook de GitHub-integratie op het Claude.ai-platform uitgebreid naar alle abonnementen. Ontwikkelaars kunnen daardoor hun coderepository's direct verbinden met Claude.

Claude benchmarks vergeleken met andere modellen.

Reacties (38)

Martinspire 25 februari 2025 09:50

Gebruik Claude al een tijdje. Eerst via diverse andere VSCode extensies en de laatste tijd via Cline dmv Openrouter. Daardoor lijkt ie wat meer op Cursor (de VSCode fork met meer AI) want die vond ik zelf toch wat duur. Cline gebruik ik voor de wat grotere taken. En momenteel Cody voor autocomplete en simpelere vragen. Die gebruikt onderhuids ook Claude maar die kan dan wat minder automatisch te werk gaan en dat vind ik voor sommige zaken toch wel fijn. Al vind ik deze setup toch ook wel wat duurder dan wat volgens mij wel mogelijk moet zijn.

Het is nog even wachten tot Copilot hetzelfde kan als Cline/Cursor want dan zit je volgens mij niet zo snel tegen de limieten van de API aan. Er is wel het 1 en ander voor insiders al beschikbaar, maar ik draai voor mijn werk liever de stabiele versies.

jh0t @Martinspire • 25 februari 2025 11:46

Kijk ook eens naar Roo Code. Stamt af van Cline maar meer mogelijkheden en wat efficiënter! https://github.com/RooVetGit/Roo-Code

Dit in combinatie met OpenRouter als API provider werkt top. Rechtstreekse API van Anthropic heeft een veels te lage limiet. Na een paar prompts, zeker als je wat meer tokens gebruikt, moet je een upgrade aanvragen. Vandaar OpenRouter!

[Reactie gewijzigd door jh0t op 25 februari 2025 11:48]

DrPoncho @Martinspire • 25 februari 2025 10:21

Cline ziet er gaaf uit, thanks voor de tip, kende ik nog niet. Degene die ik tegenkwam waren inderdaad erg duur.

Mitsuko @Martinspire • 25 februari 2025 11:57

(GitHub) Copilot is in principe ook te gebruiken via Cline: API provider "VS Code LM API". Nog wel experimenteel.

osxman 25 februari 2025 09:25

Mocht je dit voor programmeren willen uitproberen dan kan dat ook via de Zed editor: zed.dev
Anthropic Claude Sonnet 3.7 wordt daar ook ondersteund: https://zed.dev/releases/stable
Nu is versie 3.5 daarin gratis te gebruiken met een redelijke grote limiet ik geloof zo'n 200.000 karakters kun je 'overzenden', dat is meer dan bij de gratis versie van Github Copilot(?) denk ik.

[Reactie gewijzigd door osxman op 25 februari 2025 13:14]

Eärendil @osxman • 25 februari 2025 11:06

Als ik een API-key toevoeg zonder te betalen krijg ik bij elke request de foutmelding: "Your credit balance is too low to access the Antropic API". Hoe heb jij het voor elkaar gekregen om dit gratis te gebruiken?

osxman @Eärendil • 25 februari 2025 13:16

Ik zie nu in Zed configuratie dat de gratis versie van Zed Claude Sonnet 3.5 is...
Mijn vergissing, ik ging af op de release notes.
Dus je kunt voor gratis gebruik van AI in Zed bij 'Configure your Assistent' => 'Zed' kiezen.

[Reactie gewijzigd door osxman op 25 februari 2025 13:17]

Eärendil @osxman • 25 februari 2025 15:48

Het was met name dat ik niet ingelogd was met in Github-account in Zed zelf. Als je niet bent ingelogd staat Zed AI niet bij de opties.

osxman @Eärendil • 25 februari 2025 18:23

Ja inderdaad dat is waar ook, blij dat je het hebt gevonden!

GrooV 25 februari 2025 08:32

Toevallig gisteren gelijk geprobeerd maar het is echt een goed model. Claude is inmiddels al een tijdje de enige betaalde AI die ik nog gebruik. Helaas loop je op een PRO plan wel snel tegen de limieten aan maar als je de API gebruikt heb je daar geen last van

Puddi Puddin @GrooV • 25 februari 2025 09:02

Ik zou eens kijken naar de BIG-AGI interface. Je kunt al je API keys van verschillende modellen toevoegen. Alles draait in de browser met versie 2. Kosten worden netjes getoond alsvorens je de prompt verstuurd en hij ondersteund diverse documenten & foto's.

gekkeh3nk @GrooV • 25 februari 2025 08:40

Hoe verhogen de kosten zich tov OpenAI API?

bursche 25 februari 2025 11:43

Claude is best handig. Maargoed, de eerste vraag die ik net 3.7 voorleg is meteen totaal fout.
Het blijf natuurlijk domme technologie, het nadenken moet je zelf blijven doen

watercoolertje @bursche • 25 februari 2025 11:46

Claude is best handig. Maargoed, de eerste vraag die ik net 3.7 voorleg is meteen totaal fout.

Beetje vaag, wat deed ie nou fout dan? Of moet ik letterlijk nemen wat je zegt (dazt de vraag fout is, en niet het antwoorrd), dan ligt het namelijk aan jezelf

bursche @watercoolertje • 25 februari 2025 12:07

Nou nou, beetje meer credit graag hè, t is maar een AI model, geen mens

Ik vroeg hem een aantal beroemde citaten te herleiden en die waren allemaal fout.
Na het aanleveren van de juiste bronnen ging hij overstag en bood Claude zijn diepste excuses aan.

kamerplant @bursche • 25 februari 2025 11:49

Ik zou Claude niet dom noemen hoor 🤩

Cybje @bursche • 25 februari 2025 13:18

Daar kan AI natuurlijk weinig aan doen, als de vraag fout is

kamerplant 25 februari 2025 09:56

Ik heb gisteren Claude code gebruikt. Het is wel weer een bizarre krachtige stap. En ook duur. Ik heb één toffe feature toegevoegd, dat kostte mij 11 usd (40m compute time). Als ik dit full time ga gebruiken loopt dat echt in de papieren.

[Reactie gewijzigd door kamerplant op 25 februari 2025 09:57]

gorgi_19 @kamerplant • 25 februari 2025 11:07

Vanuit het bedrijf geredeneerd.

Als ik een ontwikkelaar een uur laat werken aan iets, dan kost me dat al snel minimaal 70 dollar.
Die 11 dollar, da's dan 10 minuten werk. Als het je meer dan 10 minuten heeft bespaard, ben je al uit de kosten.

SPee @gorgi_19 • 25 februari 2025 12:58

Ja, dan kan die ontwikkelaar wat langer op de wc zitten.

Niet elke werkgever is zó gefocussed op de output van een ontwikkelaar dat ze elke besparing willen gebruiken om maar meer "output" uit te knijpen.

gorgi_19 @SPee • 25 februari 2025 16:48

Ik gaf aan dat het omslagpunt al op 10 minuten lag. Het zou me niks verbazen als de volledige implementatie van de feature enkele uren in beslag zou nemen. Dan telt het gebruik van Claude snel op tot een forse besparing.

jzn21 @gorgi_19 • 25 februari 2025 11:18

Precies! Een ontwikkelaar zou hier waarschijnlijk veel langer dan een uur mee bezig zijn, terwijl Claude het in minuten kan doen. Die 11 dollar is dan ineens een koopje, want je bespaart niet alleen geld, maar ook flink wat tijd die elders productiever ingezet kan worden.

Remzi1993 @jzn21 • 25 februari 2025 12:30

Inderdaad, en ontwikkelaars kunnen dan bezig zijn met ingewikkeldere problemen en bugs.

do_sch @Remzi1993 • 25 februari 2025 12:57

en de code van Claude debuggen

Vulcanic @do_sch • 25 februari 2025 15:50

Wat een claude job lijkt mij dat.

Remzi1993 @do_sch • 25 februari 2025 18:40

Dat is helaas waar, maar de helft van de keren is het wel sneller dan geheel alles zelf maken, vooral met eenvoudigere dingen en dingen die al heel vaak ontwikkeld zijn.

kamerplant @jzn21 • 25 februari 2025 21:23

Nu heb je de Nederlandse situatie: de ontwikkelaar heb je al in dienst, die moet je gewoon doorbetalen. Als de ontwikkelaar ineens 500 USD per maand aan LLM kosten kwijt is, is je ontwikkelteam ineens fors duurder geworden. Terwijl je niet direct je product veel meer opbrengt, de meeste contacten staan voor langere tijd vast.

Uiteindelijk is het wel een besparing, maar dit is nog wel even een drempel om te nemen.

ericgeurts @kamerplant • 25 februari 2025 11:01

Dat kan inderdaad oplopen. Maar als het je veel tijd bespaart, kan het zakelijk gezien alsnog een voordeel zijn. Heb je een idee hoelang je er anders mee bezig was geweest en dus hoeveel tijd het je nu heeft bespaard?

mutley69 25 februari 2025 10:03

Ik denk dat er naast het kwalitatieve en prijs-aspect helaas ook een 'oranje' dimensie is bijgekomen. Hoe slim willen we dat de ultraconservatieve partijen en bedrijven worden? En dat gaat verder dan mr. Musk. Ook Palantir is op jacht naar gezondheidsgegevens en veel meer (zij leveren ook aan defensie in de VS) - en zo zijn er nog tal van bedrijven die wij zelfs niet kennen.
AI kan ons onze vrijheden ontnemen, wees dus bewust van wat u deelt, hoe minder hoe beter.

icecreamfarmer @mutley69 • 25 februari 2025 10:40

Palantir is AI voor het leger.
Als je de filmpjes bekijkt is het Skynet inclusief automatische targeting.

Ronnerd @mutley69 • 25 februari 2025 15:07

Want de andere zijde van het politiek spectrum doet niets met AI of met gegevens die mensen vrijwillig verstrekken? Wat een vreemd polariserend argument is dit toch weer. Je kan mensen prima wijzen op de potentiele gevaren van AI en gegevens die je vrijwillig via dergelijke systemen verstrekt, zonder er een politiek iets van te maken, toch?

satya @mutley69 • 25 februari 2025 19:14

Het probleem is dat die partijen aan het einde van hun latijn raken en open source ze bijna heeft ingehaald omdat die gedwongen slimmer moeten werken. Deepseek heeft dat nog eens een enorme boost gegeven wat uiteindelijk wel eens destructief uit kon pakken voor enkelen. Voor Google zie wel een kans omdat die al erg lang deze straat invaren.

yourbirthcertif 25 februari 2025 08:40

Heel blij om te zien dat Claude toch maar beter en beter wordt, lijkt een goede middenstap tussen 3.5 en hopelijk 4.0

singingbird 25 februari 2025 08:51

Gisteren hier gebruik van gemaakt, maar had niet door dat het 3.7 was. Ik was al verbaasd dat hij nu een stuk langere output lengte had en het script werkte ook goed voor waar ik het voor wilde gebruiken.
Vandaag even gaan testen en hoop niet snel tegen de limieten aan te lopen.

SherlockHolmes 25 februari 2025 09:58

Wat ik in die tabel zie is dat Grok beter is in de genoemde (ja, Grok mist er veel) tests! Interessant.

Gizz

25 februari 2025 10:16

In dit blog zag ik interessante voorbeelden van Claude 3.7. Bijvoorbeeld in een prompt van twee regels een interactieve tijdreismachine waar de gebruiker (bijvoorbeeld leerlingen) mee kunnen 'tijdreizen', inclusief plaatjes:

Or, for a more playful example, I told Claude “make me an interactive time machine artifact, let me travel back in time and interesting things happen. pick unusual times I can go back to…” and “add more graphics.” What emerged after just those two prompts was a fully functional interactive experience, complete with crude but charming pixel graphics (which are actually surprisingly impressive- the AI has to 'draw' these using pure code, without being able to see what it's creating, like an artist painting blindfolded but still getting the picture right

Op de pagina zelf staat een filmpje van hoe het eruit ziet. Best indrukwekkend.

[Reactie gewijzigd door Gizz op 25 februari 2025 11:29]

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (38)

Sorteer op:

Weergave: