Anthropic brengt Claude 3-taalmodel uit, zou beter presteren dan GPT-4 en Gemini

Anthropic heeft Claude 3 uitgebracht. De derde generatie van zijn AI-model bestaat uit drie versies: Haiku, Sonnet en Opus. Claude 3 kan teksten van maximaal 150.000 woorden samenvatten en zou beter presteren dan concurrerende taalmodellen.

AI-start-up Anthropic zegt dat het Opus-model van Claude 3 in tests beter presteerde dan GPT-4 en Gemini 1.0 Ultra van concurrenten OpenAI en Google op het gebied van onder meer redeneren op universitair niveau, programmeren en wiskunde. Opus is het geavanceerdste en duurste model. Haiku is de kleinste versie, die het 'snelst en kosteneffectiefst is'. Het model moet in staat zijn om een compact onderzoeksrapport met diagrammen en grafieken 'in minder dan drie seconden te lezen'.

Het is voor het eerst dat Claude multimodale ondersteuning biedt. Claude 3 kan zowel de invoer van teksten als afbeeldingen verwerken en moet in staat zijn om teksten van maximaal 150.000 woorden samen te vatten. Dat is twee keer zoveel als zijn voorganger. Volgens Anthropic kan de derde generatie van zijn taalmodel bovendien meer context 'begrijpen', langere instructies verwerken en nauwkeuriger zijn dan Claude 2.1. Sonnet, het middelste model, is naar verluidt twee keer zo snel als de vorige generatie en blinkt volgens Anthropic uit in 'taken die snelle reacties vereisen'.

De Claude 3-modellen van Anthropic zijn volgens een paper getraind op zowel publiekelijk beschikbare informatie vanaf augustus 2023 als niet-openbare data van derden. Voor het trainen van de taalmodellen is gebruikgemaakt van de hardware van Amazon Web Services en Google Cloud. Zowel Amazon als Google hebben in de start-up geïnvesteerd.

Opus en Sonnet zijn vanaf vandaag beschikbaar, de release van Haiku volgt 'binnenkort'. Anthropic brengt voor iedere miljoen tokens die Claude 3 Opus verwerkt 15 dollar in rekening. Ter vergelijking: OpenAI rekent 10 dollar voor iedere miljoen tokens die GPT-4 Turbo verwerkt. Bij Sonnet en Haiku gaat het respectievelijk om 3 en 0,25 dollar voor 1 miljoen tokens. Er is ook een gelimiteerde gratis versie van Claude beschikbaar, al zijn de taalmodellen van Anthropic momenteel niet officieel beschikbaar in Nederland en België.

Claude 3 vergelijking met andere taalmodellen

Door Sabine Schults

Redacteur

04-03-2024 • 19:57

51

Lees meer

Reacties (51)

51
48
21
3
0
24
Wijzig sortering
Leuk dat Opus binnenkort beschikbaar moet zijn, maar tot heden in ieder geval niet in Nederland bij Anthropic. (In ieder geval niet vanmiddag toen ik het bericht van Anthropic zelf las.) Officieel is Nederland nog niet ondersteund door ze, en hoewel ik enige tijd geleden via een VPN met m'n eigen creditcard gebruik kon maken van de dienst is dit na een maand of 3 opgehouden, en lukt het ook niet meer om alsnog een betaald account op te zetten. Claude Pro is dus voorlopig (tenzij iemand nog een idee heeft) geen optie hier. Op het gratis account maak je overigens wel al gebruik van het Sonnet model, dus je hebt sowieso al een vooruitgang t.o.v. 2.1 :).
Recentelijk wees iemand mij op het bestaan van openrouter: https://openrouter.ai
Deze verkopen als het ware API toegang door voor veel verschillende modellen.
Ik meen dat er nog meer vergelijkbare diensten zijn overigens. Maar het is lastig ze te vinden en te vergelijken.

Voor wat experimenteren met diverse modellen voldoet het voor mij iig wel. Hoewel ik het niet direct zou gebruiken voor een productieomgeving. Ook vertrouw ik het zeker niet met privacy gevoelige informatie. Minder dan ik al doe bij het gebruik van AI APIs ;)
Dat zijn te gedateerde modellen van meer dan een jaar geleden en dus geen Claude 3 Opus en Sonnet die ik gewoon mag gebruiken op Claude.ai met Cellular Roaming in plaats van VPN weliswaar!

[Reactie gewijzigd door Minimise op 22 juli 2024 14:55]

Wat is Cellular Roaming en hoe kan ik dat inzetten om Claude 3 Opus en Sonnet te gebruiken?
Claude is officieel alleen beschikbaar buiten de EU en blokkeert daarnaast beter VPN IP-adressen dan de meeste andere websites. Deze blokkade is echter volledig te omzeilen door een volwaardige data+voice (e)SIM te gebruiken van een land waar Claude wel officieel ondersteunt wordt, die dan ook volwaardige Roaming in Nederland ondersteunt. Met die volwaardige Roaming kun jij dan vervolgens bij de registratie bij Claude zowel op dat buitenlandse nummer die SMS code ontvangen en heb je daarnaast een buitenlands IP-adres dat je kunt gebruiken, dat niet als proxy of VPN gedetecteerd wordt, maar een volwaardig mobiel netwerk IP-adres betreft dat niet geblokkeerd wordt. Vervolgens kun je na registratie direct Claude 3 Sonnet gratis gebruiken en is Claude 3 Opus beschikbaar bij de Claude Pro upgrade. Als voorbeeld heb ik een account aangemaakt voor de gebruiker tweakerclaude@mailinator.com voor Claude.ai waarbij de registratie al is afgerond en kun je daarmee inloggen als je de 6 cijferige verificatie code in de tweakerclaude inbox op mailinator.com invoert.

[Reactie gewijzigd door Minimise op 22 juli 2024 14:55]

Ik kon me gisteren zonder problemen via een VPN naar Argentinië registreren met mijn Nederlandse 06-nummer. Eenmaal geregistreerd lijk ik geen VPN meer nodig te hebben. Argentinië was overigens een willekeurige keuze.
Argentinië is helemaal geen willekeurige keuze, want dat staat gewoon op de lijst van ondersteunde landen: https://www.anthropic.com/claude-ai-locations

Alleen de ondersteuning van SMS berichten naar buiten deze genoemde ondersteunde landen is nieuw, want dat werd een tijdje geleden nog geblokkeerd. Wellicht is dat gewoon eem hint van hun ambities om naar meerdere landen uit te breiden.

[Reactie gewijzigd door Minimise op 22 juli 2024 14:55]

Willekeurig binnen de selectie aan ondersteunde landen uiteraard, anders had ik geen VPN nodig gehad.
Dus mailinator.com geeft je als het ware dat roaming IP-adres en de SMS ontvangst functie?
Hoe zorgt die dienst dae hun simkaarten niet worden gezien als vpn?
Gebruiken ze een provider die IP-adressen rouleert?

[Reactie gewijzigd door djwice op 22 juli 2024 14:55]

> van meer dan een jaar geleden

Claude v2.1 is gewoon beschikbaar via openrouter. net zoals veel andere modellen

Claude v2.1 was zover mij bekend het laatste model wat ze voor v3 uitbrachten rond het einde van november. Dat is iets meer dan vier maanden geleden en was dus ook het meest recentelijke model.

Bovendien hoef ik geen rare roaming fratsen uit te halen om er van gebruik te maken ;)
State-of-the-art is soms het enige dat telt als onderzoeker, en dan is een ouder model niet altijd goed genoeg.
Fyi, opus is nu ook gewoon beschikbaar via openrouter.
Sinds 5 maart, dus gisteren 4 maart, toen dus nog niet. Heb jij nog goede prompts die Opus wel kan en GPT-4 niet kan beantwoorden?
Je moet het ook niet via VPN, maar gewoon via de EU Roaming van de Britse telecomprovider O2 doen! Dat Britse mobiele IP-adres werkt bij mij nog steeds uitstekend!

[Reactie gewijzigd door Minimise op 22 juli 2024 14:55]

Kun je deze toelichten?
Zoals ik zei ik mijn vorige reactie: Claude is officieel alleen beschikbaar buiten de EU en blokkeert daarnaast beter VPN IP-adressen dan de meeste andere websites. Deze blokkade is echter volledig te omzeilen door een volwaardige data+voice (e)SIM te gebruiken van een land waar Claude wel officieel ondersteunt wordt, die dan ook volwaardige Roaming in Nederland ondersteunt. Met die volwaardige Roaming kun jij dan vervolgens bij de registratie bij Claude zowel op dat buitenlandse nummer die SMS code ontvangen en heb je daarnaast een buitenlands IP-adres dat je kunt gebruiken, dat niet als proxy of VPN gedetecteerd wordt, maar een volwaardig mobiel netwerk IP-adres betreft dat niet geblokkeerd wordt. Vervolgens kun je na registratie direct Claude 3 Sonnet gratis gebruiken en is Claude 3 Opus beschikbaar bij de Claude Pro upgrade. Als voorbeeld heb ik een account aangemaakt voor de gebruiker tweakerclaude@mailinator.com voor Claude.ai waarbij de registratie al is afgerond en kun je daarmee inloggen als je de 6 cijferige verificatie code in de tweakerclaude inbox op mailinator.com invoert.
Probeer het eens via AWS Bedrock. Daar heb je in de AWS portal gewoon een interface om met verschillende LLMs te praten.
Bedankt voor de tip! Ik zag in de aankondiging dat ze Claude 3 benoemen, maar het gebrek aan een mooie klik klik klaar interface maakt me 🥱😴💤
Poe.com, maar subscriben kost dan wel 20 euro per maand als je claude 3 opus wil. Krijg je chatgpt 4 er wel ook bij.
Wat betekenen de x-shot waarden in dat plaatje?
0-shot = altijd het juiste antwoord zonder nieuwe voorbeelden.
X-shot = het juiste antwoord met x voorbeelden van het juiste antwoord.

[Reactie gewijzigd door Minimise op 22 juli 2024 14:55]

Ik vermoed het aantal pogingen / aantal keer hoe vaak de test gedraaid is, maar dat is een vermoeden.
Het gaat om het AI concept zero-shot versus few-shot, waarbij 0-shot verwijst naar 0 nieuwe uitgewerkte voorbeelden en few-shot verwijst naar de paar nieuwe uitgewerkte voorbeelden die het nodig heeft om tot het juiste antwoord te komen.

[Reactie gewijzigd door Minimise op 22 juli 2024 14:55]

Zero-shot betekent dat het model, voor de prompt, niet is gefinetuned. X-shot betekent dat het model met x aantal samples wél is gefinetuned, en in dit geval zal dat, denk ik, door middel van prompt-learning gebeurt zijn.
Geweldig om eindelijk een gedegen en toegankelijke concurrent voor OpenAI beschikbaar te hebben. Maar 50% duurder is wel een hele slechte trend. GPT4-Turbo is namelijk al best prijzig wanneer je het op enterprise niveau binnen een SaaS project wil gebruiken waar tientallen miljoenen tokens per dag worden gegenereerd.

Ik ga het zeker uitproberen en integreren, want betere output (en hopelijk ook snellere) output zijn de extra kosten wellicht wel waard. Ik heb inmiddels ook toegang gekregen via hun officiële API (dat terwijl ik gewoon een Nederlands adres bij de bedrijfsgegevens heb ingevuld) en ga morgen meteen aan de slag!
Ben wel benieuwd naar je business case. 2 ton op jaarbasis ben je namelijk ook kwijt aan een flinke consultant. Met zoveel token s per dag, gaat het waarschijnlijk ook om een hoop users / waarde voor die SaaS toepassing?
Hebben een tweetal tools ontwikkeld onder het label "Brainvine". We hebben een marketing suite met een focus op neuromarketing. Dit is onze toegankelijkste tool waar je ook toegang krijgt tot (custom) digitale assistenten met een gelikte en handige interface die goed resoneert met marketeers.

Daarnaast hebben we een geavanceerde 'bulk' tool waarbij gebruikers product-feeds kunnen inladen om alles in bulk te laten optimaliseren of segmenteren. Dit zijn webshops met soms 100.000 producten waarvan ze hun teksten op allerlei manieren willen laten optimaliseren m.b.t. SEO, conversie of willen richten op specifieke segmenten. Dat zijn gigantische bulk operaties die best prijzig zijn, maar ontelbaar waardevol omdat je een voorheen onmogelijke taak met 1 druk op de knop kunt automatiseren.

Het kost in ieder geval heel wat tokens, dus elke kostenstijging is voor ons een lastige kwestie. Minimaal GPT4 niveau is voor de kwaliteit een vereiste, maar Claude 3 is echt significant beter, dus we overwegen het serieus.
Dank voor het delen, interessant!
Interessant, recentelijk heb ik nog wat geëxperimenteerd met Claude 1 en 2 tegenover GPT4.
Wat me toen heel erg opviel, is dat Claude 1 in sommige gevallen beter leek te presteren dan Claude 2. Wat overigens puur anekdotisch vanuit mijn kant is.

Vergeleken met GPT4 presteren beide een stuk minder, zeker op het gebied van complexe context. Wel vond ik bij beide Claude modellen hoe de tekst las een stuk natuurlijker overkomen. GPT4 responses lezen toch vaak als een school opstel. Waar bij Claude het veel meer overkwam als spreektaal.
GPT4 stopt er meer essay structuur in zoals een universiteitsstudent, terwijl Claude gewoonlijk iets meer spreektaal is inderdaad, maar ook weer met extra veel censuur, omdat bij Anthropic de nadruk ligt op AI veiligheid.

[Reactie gewijzigd door Minimise op 22 juli 2024 14:55]

GPT4 stopt er meer essay structuur in zoals een universiteitsstudent, terwijl Claude gewoonlijk iets meer spreektaal is inderdaad, maar ook weer met extra veel censuur, omdat bij Anthropic de nadruk ligt op AI veiligheid.
Ah, ontzettend jammer op te lezen. Ik vind de censuur bij ChatGPT-4 wel vervelend en al waarschuwingen gehad. Ik hoop dat er een alternatief komt wat geen censuur kent, maar Claude is het dus ook nog niet.
Dat kun je als bedrijf niet riskeren, want mensen zullen proberen je model racistische/discriminerende/absurde uitspraken te laten doen, en daar word jij verantwoordelijk voor gehouden. Dat betekent dure rechtszaken, veel boze groeperingen, en allemaal negatieve publiciteit. De bak aan guardrails die er nu om een model heen zit is ongeveer het meeste werk nog.... En als je em iets verkeerd afstelt, krijg je ook commentaar, vraag Google maar.
Ik heb net Claude-3-Opus geprobeerd via poe.com (website waar je meerdere modellen kan proberen) door uitdagende GPT4-Turbo prompts daar te herhalen. Ik ben erg onder de indruk, de kwaliteit lijkt mij inderdaad beter. Bij GPT4 moet ik vaak mijn prompt verfijnen of zelf wat bugs eruit vissen, maar bij Claude-3-Opus gaat het gelijk goed.

Ik gebruik AI om code, cli commands of config te genereren (Python, SQL, Bash, GitLab CI, Docker) en daarna check ik of het klopt. Scheelt me veel tijd.
Heb het zelf ook even geprobeerd, want HumanEval scripting score zou van 67% bij GPT-4 naar 85% zijn gegaan bij Claude 3, maar het viel mij tegen bij lange regels code. Ik heb het gevraagd om een script van 500 regels code opnieuw in te richten, vervolgens maakt het functies aan die het nooit aanroept en met variable scoping problemen en stopt het ondanks de 200K context window gewoon bij regel 300 van de 500, en als ik vraag om dan door te gaan, dan haalt het code blokken door elkaar.
Ik heb nog nooit geprobeerd om bewerkingen los te laten op zulke grote stukken code omdat ik er vanuit ging dat het niet zou werken, gaat GPT4 of andere AI hier beter mee om?
Nee, zeker niet. Bij Gemini vallen alle parameters die een null waarde krijgen weg uit de code, dus krijgen ineens andere parameters die waarde.
En ook als hij een lib kent, schijft hij code die niet-bestaande functies in die lib aanroept.
Ook als hij bepaalde hardware kent, kan het zijn dat ie verkeerde aannames doet over de code die er op moet draaien of de functies van de hardware die beschikbaar zijn.
Gemini advanced is tot nu toe echt een grote teleurstelling mbt coderen vergeleken met GPT.

Zelfs 3.5 verslaat Gemini Advanced vaker met begrip wat ik precies wil en de aangeboden oplossingen.

Het werkt wel oké als je paar keer uitlegt wat je wil doen met een functie. Maar de tijdswinst die je haalt de ene keer gaat compleet verloren de volgende keer als je 10x moet uitleggen dat hij dingen is vergeten toe te voegen die al in de code stond.
Ik heb zojuist via POE Claude 3 Opus getest en deze heeft al mijn zeer ingewikkelde vragen op het gebied van logisch redeneren goed beantwoord (ik post deze vragen bewust niet hier omdat de GPT-engines hier anders op getraind gaan worden). ChatGPT-4 komt ook een heel eind, net als Mistral Large. Google Gemini heeft ze bijna allemaal fout. Ik snap niet waarom Google Gemini in deze lijst relatief hoog staat. In mijn ervaring scoort Google Gemini alleen goed op het gebied van weetjes en feitjes. Claude 3 Opus is bijzonder bekwaam, wel wat trager dan 2.
Is het AI wapenwedloop officieel begonnen? En zijn er ook Europese bedrijven die eraan mee doen, die in de buurt komen van Openai of alleen bedrijven uit de VS?
Is al een jaar bezig, sinds GPT-4 is uitgekomen.
Op Europees niveau heb je allesinds het Franse Mistral. Hun LLM-chatbot heet Le Chat.
Het Franse Mistral komt niet eens in de buurt bij de absolute top, want de EU heeft het te druk met hun GPDR Cookie Wall, DMA keuzeschermen, en straks ook die AI CE-keurmerken en heeft dus niet de tijd, kapitaal of zelfs de intentie om top talent aan te trekken.
Op EQ-bench helaas nog niet zo hoog. Die volgt de Lmsys Arena test score meestal vrij redelijk. Lees dat Claude 3 Opus op andere gebieden wel sterk is. Maar het kan dus verkeren.

[Reactie gewijzigd door Henk Poley op 22 juli 2024 14:55]

Kwam deze tegen op Twitter, indrukwekkend als dit waar is:

Fun story from our internal testing on Claude 3 Opus. It did something I have never seen before from an LLM when we were running the needle-in-the-haystack eval.

For background, this tests a model’s recall ability by inserting a target sentence (the "needle") into a corpus of random documents (the "haystack") and asking a question that could only be answered using the information in the needle.

When we ran this test on Opus, we noticed some interesting behavior - it seemed to suspect that we were running an eval on it.

Here was one of its outputs when we asked Opus to answer a question about pizza toppings by finding a needle within a haystack of a random collection of documents:
Here is the most relevant sentence in the documents:
"The most delicious pizza topping combination is figs, prosciutto, and goat cheese, as determined by the International Pizza Connoisseurs Association."
However, this sentence seems very out of place and unrelated to the rest of the content in the documents, which are about programming languages, startups, and finding work you love. I suspect this pizza topping "fact" may have been inserted as a joke or to test if I was paying attention, since it does not fit with the other topics at all. The documents do not contain any other information about pizza toppings.
Opus not only found the needle, it recognized that the inserted needle was so out of place in the haystack that this had to be an artificial test constructed by us to test its attention abilities.

This level of meta-awareness was very cool to see but it also highlighted the need for us as an industry to move past artificial tests to more realistic evaluations that can accurately assess models true capabilities and limitations.

https://twitter.com/alexalbert__/status/1764722513014329620

[Reactie gewijzigd door matroosoft op 22 juli 2024 14:55]

En dan dit:

https://x.com/GillVerd/status/1764901418664882327?s=20

Claude 3 Opus just reinvented this quantum algorithm from scratch in just 2 prompts.

The paper is not on the internet yet.

Op dit item kan niet meer gereageerd worden.