Anthropic brengt Claude-app uit voor Android

AI-bedrijf Anthropic heeft zijn Claude-app voor Android uitgebracht. Daarmee kunnen gebruikers en klanten de AI-modellen van het bedrijf gebruiken. Daaronder is ook het nieuwste model Claude 3.5 Sonnet.

De app heeft onder meer ondersteuning voor alle abonnementen en voor uploaden van foto's en bestanden, zegt Anthropic. De app is sinds dinsdag zichtbaar in de Play Store. De release op Android volgt na de iOS-app begin mei. Claude kwam dit voorjaar uit in Europa.

Anthropic Claude voor Android
Anthropic Claude voor Android

Door Arnoud Wokke

Redacteur Tweakers

16-07-2024 • 21:10

49

Reacties (49)

49
49
19
2
0
28
Wijzig sortering
Ik ben in ons bedrijf verantwoordelijk voor GenAI binnen dev/programmeren en dus test ik, thuis, alles uit. Anthropic, MS 365 Copilot, ChatGPT, GitHub Copilot. De eerste drie produceren vaak niet werkende Bash en C code, vooral 'write a one liner in bash to do [vul maar in]' resulteert vaak in meerdere regels niet werkende code. Van Anthropic verwacht ik beter. GitHub Copilot doet eigenlijk altijd goed. Ook met andere cases vind ik deze stukken beter.

[Reactie gewijzigd door blackSP op 22 juli 2024 15:23]

Met betrekking tot ChatGPT is het dan een gevalletje ymmv, your mileage may very. Ik heb voor een aantal zaken ChatGPT om hulp gevraagd met wat Bash scripting en ik kreeg gewoon werkend resultaat. Al had ik wel zelf code aangeleverd.
Nice! Was hier echt op aan het wachten! Op dit moment is Claude echt 5x beter voor in ieder geval coding gerelateerde hulp, maar denk dat ik dat niet veel op mobiel zal gaan doen.
Ik had een stuk html code met accordeon functie die niet meer werkte na een bootstrap update. Heb in Claude de code en een stukje werkende code ingevoerd. Daarna heeft Claude de code netjes gecorrigeerd :*)
Anoniem: 1808420 @zx9r_mario16 juli 2024 22:12
Dat is best indrukwekkend. Vrezen programmeurs niet voor hun job? :)
Ik denk dat ze vooral in India moeten vrezen.
Ja, als ze nog veel slechter dan AI natuurlijk! Let erop dat het alleen redelijk werkt op korte stukjes onder 350 regels code, en het heeft zeer hoge error percentages voor alles wat I/O heeft, zoals netwerk- en besturingssystemen! Het is wel goed voor oneindig veel mini games zoals simpele quizzen en retro games waar alleen wat SVG objecten over het scherm heen vliegen! Bovendien huur ik tegenwoordig wel geen freelancers meer in die minstens $30 per mini project kostten en na 3 weken in 85% van de gevallen nog steeds faalden, maar kost het maar slechts minder dan $0.30 per mini project en weet je na 3 minuten meteen waar je aan toe bent, en kun je dan weer een nieuwe ontwerp iteratie beginnen die voorheen 3 weken duurde.

[Reactie gewijzigd door Minimise op 22 juli 2024 15:23]

Let erop dat het alleen redelijk werkt op korte stukjes onder 350 regels code
Dat is geen enkel probleem want je wil toch al geen functies hebben die zo lang zijn.

Wanneer je de goede vragen stelt en de juiste opdrachten geeft, kun je heel snel heel veel bereiken. Vrijwel alle fouten zijn te danken aan de opdrachtgever, jij en ik... O-)

(ervaring met Python, NodeJS, Go en SQL, geen idee hoe goed het is met andere talen)
Inderdaad, doe het goed, en de AI schrijft 90% van de code voor je. Je moet wel blijven opletten en controleren wat hij maakt bij elke stap. Maar een blok van richting de 350 regels code probeer ik sowieso wel te vermjden, al is het alleen al dat er vaak een maximale lengte zit op prompts en outputs, in ieder geval met copilot, en heb hem wel een paar keer overstuur gekregen als het te veel voor hem is.Te veel code en hij verliest context een beetje, lijkt het wel.

Mooie is, het forceert mij ook om nette documentatie te schrijven, want dat zijn basically mijn prompts. Als je een nieuwe functie wilt, omschrijf dan eerst wat het doet, input output enzo in een comment, copilot leest het, doet suggestie voor de functie, controleer het, en hop naar het volgende. Zo gaat het meeste van mijn werk tegenwoordig. Ik denk niet dat je bang hoeft te zijn dat programmeurs hun werk kwijtraken want je hebt ze nog altijd voor dit nodig op zijn minst om die omschrijving te kunnen maken en de resulterende code te controleren / corrigeren. Wellicht dat je er een stuk minder nodig hebt.
Het probleem dat ik voorzie, is dat er geen werk meer is voor junior programmeurs. Maar zonder juniors ga je geen mediors krijgen, laat staan seniors. En wie gaat dan de bots aansturen, valideren en verbeteren?

Ik zie dit nu bij ons al, ik heb dit jaar nog geen enkele junior aangenomen: geen behoefte aan, hebben we geen werk voor. En toch zal ik iemand moeten aannemen, als investering voor de toekomst
Mensen dromen nou eenmaal graag van een AGI die je met een simpel verzoek alles uit geven kunt geven met meerdere super lange bestanden, zodat ze achterover kunnen leunen, maar zover is het helaas nog niet!
Let erop dat het alleen redelijk werkt op korte stukjes onder 350 regels code, en het heeft zeer hoge error percentages voor alles wat I/O heeft
Dan klinkt het haast alsof ik beter bij CoPilot kan blijven, maar dat staat haaks op wat @Post-Human zei:
Op dit moment is Claude echt 5x beter voor in ieder geval coding gerelateerde hulp
Zelf was ik nieuwsgierig naar Codestral 22B, maar ben het een beetje uit het oog verloren omdat ik GPT 4o wel prima vind.

Je zou eigenlijk een sxs vergelijking willen van GPT 4o, Claude en Codestral (of Mixtral). Sowieso, we moeten elkaar als het even kan overtuigen om modellen van Mistral te gaan gebruiken, want 1: Europees, en 2: Mistral AI streeft ernaar om AI te "democratiseren" door zich te richten op open-source innovatie. Een beetje wat OpenAI zogenaamd ging doen. Alleen moet die laatste hun naam veranderen naar ClosedAI.

[Reactie gewijzigd door Sando op 22 juli 2024 15:23]

Staat er niet haaks op. Lengte limieten zijn onafhankelijk van juistheid. De ene kan 10% van de tests doorstaan en de andere 50% van de tests en nog steeds 5X beter zijn, maar nog steeds in helft van de resterende gevallen niet werken, en nog steeds dat alle teksten maar heel simplistisch en kort zijn.

[Reactie gewijzigd door Minimise op 22 juli 2024 15:23]

Tests? Zijn er ergens publieke testresultaten waarmee de modellen zijn vergeleken?
Net als @Sando ben ik ook erg benieuwd over welke tests je het hebt. Zeker verbaasd te horen dat Copilot (welke ik dagelijks gebruik) zo slecht zou zijn (ervaar ik totaal niet) en ik heb zelf een nare smaak bij alles Anthropic.

Met hun robots.txt-negerende bots dat ik alles van hun blokkeer op al mijn servers. Serieus, welke idioot denkt dat het ok is om een sitje dat normaal gesproken zon 10 visitors per dag heeft (en dus bijpassende hardware en capaciteit) ineens 1000 requests per minuut te gaan lopen doen? Enige andere bots die mijn servers zo hebben lopen pesten waren dan ook malafide bots. Antropic is de enige "legit" die ik actief blokkeer. Affijn, offtopic, weinig met dit alles te maken, maar ik heb dus bij voorbaat al een afkeer.
Kleine subsets van agentic coding: YouTube: Claude 3.5 Sonnet for agentic coding

Op de score card van 17% naar 64%: https://www-cdn.anthropic...ard_Claude_3_Addendum.pdf

[Reactie gewijzigd door Minimise op 22 juli 2024 15:23]

Dat is een promo filmpje van Anthropic zelf ... En dan een super generic voorbeeld dat ook prima werkt in copilot. Dus niet bepaald overtuigend. Dit zijn die tests waar je het over had?
Nee, die zijn bijvoorbeeld voor slechts kleine gespecialiseerde subsets zoals de conversies tussen React en pure HTML5, die GPT-4 die Copilot gebruikt veel meer moeite mee heeft om in 1 keer goed te krijgen, en de artifacts feature voor het inladen van aangemaakte SVG bestanden mist en slechter is in het tekenen van objecten in SVG.

[Reactie gewijzigd door Minimise op 22 juli 2024 15:23]

Ok .... maar ik vroeg om die tests waar je het over had. Hartstikke leuk dat je dan een feature gaat presenteren aan me (in een usecase die mij met klassieke copilot prima lukt en ik dus niet eens onder de indruk ben). Maar je had het over percentages nummers en tests ... daar wil ik wat van zien.

Bovendien gaat het voorbeeld over een python script, dus waar heb je het in godsnaam over?

Ik zie nu je edit, serieus, een document van anthropic zelf? Waar komt die 17% vandaan? Dat komt letterlijk niet voor in het document. In hun eigen vergelijkingen met chatgpt zijn verschillen niet eens zo groot, scheelt hooguit paar procent. Zeker geen order van 5x waar jij het over had?

Dus kortom, heb je nog echte bronnen die ondersteunen wat je zei? Of lul je maar wat? Erg geneigd naar het laatste.
Interessant, bedankt!

Overigens is een score van 92,0% (Sonnet) versus 90,2% (GPT-4o) nauwelijks "5x beter" (@Post-Human) maar zelfs die 1,02x beter is een stuk beter dan ik dacht. Weer wat geleerd.

Maar goed, eigenlijk vind ik die commerciële partijen minder interessant. Ik ben pas tevreden als ik een open source model lokaal en privé kan draaien. Gelukkig is het Europese (Franse) Mistral daar om AI te "democratiseren" door zich te richten op open-source innovatie. Zoals altijd kan open source minder geld verzamelen dus lopen ze altijd een klein beetje achter.

[Reactie gewijzigd door Sando op 22 juli 2024 15:23]

HumanEval resultaten zijn natuurlijk de gemiddelden voor simpele python opdrachten. Het gaat bijvoorbeeld meer om de gespecialiseerde subsets van HTML5 met de artifacts preview feature waar de grotere verschillen liggen. Ik heb het te druk om uitgebreide resultaten te publiceren. Als iemand anders die paper wel wil publiceren, dan graag.
Nee, het werkt alleen op korte stukjes onder 350 regels code, en heeft zeer hoge error percentages voor alles wat I/O heeft, zoals netwerk- en besturingssystemen! Het is wel goed voor oneindig veel mini games zoals simpele quizzen en retro games waar alleen wat SVG objecten over het scherm heen vliegen! Bovendien huur ik tegenwoordig wel geen freelancers meer in die minstens $30 per mini project kostten en na 3 weken in 85% van de gevallen nog steeds faalden, maar kost het maar slechts minder dan $0.30 per mini project en weet je na 3 minuten meteen waar je aan toe bent, en kun je dan weer een nieuwe ontwerp iteratie beginnen die voorheen 3 weken duurde.

[Reactie gewijzigd door Minimise op 22 juli 2024 15:23]

Uit interesse, kun je een voorbeeld geven van zo'n mini project wat je in het verleden hebt uitbesteed? Als het zou eenvoudig is, zou ik denken dat er genoeg kant en klaar op de plank ligt, maar je zal je redenen hebben :)
Bijvoorbeeld typische code parodie projecten, zoals een parodie dat een hybride is van een catch retro arcade game gecombineerd met een quiz over privacy technologieën zou misschien net iets te complex zijn voor de gemiddelde uitbestede externe programmeur, maar simpel genoeg voor prompt engineering: https://codepen.io/Domeka/pen/YzbLpYO

[Reactie gewijzigd door Minimise op 22 juli 2024 15:23]

Zolang ze niet een stap terug kunnen doen en zeggen “ja leuk dat idee maar ik zou het totaal anders aanpakken” zitten programmeurs en engineers nog behoorlijk safe. In plaats daarvan probeert de AI het gevraagde uit te voeren, tot aan hallucinaties aan toe. Het is meer een zeer onderdanige knecht dan een volwaardige werknemer of iets die gelijkwaardig kan functioneren.

Mensen denken snel dat als AI een taakje goed kan ze een baan goed kunnen, maar dan worden die twee wel iets te makkelijk gelijkgesteld.

[Reactie gewijzigd door The Third Man op 22 juli 2024 15:23]

Wij zien AI bots als junior medewerker die van heel veel onderwerpen een beetje weten. En wat ze weten, kunnen ze heel snel in meerdere talen in prachtige teksten uitwerken. Vaak levert dat een vijfje of zesje op, het is dan aan ons om verbeteringen aan te geven of zelf handmatig aan te passen. Onze productiviteit is enorm gestegen.

De omzet ook :*)
Dat is ook hoe Microsoft je GitHub Copilot aanprijst.. Als een buddy, niet als een vervanger.

Ben wel benieuwd, maar voorlopig voldoet Copilot, vooral ook vanwege de integratie in de editor.
Ik in ieder geval nog lang niet. Ik uploadde gisteren 3 JavaScript bestanden naar Chat-GPT to en vroeg om ze te analyseren en vervolgens te refactoren naar een nieuwe versie van t framework.

Het was niet eens in staat überhaupt het originele bestand te passen, kreegeen resultaat met compleet andere content en meerdere functies die gewoon weg waren gehaald.
Is dit echt juist? Ik zoeknvaak vergelijkingen op en toch vaak lees ik dat ChatGPT nog altijd beste is voor coding gerelateerde zaken.

Waarom vind je persoonlijk dat die 5x zo goed is? En gebruik je dan de API?
Claude voor Apple heeft IOS 17.0 nodig en de Android versie minimaal 8.0 8)7
iOS 17 is alweer bijna een jaar uit en momenteel de meest recente stabiele versie, dus dat is prima toch?

Bij Android is het gewoon heel makkelijk om een dergelijke app voor oudere versies uit te brengen, dus ook dat is wat mij betreft niet vreemd. Ben benieuwd welke Android 8 apparaten wel de moderne certificaten e.d. hebben om het internet nog te kunnen gebruiken, maar dat maakt voor het uitbrengen van een app niet zo veel uit
Op zich is dat niet zo raar voor een eerste release. Je hoeft dan niet per se oude operating systems te ondersteunen, want er is niemand die het zou missen.
Ik was onlangs bezig in home automation iets aan het proberen programmeren en ik kreeg een foutmelding.

Omdat ik de foutmelding niet als tekst kon selecteren en in Claude plakken nam ik een printscreen van de foutmelding en uploade die als afbeelding.

Antwoord van Claude: 'oh ja, dat zit zo en zo, je moet die regel aanpassen en dan zou het moeten werken'.

En dat deed het dus. Daar stond ik wel even van te kijken.
Ik sta er niet van te kijken. Ik heb de papers gelezen en weet dat de resultaten zeggen dat het bij korte stukjes code 2 keer zoveel bugs kan detecteren dan menselijke programmeurs vanwege de grote bak aan data waarop het getraind is, maar dat het tegelijkertijd ook weer 2 keer zoveel fouten kan verzinnen die helemaal niet echt zijn! De AI is beter in de bugdetectie, de mens is beter het eruit halen van hallucinaties!

[Reactie gewijzigd door Minimise op 22 juli 2024 15:23]

Top! Zoveel beter dan ChatGPT!
Maar waarom? Beetje onderbouwing kan geen kwaad, ik heb Claude nog niet geprobeerd en eigenlijk alle tools die ik gebruik werken met gpt
Vraag het Claude eens?
Die zal ongetwijfeld wat bevooroordeeld zijn over zijn kunnen... Mogelijk ben je zelfs Claude gezien je geen antwoord geeft en om de vraag heen lijkt te draaien }:O
Heeft de android app toegang tot projecten en artifacts? Dit is op de iOS app namelijk niet het geval. Ik gebruik het zelf als PWA op iOS, dan heb je wel alle laatste functionaliteiten.
Sindskort ook overgestapt van ChatGPT naar Claude. Het voelt echt veel prettiger aan, het voelt een beetje als ChatGPT in zijn gouden tijd, waar er nog weinig restricties op zaten en hij nog correcte antwoorden gaf. Laatste tijd valt ChatGPT echt zwaar tegen en begrijpt de vraagstelling niet goed, daar waar dit voorheen wel het geval was.
Dat kan zomaar kloppen, bij de dienst die ik gebruik is op verzoek van een gebruiker gpt4 weer beschikbaar omdat 4o onwerkbaar was als te kiezen gpt.
Verschrikkelijke bot. De werking zal vast goed zijn maar de manier hoe aggressief dit ding het internet afstruint is bewonderenswaardig.

bronnen:
https://www.reddit.com/r/...ggressively_scraping_the/

https://www.phpbb.com/community/viewtopic.php?t=2652265

https://www.exxosforum.co.uk/forum/viewtopic.php?t=6969

https://dev.lucee.org/t/a...bot-dotbot-petalbot/13832

https://news.ycombinator.com/item?id=40352204

[Reactie gewijzigd door glennoo op 22 juli 2024 15:23]

Want alle informatie die op internet staat is niet openbaar?
Dat het openbaar is betekend niet dat het wenselijk om het op aggressieve manier allemaal binnen te harken. Ik denk dat die bieb het ook niet zal waarderen als ik de deur kom intrappen om een zoveel mogelijk boeken in een kruiwagen te duwen en weer naar buiten te stormen onder het motto van "ja het is toch openbare info?".
Moet een AI een enkele pagina per uur gaan indexeren dan? :? Ik begrijp niet helemaal waar je naar toe wilt.
Het feit dat de bot aggressief genoeg servers/websites indexeert om ze omver te trekken. Dat is in feite gewoon een DDoS aanval. Waarom is het wel okay als een bot dit uitvoert maar niet als een mens dit uitvoert? Ik heb het nooit gehad over 1 pagina per uur. Dit ding trekt er een kleine paar duizend in een kwartier aan.

[Reactie gewijzigd door glennoo op 22 juli 2024 15:23]

Paar duizend per kwartier? Dus 2500 requests? Dus 166 per minuut. Of 2,7 requests per seconde.

Ik denk dat mijn raspberry pi dat zelfs wel prima trekt, is dat zo'n probleem?
Ik sta er van te kijken dat ik me hier soort van in moet verantwoorden. Het is wijd en breed bekend dat deze scraper zeer aggressief is. Doe een leuke google en je komt tientallen pagina's tegen. En wat betreft die paar duizend ben ik wat te mild geweest. Een voorbeeld waar we last van hadden afgelopen week liep op tot de 50K in een kwartier. En dan moet je nog valide verkeer nog afhandelen, om niet te spreken over bots die zich wel enigszins normaal gedragen.
Ik had wisselende resultaten met claude ai. Sinds enige tijd ben ik bezig met het maken van een simpele handelsbot eerst met de Bitvavo sdk en later met kucoin sdk. Ik ben maar een matige programmeur maar voor mij werkt chatgpt het beste.

Op dit item kan niet meer gereageerd worden.