Anthropic brengt Claude-functie uit om computer automatisch te besturen

Anthropic heeft de functie Computer Use uitgebracht, waarmee Claude 3.5 de interface van een pc automatisch kan bedienen en functies kan overnemen. De functie is nog beperkt en moet gebruikers gaan helpen bij dagelijkse taken.

Met Computer Use kan Claude de cursor bewegen, klikken en tekst typen, zegt Anthropic. Het bedrijf waarschuwt gelijk voor beperkingen: de functie kan bij vlagen omslachtig werken en geneigd zijn fouten te maken. Ook zegt het bedrijf dat gebruikers de functie het beste kunnen gebruiken in een vm met minimale systeemtoegang en dat ze het beste toegang tot gevoelige data kunnen beperken.

Computer Use kiest zelf de te gebruiken tool om de opdracht te vervullen. Dat kunnen allerlei programma's zijn op de desktop. De functie zit alleen in Claude 3.5 Sonnet. Daarnaast brengt Anthropic de 3.5-versie uit van zijn lichte model Haiku.

IT-banen

Reacties (54)

RedPixel 23 oktober 2024 10:21

Ik ben toevallig net deze week aan het experimenteren met aider, en ik ben onder de indruk wat Claude allemaal kan.

aider kun je zien als een AI waarmee je pair-progamming doet. Je geeft hem instructies en hij voert dat aan een AI model die je zelf kiest, en hij maakt zelf de bestanden etc.
Bijvoorbeeld:
1. make the index.html, style.css, and app.js for a tech news website. have a logo in the header, and the following links: News, Reviews, Best Buy Guides (which is a dropdown menu), Pricewatch, Marketplace, Forum, Deals and More (which is a dropdown menu). Place some placeholder links in the dropdown menu's.
2. The homepage consists of rows with news articles. Each row starts with an icon (choose random tech icons from font awesome), a timestamp (hh:mm), the article's header, and a comments button with the number of comments inside it. The rows are grouped per day (e.g. today, tuesday 22 october, monday 21 october, etc.). Generate 2 news articles per day for 4 days.
3. add a typical tech news site footer
4. /ask can you generate a logo
5. do it

En dat ziet er dan zo uit: https://pixel.red/techsite/
~5 minuten werk, vooral de prompts typen. En vanaf hier kun je dus nieuwe opdrachten geven om het helemaal te laten doen wat jij wilt.

treative @RedPixel • 23 oktober 2024 12:12

Loop je niet snel tegen de rate limits aan?

RedPixel @treative • 23 oktober 2024 13:05

Ja, ik liep tegen veel rate limits aan met Claude Sonnet 3.5 bij Anthropic zelf. Daarom gebruik ik nu hetzelfde model, maar dan via OpenRouter.ai, zoals de documentatie van aider aanraadde. Daar ben ik nog niet tegen rate limits aangelopen, terwijl ik al veel meer prompts heb gestuurd.

[Reactie gewijzigd door RedPixel op 23 oktober 2024 13:14]

Ed Vertijsment @RedPixel • 23 oktober 2024 13:25

Leuk, en zeker handig voor bepaalde doeleinden maar het voorbeeld wat je geeft ziet er ook uit als een paar minuten werk en werkt niet goed op mijn telefoon.

Verder worden websites vaak niet uit de losse pols gemaakt maar moet er een design geïmplementeerd worden, iets waarvoor een tekst prompt niet handig is.

Al met al een leuk trucje, maar voor de use case die je schetst niet echt nuttig.

RedPixel @Ed Vertijsment • 23 oktober 2024 13:28

Ik heb hem ook niet gevraagd om hem voor mobiele telefoons te schrijven, dat is slechts 1 prompt verder natuurlijk.

Je kunt ook plaatjes uploaden met schetsen die hij kan implementeren.

Dit was slechts een voorbeeldje om te laten zien wat hij al in 5 minuten kan, moet je nagaan wat hij in een werkdag of meer kan.

Ed Vertijsment @RedPixel • 23 oktober 2024 13:35

Zelf heel weinig, je zult moeten prompten, en dat is voor design implementatie imo geen handige manier, houd er rekening mee dat de eisen meer zijn dan een werkend html’etje. Zo heb je bijvoorbeeld:

- technische eisen (gebruik design system bijvoorbeeld)
- toegankelijkheid eisen (wcag)
- kwaliteitseisen (onderhoudbaarheid code)

En die hebben natuurlijk weer waarborgen/documentatie.

Ik zie de toegevoegde waarde meer in code completion dan het genereren van een product. En dat zijn zulke tools best goed in.

djwice

Internet

@Ed Vertijsment • 23 oktober 2024 17:02

Ik heb CoPilot simpelweg om WCAG level 3 en Mozilla Observatory A+ ranking gevraagd en AWS well architected framework best practices en HIPAA en PCI-DSS compliant. Op basis van een OpenApi definitie en no code duplicatie.

En output van de cloud infrastructuur en de applicatie voldoen aan de eisen. Zelfs de CSS3 maakte gebruik van variabelen.

Koste de eerste keer dat ik dat deed wel bijna een dag om mezelf een goede prompt te laten schrijven. Maar ik heb die gewoon opgeslagen, dus gast nu zo snel als CoPilot zijn werk wil doen.

[Reactie gewijzigd door djwice op 23 oktober 2024 17:03]

Menesis @RedPixel • 23 oktober 2024 14:20

Ik heb zelf de Claude's plugin voor Visual Studio code gebruikt. Die maakt ook netjes bestanden aan, maar kan ook hele projecten "inlezen". Je betaalt per opdracht, en heb na een week testen minder dan 5 dollar gebruikt.
Aanrader.

Edit: de extension heet nu Cline.

[Reactie gewijzigd door Menesis op 23 oktober 2024 14:22]

Ryan_ @RedPixel • 23 oktober 2024 11:16

Je link is dood

iBeast_M0de @Ryan_ • 23 oktober 2024 11:23

Lijkt voor mij wel gewoon te werken

PinusRigida @RedPixel • 23 oktober 2024 12:21

F***, straks heb ik geen werk meer!

lasharor 23 oktober 2024 09:37

Ik raak altijd behoorlijk geirriteerd als collegas er lang over doen om basis functies terug te vinden in software die we al jaren gebruiken (lees; office).

Lijkt mij, dat dit met een AI nog erger gaat zijn. Lekker lang zoeken om de tekst bold te maken.

Mic2000 @lasharor • 23 oktober 2024 09:47

Tuurlijk niet, die ai is vast getraind op zulk soort dingen...

Flying Hawkic @lasharor • 23 oktober 2024 10:04

Als je AI nodig hebt om tekst in het vet te zetten, dan wil ik de documenten van jouw collega's niet zien die ze in de laatste 20 jaren hebben opgesteld

.

Los daarvan, dit lijkt mij wel een typisch geval van: ik had het zelf tien keer sneller kunnen doen. Maar het heeft potentieel om de computer een taak te laten doen terwijl jij even zit te eten en dus zelf de handelingen niet kan doen. Er is wel een groot risico op misbruik of ongevalletjes als dit op grote schaal wordt gebruikt. Bedenk je maar eens wat er allemaal mogelijk is in deze wereld als je computers op deze manier kan overnemen.

Skit3000

@Flying Hawkic • 23 oktober 2024 10:16

Maar het heeft potentieel om de computer een taak te laten doen terwijl jij even zit te eten en dus zelf de handelingen niet kan doen.

Of om de handeling die je wilt doen, in honderdvoud gelijktijdig uit te voeren. Als die handeling dan 10 keer langer duurt dan dat je het zelf zou doen, is het eindresultaat alsnog tien keer sneller.

Htbaa @Flying Hawkic • 23 oktober 2024 12:15

Ik zie hier vooral waarde in om de bediening van computers toegankelijker te maken voor mensen die afhankelijk zijn van hulpmiddelen.

locke960 23 oktober 2024 15:19

Deze link mag in deze context niet ontbreken.
AI agent promotes itself to sysadmin, trashes boot sequence

DJ Henk @locke960 • 24 oktober 2024 07:51

En daarna jezelf flink bijspijkeren op het onderwerp 'prompt injection'.

https://x.com/mn_google/status/1709639072858436064

Zodra je dit ding buiten zijn eigen VM/container laat werken, bijvoorbeeld omdat je met Firefox een website bezoekt, loop je het risico dat kwaadwillenden de boel overnemen. Ik vind het een indrukwekkende demo en een leuk speeltje, maar no way dat ik het ooit voor iets serieus zou durven gebruiken.

SillieWous 23 oktober 2024 09:37

Wat is hier beter aan dan bijvoorbeeld autoclicker? Daar weet je met enige zekerheid dat het werkt zoals bedoelt.

Christoxz @SillieWous • 23 oktober 2024 09:45

Genoeg verschillen:
- Met een auto clicker moet je het voordoen
- Een auto clicker kan niet overweg met verschillende lengtes (E.G als je namen wilt kopieren, hebben deze steeds een andere lengte)
- Onverwachtse situaties, een popup, een extra vraag, een extra input etc.

En dan is dit nog maar het 'begin'..

CH4OS @Christoxz • 23 oktober 2024 09:55

Als de naam in een input veld staat, kun je op zich de volledige naam in 1x selecteren door de cursor er in te zetten en CTRL+A te doen.

Dan heb je de naam altijd in volledigheid, zonder de tekst te hoeven selecteren.

Christoxz @CH4OS • 23 oktober 2024 10:01

'Als' het in een input veld staat ja.

In de demo van Anthropic zie je bijvoorbeeld dat deze email adressen overneemt van de webpagina, naar een form. Dat krijg je dus niet voor elkaar met een auto clicker, en verschillende lengtes.

Je kan dit niet vergelijken met een auto clicker..

derx666 @Christoxz • 23 oktober 2024 10:22

Ik gebruik hiervoor gewoon powerautomate en kan bv gewoon waardes uit een html veld halen en kopieren. Initiele setup zal wel meer werk zijn, maar is wel feilloos.
Hier zeg je tegen: open webpagina x, en kopieer van de lijst die je ziet alle ip adressen. Zonder aan te geven waar die staan, en hoe een IP adres eruit ziet.

Daar zit natuurlijk wel een groot tijdvoordeel in, echter bij dit soort dingen wil je graag dat het feilloos is, en dat is het niet.

Echter zie ik bv wel een toepassing waarbij je bv bij 100 apparaten die een webinterface hebben, maar bv geen goede manier om centraal settings te wijzigen. Dan zou je kunnen zeggen: hier heb je een lijst met ip adressen, log in met deze credentials, ga naar menu x, y, z en verander de waarde die daar staat in Q.

SillieWous @Christoxz • 23 oktober 2024 12:28

Met een auto clicker moet je het voordoen

Het zal niet zo zijn dat dit ding magisch alle UIs begrijpt. Dus die zal je net zo goed moeten inleren. Bij onverwachte events is het ook maar zeer de vraag of dit ding het juiste zal doen.

Ik snap eerlijk gezegd de use-case niet echt.

Christoxz @SillieWous • 23 oktober 2024 12:30

Dus die zal je net zo goed moeten inleren.

Daar is dus het model voor

Verder kan OpenAI bijvoorbeeld prima overweg met het begrijpen van HTML en UI's.
Uiteraard niet testbaar met het interacteren, maar AI's gaan dat prima aan kunnen, en dit is het voorbeeld van het begin!

SillieWous @Christoxz • 23 oktober 2024 22:47

Je gaat nooit in een model krijgen dat een paint achtig programma geen IDE is. Dus als ik dan zou vragen, in bijv photoshop “hoe kan ik een python script draaien in dit programma?” Gaat er iets raars gebeuren.

Christoxz @SillieWous • 24 oktober 2024 08:18

De kans is klein dat er iets raars zou gebeuren, omdat een model gewoon kan herkennen dat het om Photoshop gaat, en weet dat dit geen Python kan draaien.

Als ik ChatGPT4o een screenshot stuur van Photoshop met de vraag: "How can I run a Python script in this software?"
Krijg ik dit als antwoord:

Photoshop doesn’t natively support Python directly, but you can use a bridge like Photoshop API or Adobe's ExtendScript Toolkit (which supports JavaScript). If you specifically want to use Python, you would need a workaround like Python-Photoshop API or creating a Python script that communicates with Photoshop via COM (on Windows) or AppleScript (on macOS).

Als ik daarop antwoord dat ik een screenshot van een IDE stuur, krijg ik het volgende terug:

The screenshot is from Adobe Photoshop, but I understand that you were implying it looks like an IDE. Unfortunately, Photoshop itself isn't an IDE, and it doesn’t natively run Python scripts.

SillieWous @Christoxz • 24 oktober 2024 08:38

Je snapt mijn punt niet helemaal heb ik het idee. Photoshop is vrij bekend dus snap wel dat hij daar met een redelijk antwoord komt. Maar stel dat je nu wel een IDE hebt, die verdomt veel op photoshop lijkt. Dan ga je gewoon deze antwoorden weer krijgen. Een UI is niet een universeel ding dat je in een screenshot kan begrijpen.

Christoxz @SillieWous • 24 oktober 2024 09:05

Je kwam dus eigenlijk gewoon met een slecht voorbeeld

Ik begrijp je punt zeker wel, en modellen gaan niet inderdaad niet op een magische manier UI's van top tot teen begrijpen. Maar zelfs als ik een UI op stuur, die van mij zelf is, en een model dus niks van af weet, kan hij deze in zekere zin begrijpen.

Dus als je uiteindelijk een opdracht kan geven, klik op X, zoek naar data Y, en doe daar iets mee, zal een model hier prima mee overweg kunnen.

Het zal allemaal niet per vandaag perfect zijn, maar dit is nog maar het begin. 40 jaar geleden hadden we niet eens kunnen bedenken dat ook maar iets in de richting zou bestaan, of voor het publiek beschikbaar zou zijn.

Danny @SillieWous • 23 oktober 2024 09:42

autoclicker klikt op de plek die jij aangeeft. als een knopje ergens anders zit klikt hij mis. Lijkt me dat dit systeem wel de knop kan vinden.

eheijnen 23 oktober 2024 10:00

En zo gaat Generatieve AI volop bijdragen aan een verbeterde work-life-balance in de nabije toekomst.

Zo'n systeem kan lekker (over)uren voor je draaien. Kan één systeem het niet af neem je er nog een en draait nog meer uren...

Je instrueert, indien nodig, de robot (maw. je zet hem aan het werk) en gaat lekker wat anders doen terwijl de kassa rinkelt...

The Zep Man

Internet

@eheijnen • 23 oktober 2024 10:05

Zo'n systeem kan lekker (over)uren voor je draaien. Kan één systeem het niet af neem je er nog een en draait nog meer uren...

Als dat systeem dat draait met toestemming van jouw werkgever, dan ben jij binnenkort niet meer nodig.

Als dat systeem dat draait zonder toestemming van jouw werkgever, dan ben jij binnenkort niet meer welkom.

eheijnen @The Zep Man • 23 oktober 2024 10:11

Dat zou kloppen, indien er iets geregeld wordt vanuit de politiek dat je als werknemer een robot mag inzetten en die voor je laat werken...

Want anders is er in de toekomst een hoop minder werk waardoor weer meer mensen op straat komen te staan. daar kun je je als werkgever over beklagen maar dat is anderzijds weer wat kortzichtig in die zin dat mensen die op straat staan jouw producten niet kunnen aanschaffen....

Zie het als het nieuwe inkomensmodel voor de arbeider...

The Zep Man

Internet

@eheijnen • 23 oktober 2024 10:13

Dat zou kloppen, indien er iets geregeld wordt vanuit de politiek dat je als werknemer een robot mag inzetten en die voor je laat werken...

Waarom zou dat politiek geregeld worden? Of je zaken mag automatiseren en of je de bijbehorende rechten hebt ligt al jarenlang aan je functie, en al jarenlang worden zaken geautomatiseerd die vroeger handmatig moesten gebeuren.

Want anders is er in de toekomst een hoop minder werk waardoor weer meer mensen op straat komen te staan. daar kun je je als werkgever over beklagen maar dat is anderzijds weer wat kortzichtig in die zin dat mensen die op straat staan jouw producten niet kunnen aanschaffen....

Langetermijndenken? Ho even. Short-term line must go up! Het fiscale jaar is precies dat, een jaar. Verder kijkt een organisatie niet.

Zie het als het nieuwe inkomensmodel voor de arbeider...

De arbeider die in IT werkt kan en mag dit vaak doen. Anderen die IT enkel gebruiken voor "busy work" worden vanzelf vervangen door automatisering.

[Reactie gewijzigd door The Zep Man op 23 oktober 2024 10:15]

DeeD2k2 @The Zep Man • 23 oktober 2024 11:30

We zijn al decennia aan het automatiseren en er komt alleen maar meer werk bij. Ook op kantoor. Voorlopig blijven we elkaar nog wel bezig houden denk ik. Helemaal in bestaande organisaties; die zijn niet zomaar over op RPA en Ai zonder mensen.

Neemt niet weg dat in deze Ai revolutie wel een gevaar zit. Dit hebben de Nobelprijs winnaars voor Economie ook beschreven, o.a. in Why Nations Fail. Nieuwe technologie zorgt pas voor bredere welvaart als het gedemocratiseerd wordt. De industriële revoluties leverde de middenklasse pas wat op toe vakbonden en beleid geïntroduceerd werden.

eheijnen @The Zep Man • 23 oktober 2024 10:41

Plaats je dan nog even in de stoel van de werkgever: als de werknemer een robot inzet wat zou jij dan kunnen doen....

(Grote) bedrijven hebben kort-, middellange- en lange termijnplanningen. Teniminste bij mijn weten doen de meesten dat.

svenM @eheijnen • 23 oktober 2024 11:46

Zolang de werkgever niet de juiste nuances aan de input voor de robot kan meegeven zie ik de IT-er er voorlopig nog niet tussenuit gaan. Wel minder mensen maar meer gespecializeerd.

GurbieV 23 oktober 2024 10:05

Dit vind ik toch wel eng.

Even een commando: log in op mijn bank en maak 500 euro over op dit Iban nummer.

Er zijn zoveel zaken te automatiseren, virus 2.0 eigenlijk.

The Zep Man

Internet

@GurbieV • 23 oktober 2024 10:06

Even een commando: log in op mijn bank en maak 500 euro over op dit Iban nummer.

"Fout bij het inloggen voor internetbankieren op desktop PC: externe factor vereist."

[Reactie gewijzigd door The Zep Man op 23 oktober 2024 10:09]

blorf @GurbieV • 23 oktober 2024 10:47

Reden om je besturingssysteem te heroverwegen. Het is nu al zo dat apps standaard meer permissies hebben dan de gebruiker...

Michal788 23 oktober 2024 09:37

Dit jailbreaken betekend nog meer spam en fishing email.

barbarbar 23 oktober 2024 09:43

Dit soort toepassingen van AI hebben denk ik wel de toekomst. Voor specifieke software bouw ik zelf voor klanten juist betere (meer taakgerichte) UI's. Soms moet dat met heel oude software die machine's besturen, waar vrijwel niks mee te automatiseren is. Dan kom ik ook vaak uit op het principe van "maak een screenshot" -> kijk waar de knoppen zitten die ik nodig ben -> klik daar maar op. Dat werkt eigenlijk best goed en is heel flexibel in te zetten. Zo kun je handelingen die in allerlei menu's verborgen zit en je maar zelden gebruikt, toch heel toegankelijk maken. Met AI er bij wordt dat nog toegankelijker voor een grotere groep mensen zonder dat ze direct een programmeur nodig zijn.

Bark_At_The_Cat @barbarbar • 23 oktober 2024 09:53

Bouw je dat helemaal custom?

Ik zou in dat soort gevallen toch naar de RPA capaciteiten van Power Automate op Windows. Er zijn vast wel alternatieven, maar daar ben ik niet erg bekend mee.

barbarbar @Bark_At_The_Cat • 23 oktober 2024 12:22

Ja. Power automate wel bekeken, maar dit is vaak overkill en werkt ook regelmatig domweg niet met de software die we gebruiken. Ook is dat weer iets was geïnstalleerd moet worden, licenties voor regelen, updates onderhouden welke dan vervolgens weer dingen breken.

In de basis heb ik een setje tools ontwikkeld die simpel te combineren zijn tot nieuwe "flows". Om dat in power automate (of ander low-code pakket) onder te brengen, vergt meer tijd en kosten dan het domweg even in een LinqPad script/C# aanpassen.

Belangrijk is te vermelden dat dit op machines draait die helemaal losstaan van de kantooromgeving. Dus zomaar eventjes een update doen, een licentie regelen e.d. is vrijwel nooit mogelijk. Als het draait, moet het jaren draaien zonder dat een beheerder er iets mee moet.

Wat nog meetelt zijn natuurlijk ook de kosten. Voor de totale licentiekosten die zo'n power automate oplossing vergt in veel gevallen, kan ik ook hele leuke dingen maken. Plus de klant heeft persoonlijk contact, er komt iemand hun direct helpen bij problemen etc. Dat moet je met power automate allemaal nog erbij regelen.

[Reactie gewijzigd door barbarbar op 23 oktober 2024 12:24]

SinergyX 23 oktober 2024 10:13

Doe er nu eens eentje met een captcha scherm er in?

Snap het potentieel, maar praktische uitwerking mis ik nog een beetje. De chat geeft aan 'not visible' in de excelsheet, maar je ziet duidelijk dat de lijst heel erg lang is.. of je zoekt/scrollt even? Heel toevallig een CRM die schoon en simpel is, geen dubbele hits, alle data heeft, staat heel tactisch het stukje land over (autofill, searchbox, adres obv postcode).

svennd @SinergyX • 23 oktober 2024 11:41

Dat zegt de intro toch, "tech demo". Het concept is leuk, de implicaties wat complex. AI kan tot op een bepaald niveau "denken" waardoor het een voordeel heeft ten opzichte van (code|apps) die dingen automatiseren (veel sneller, maar minder ruimte voor variaties). Aan de andere kant mensen kunnen nog complexere taken doen. (Zoals, oh ik heb dat in die file/excel/databank gezet) daarvoor is AI voorlopig nog te klein in input.

Ik zie niet direct in hoe we dit kunnen gebruiken, gezien de kost van AI te draaien maar cool is het wel.

Skit3000

23 oktober 2024 10:14

Dit is best knap, de meeste multi-modal LLMs (die zowel met tekst als met afbeeldingen, video, geluid, etc) overweg kunnen hebben geen ruimtelijk bewustzijn. Ze kunnen dus wel lezen wat er op een afbeelding staat, maar niet precies zeggen wáár dat staat. Een project als Open-Interface zegt bijvoorbeeld zelf al dat hun oplossing niet goed werkt zodra er op dingen geklikt moet worden, of als er bijvoorbeeld door Spotify of Excel genavigeerd moet worden.

Een oplossing hiervoor is om "traditionele" OCR-software te gebruiken, die teksten herkent en labelt op je scherm inclusief de positie van deze teksten. Het lastige dan is alleen om dat op een juiste manier terug in de LLM te voeren.

Verder denk ik dat als deze Claude functie goed werkt (of andere LLMs beter gaan werken) het een compleet nieuwe manier van besturen van je computer gaat worden zonder dat er direct allemaal aanpassingen gedaan hoeven te worden. Het is eigenlijk een abstractie van de interface die we nu kennen. Als ze het slim in elkaar hebben gestoken moet je misschien de eerste keer nog helpen wanneer Claude ergens op vast loopt (als het bijvoorbeeld niet weet wat je bedoelt met "open de browser"), maar als het dan de gebruiker om meer informatie vraagt zou het de tweede keer wel moeten weten wat er gedaan moet worden. Zodra dat echt goed werkt, zou je dus alles wat een mens nu op een computer doet, over kunnen dragen aan een functie zoals Computer Use en misschien zelfs compleet zonder eigen scherm en toetsenbord kunnen werken door alles via stemcommando's te laten verlopen.

OruBLMsFrl @Skit3000 • 23 oktober 2024 11:27

Een scherm is nu juist handig voor mensen om informatie tot zich te kunnen nemen, en zo een AI te helpen troubleshooten. Elke keer dat je hoort spraakprogramma's en zo meer dan merk je echt dat mensen een demo doen met een paar items in een lijstje en dan klaar. Geef mij een weekoverzicht van mijn agenda dat is voor mensen visuele informatie, dat wil je niet enkel in spraak. Ik wil als mens ook graag gamen, en niet dat de computer dat voor me gaat doen, want wat moet ik dan met mijn vrije tijd vermaak

Is oprecht heel knap wat er allemaal kan, en saaie taken weg automatiseren ben ik helemaal voor, maar dit is goeddeels een oplossing zoekende naar een probleem. En de mens-machine interface met toetsenbord, muis en monitor is erg efficient. Ook is het zelflerende effect lokaal nog helemaal de vraag. De huidige AI's kosten vaak tonnen of zelfs tientallen miljoenen om te trainen. Dus even een nieuwe taak erbij leren, iets fundamenteel slimmer of beter doen, zal van een heel andere aanpak dan LLM's moeten komen. Het zijn allemaal gereedschapjes, maar de fundamentele onbetrouwbaarheid van LLM's en kans op hallucineren blijven in de weg staan. De decennia wetenschappelijk onderzoek naar kunstmatige intelligentie die het vakgebied tot hier gebracht hebben ga je qua innovatie cyclus niet plots verkorten tot maar één jaar voor je weer een fundamenteel probleem opgelost hebt. Was het maar zo makkelijk.

We zitten echt enorm in de hype fase nu hiermee, iedereen verwacht van alles en is prima tevreden met halve resultaten, want de volgende versie komt eraan en die lost het wel op. In 2025 of uiterlijk 2026 gaat de curve alweer bijstellen op AI gebied. Voorspelbare omgevingen zoals gestandaardiseerde bedrijfsomgevingen, waar kapitaal is om op AI safety te testen en data kwaliteit tot in den treure te optimaliseren, daar zullen dit soort zaken uitstekend presteren en veel verder opbloeien.

Verder zul je veel gebruik blijven zien bij de consument die welwillend onderdeel wordt van het grote experiment van Big Tech. Die overziet de risico's niet van de controle over diens computer uit handen geven. Dat wordt met schade en schande wijs worden als maatschappij, net als de belofte van sociale media toen het net geïntroduceerd werd, dat zou ook alles alleen maar beter maken en het werd snel lastig voor te stellen een wereld zonder sociale media...

Skit3000

@OruBLMsFrl • 23 oktober 2024 11:42

De problemen en gevaren met de huidige generatie LLMs die je aanstipt ben ik me ook van bewust, en "een AI even snel je computer laten besturen" is inderdaad niet iets wat je vandaag al volledig uit handen moet geven.

Waar ik met mijn verhaal meer heen probeerde te gaan is niet dat AI direct even al je werk over kan nemen, maar dat het alles over kan nemen waar je als mens eigenlijk niet zo veel toe te voegen hebt. Het scannen van een factuur, deze op de juiste plek uploaden, in je boekhouding verwerken en daarna de betaling inplannen bijvoorbeeld. Als je de eerste keer kunt zeggen "Ik ben een factuur aan het scannen, zet deze in de boekhouding en plan de betaling in op 1 november" en daarbij de AI stap voor stap moet helpen met wat je bedoelt (deze moet dat dus wel vragen), dan kan jouw uitleg er voor zorgen dat de volgende keer als je om iets soortgelijks vraagt, de AI al een paar dingen niet meer hoeft te vragen (waar het de scan kan vinden, via welke bank je bankiert, etc). Nadat je de eerste paar keer hebt geassisteerd en de LLM het verder alleen af kan, krijg je in de toekomst misschien een keer een vraag als "de bank zegt dat je saldo niet toereikend is, wat wil je dat ik doe" waarna je enkel hoeft te antwoorden dat er dan voor een latere betaaldatum gekozen moet worden ofzo.

Met taken waarbij je een computer gebruikt om iets te creëren (ontwerp voor een nieuwe fiets, programma voor een nieuwe politieke partij, etc etc) waarbij je jouw gedachten om wilt zetten in iets tastbaars zal je zelf moeten blijven doen, maar voor alle taken waarbij de computer slechts een hulpmiddel is, werkt AI om deze uit te voeren na een tijdje hopelijk zo goed dat je dat zonder interface zou moeten kunnen doen. Deze Computer Use functie is denk ik een goede eerste stap om verder te ontdekken hoe dat precies kan werken.

[Reactie gewijzigd door Skit3000 op 23 oktober 2024 11:42]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (54)

Sorteer op:

Weergave: