'Google werkt aan AI-tool die computerbesturing in webbrowsers kan overnemen'

Google werkt aan een AI-tool die de computerbesturing in een webbrowser automatisch kan overnemen om zelfstandig bepaalde taken uit te voeren, zoals het boeken van een vlucht of het kopen van een product. Dat zeggen drie ingewijden tegen The Information.

Volgens de bronnen van The Information moet de tool onderdeel worden van de volgende versie van Googles Gemini-model. Het bedrijf zou het project, met de codenaam Jarvis, op zijn vroegst begin december voor het eerst willen tonen. De tool moet kort daarna beschikbaar komen voor een kleine groep testgebruikers. Vrijdag schreef The Verge op basis van eigen bronnen al dat Gemini 2.0 in die maand moet verschijnen, maar het nieuwsmedium gaf geen informatie over mogelijke functies.

De tool is naar verluidt bedoeld om 'alledaagse taken' op het web te automatiseren. De Jarvis is in staat om op knoppen te klikken en tekst in te voeren. Het programma zou hiervoor geregeld screenshots nemen. Op basis van die screenshots bepaalt de AI-bot welke handeling moet worden uitgevoerd. Het duurt volgens de ingewijden daardoor telkens 'een paar seconden' voordat Jarvis een actie onderneemt.

Eerder deze week bracht Anthropic een soortgelijke functie uit voor chatbot Claude. Laatstgenoemde moet echter de gehele computer kunnen besturen, terwijl Googles tool alleen zou werken in de Chrome-webbrowser. Ook OpenAI werkt mogelijk aan iets soortgelijks. In februari schreef The Information dat dit bedrijf eveneens bezig is met software die het systeem van gebruikers kan overnemen, zodat het programma bijvoorbeeld automatisch declaratieformulieren kan invullen en versturen.

Door Kevin Krikhaar

Redacteur

27-10-2024 • 09:58

82

Reacties (82)

82
76
26
2
0
34
Wijzig sortering

Sorteer op:

Weergave:

Ik heb zelf al een keer zoiets als POC gemaakt, door een LLM de inhoud van een webpagina te geven en te vragen javascript te schrijven om de benodigde actie uit te voeren. Dit werkte prima, maar was niet echt een oplossing. In theorie zou het wel sneller door een website kunnen klikken dan je zelf doet, maar tegelijkertijd, zolang dit in een browser draait terwijl je er naar zit te kijken kun je het net zo goed zelf allemaal aanklikken. De vertraging tussen het voorleggen van de prompt aan (in mijn geval) ChatGPT en het terugkrijgen van een antwoord is vaak langer dan dat je zelf op de knop "Producten" klikt, om daarna "monitor" in het zoekveld te zetten, het gewenste product uitzoeken, op "Nu kopen" klikken en daarna je bestel- en betaalgegevens invullen.

Ik zie dit wél als een oplossing voor dingen die je regelmatig doet alleen maar om bijvoorbeeld te checken of de prijs van een bepaald product is gedaald, maar dan zou dit op de achtergrond moeten draaien.
Ik zou er meer in zien dat iemand die een muis niet kan besturen dan makkelijker het web kan gebruiken.
Zoiets ja. Definieer dan "die een muis niet kan besturen" als iemand die niet achter een computer zit en tóch de computer (door middel van bijvoorbeeld een spraakbericht) iets uit wilt laten voeren. Een beetje zoals je een menselijke assistent kunt vragen om je afspraak van maandag te verzetten, waarna deze eerst een nieuwe datum regelt met je gesprekspartner om daarna het restaurant te bellen om de reservering aan te passen.
Of dat je, tijdens het rennen naar de trein, tegen Gemini schreeuwt dat het even een ticket naar Brussel moet boeken voor de eerstvolgende trein vanaf Centraal, tenzij de prijs van die rit meer bedraagt dan 300 euro.
prijs van een bepaald product is gedaald
Zoals tweakers al doet bedoel je?
Ik zie dit wél als een oplossing voor dingen die je regelmatig doet alleen maar om bijvoorbeeld te checken of de prijs van een bepaald product is gedaald, maar dan zou dit op de achtergrond moeten draaien.
Daarvoor hebben we reeds sinds de eerste browsers bookmarks/favorieten?

Of wget als je er een grafiekje van wilt maken. Dan heb je iets dat efficienter, energiezuiniger en reproduceerbaarder is dan dit. Waarschijnlijk kan je zelfs eenmalig aan ChatGPT vragen om een scriptje te schrijven als je dat zelf niet kan.
Het verschil tussen een pagina toevoegen als favoriet of je browser vragen je een melding te sturen als een bepaald product onder een bepaalde prijs beschikbaar is, is natuurlijk dat er voor dat laatste een soort van logica nodig is. Als een LLM dat voor je kan doen, hoef je niet zelf elk uur die website in de gaten te houden.

Maar de kern van wat ik zei gaat vooral over dat ik (nu) niet echt de meerwaarde zie van AI gebruiken om een browser te automatiseren.

Toevoeging: Overigens zie ik dan weer wél de toegevoegde waarde van een AI-systeem dat je complete computer aan kan sturen. Als dat goed ingericht is (en de gebruikte LLM niet hallucineert of prompts laat injecteren) dan kan deze alles wat je zelf ook kunt en hoeft het alleen verduidelijking te vragen aan de gebruiker wanneer ergens een keuze van belang gemaakt moet worden.

[Reactie gewijzigd door Skit3000 op 27 oktober 2024 19:28]

Werkt dat goed? Waar gebruik jij het voor?
Ik zeg ook niet dat het niet al kan, maar met AI kun je in principe "alles", ook als er nog geen browserextensie of app voor is.
Ik zie dit wél als een oplossing voor dingen die je regelmatig doet alleen maar om bijvoorbeeld te checken of de prijs van een bepaald product is gedaald, maar dan zou dit op de achtergrond moeten draaien.
Heb je geen LLM / AI voor nodig. Gebruik gewoon een van de duizende webscrapers die al geprogrammeerd zijn voor die specifieke taak

Voorbeeld https://github.com/dgtlmoon/changedetection.io
Ik vind het nogal een debiele methode. Stimuleer dan als big tech de groei van user-API's, zodat je kunt kiezen tussen automation of een custom frontend (proxy de data dan bijvoorbeeld naar een Gemini-protocol browser), zonder al die bloat, advertenties en de overhead aan data.
Scheelt weer een datacenter aan energie.
En verbrassing van resources aan de server kant als een groot deel van de bezoekers straks gewoon een bot is. pingel dan gewoon een paar regels tekst heen en weer.

Wat ik hiermee zie gebeuren, is dat de behavior tracking op websites het klikgedrag van bots gaat waarnemen en dit meeneemt in de ontwikkeling, ten nadele van de ervaring voor menselijke bezoekers(bot ziet alles, herkent doorgaans minder, mens ziet op focus en herkent daarmee makkelijker via een flow).
Zoals wat er is gebeurd met de komst van de smartphone: Playmobil-achtige websites met een Informatie-eenheid per pagina van niets, omdat ze anders niet te gebruiken zijn op "smart"phone .
Nog steeds duiken er websites op met een regelafstand waarbij er onderhand een halve alinea tussen past, wat overigens bijzonder vervelend leest.
Dat is waar, maar dit is te automatiseren, dwz, herhalend of saai werk kan geautomatiseerd worden.

Praktijkvoorbeeld, bij mijn huidige opdracht zitten ze helemaal in SAP. Binnen de SAP GUI zijn bepaalde workflows of taken die vaak herhaald moet worden door mensen. Deze zijn niet of erg moeilijk te automatiseren, omdat alle logica, queries, etc in de GUI verwoven zijn - het is niet de meest morderne systemen.

Nu is er een team die heeft deze saaie workflows geautomatiseerd, door iets te programmeren dat als een gebruiker door de GUI klikt. Nee het is niet sneller dan een gebruiker, maar, het kan deze taken die honderden, zo niet duizenden keren per jaar uitgevoerd moeten worden automatiseren. Ze meten hun success adhv hoeveel werkuren en daarmee kosten bespaard worden, denk cijfers als 1/2 FTE per week.

Is het mooi? Nee, ik heb er een hekel aan, maar het werkt wel om de beperkingen van in dit geval SAP heen. Zo zullen er ook wereldwijd miljoenen mensen zijn die regelmatig dezelfde serie aan acties uit moeten voeren. Dat is al lange tijd te automatiseren dmv bijvoorbeeld Selenium of tegenwoordig Playwright, maar die moeten heel specifieke instructies krijgen - klik op dit element met ID asdf1234, vul dat in, druk op deze X / Y positie, dat soort dingen. Als dat wat slimmer kan door AI te gebruiken, prima.
Zoiets zou je waarschijnlijk inderdaad (iets) beter kunnen automatiseren met deze voorgestelde AI-tool in Chrome, maar zodra je ook maar íets van data nodig hebt dat niet met de browser terug te halen valt, stopt het met werken. Als er nu dagelijks iemand items in SAP aan past aan de hand van een rapport uit een ander systeem, dan gaat het al niet werken als Chrome niet bij dat andere systeem kan komen. Een tool zoals dat van Anthropic waarmee je je hele computer kunt laten besturen, heeft hier een grote meerwaarde omdat die dat wél zou kunnen.

Maar als je een stapje terug neemt; automatiseringen zoals wij die nu kennen volgen altijd een voorgeschreven script. Als dit, doe dat. Wat je met AI juist wilt, is dat je die scripts niet hoeft te schrijven, maar alleen uit hoeft te leggen waarmee, wanneer en waarom iets gedaan moet worden waarna de AI er zelf mee aan de gang gaat (en bij vragen of onduidelijkheden bij je terug komt om zo een steeds beter beeld te krijgen van wat er van de AI wordt verwacht). Dan heb je niet alleen een taak geautomatiseerd, maar heb je ook de persoon die voorheen de automatisering maakte niet meer nodig.
Dit voelt als een tussenstap richting directe interactie met (APIs van) dergelijke services; dus uiteindelijk niet meer via de huidige menselijk interface als “omweg” (i.e. een webbrowser in dit geval zoals wij dat zouden gebruiken), maar machine-to-machine interactie op basis van een gesproken of geschreven commando aan een AI-assistant. Je ziet het nieuwe business model al bijna ontstaan.

Mijn grote vraag is waarom we er toch zo hard aan werken om de mens op zoveel terreinen, variërend van creatief tot productief, overbodig te maken? In een wereld waar juist alles draait om productiviteit en rendement lijkt me dat alleen gunstig als je helemaal bovenaan de keten staat; oftewel, de (straks) paar bedrijven ter wereld die eigenaar zijn van dergelijke services in onze winner-takes-all markt.
Control-hijacking noemen ze dat, dacht ik. Hoog tijd voor Google-vrije hardware.
In de 2e deel van 2e alinea geef je eigenlijk al antwoord op je eigen vraag.. Corporate (en aandeelhouders) dominantie..
Omdat Google al heel lang niet meer een goede search engine willen zijn, maar dé manier om toegang tot informatie te krijgen en daarvoor betaald wil worden. Dan moet je jezelf tussen de consument en de aanbieder plaatsen.
Voor machine to machine hebben we al API's. Dat hoeft niet via een webinterface bedoeld voor mensen. En als de website geen API aanbiedt, misschien willen ze dan wellicht die machine to machine interactie wel helemaal niet?

En zo vreemd vind ik het niet dat bedrijven hard proberen om zichzelf een onmisbare machtspositie te geven. Het beste business model is eentje waar niemand meer omheen kan. Je ziet het op andere gebieden al heel lang. Banken hebben onze vrijheid op financieel gebied al afgenomen en kunnen doen wat ze willen.

Vroeger kreeg je rente op je betaalrekening om je over te halen er toch maar een te nemen. Nu ze weten dat niemand meer zonder kan moet je er zelfs voor betalen, en dat wordt ook steeds meer en meer. En alle makke schapen werken braaf mee om hun positie te versterker door alle zoete koek die ze in je keel proberen te duwen gewoon maar door te slikken. Ga maar lekker allemaal tikkies aan elkaar sturen joh, help mee aan het afschaffen van contant geld, dan hebben ze volmacht over alle betalingsstromen.

En wat te denken van de gezondsheidsindustrie die volledig bepaalt hoe jij geholpen mag worden bij lichamelijke problemen? Als iets niet in hun straatje past krijg je het gewoon niks vergoed, maar ondertussen ben je wel verplicht om maandelijks aan het systeem mee te betalen. Om vervolgens als je het nodig hebt afgescheept te worden met een pilletje wat je de rest van je leven moet gaan slikken en waarvan de bijwerkingen erger zijn dan de kwaal.

En nu zijn ze op IT gebied ook al hard bezig alles te verzieken. Multinationals zoals Google, Microsoft, Apple, Meta en nog een paar andere maken de dienst uit, en bepalen voor ons wat we wel en niet mogen met apparaten waar we goud geld voor neer moeten leggen. Wat vroeger een vorm van vrijheid was (je kon doen met je PC wat je wilde), wordt nu een digitale kooi waar je niet meer uit kunt zonder in te moeten leveren op bepaalde aspecten van je leven. En iedereen maar weer lekker meelopen als makke schapen, want die nieuwe mobiel is zo cool joh, vol AI functies die je leven makkelijker maken. Bleh. Computers maakten vroeger ons leven beter, maar tegenwoordig zijn we al over het hoogtepunt heen en staan ze vooral in dienst van IT multinationals.
Betaalt google de credit card zodra er een fout wordt gemaakt ?

[Reactie gewijzigd door yevgeny op 27 oktober 2024 10:37]

Vanuit het consumentenrecht heb 'jij' nooit wat besteld, immers jij hebt nooit op een knop degrukt. Dat heeft google gedaan.

Los van andere red flags vindt ik het een interessante vraag of aankopen door deze, wat zelfs als primaire functie wordt bestempeld, uberhaupt rechtsgeldig zijn

#notalawyer
Het zal vast in de kleine lettertjes staan van Gemini komen te staan dat in zulke gevallen jij toch echt zelf op het knopje hebt gedrukt door de opdracht te geven.
Het maakt voor de verkoop niks uit wel tooling jij gebruikt om tot de transactie over te gaan dunkt mij.
Dit zal echt niet door een rechter geaccepteerd worden lijkt me. Gedoe over de tekst op het blauwe bestelknopje van bol zorgde al voor niet valide transactie, laat staan als je er AI tegenaan gooit
bewijs maar dat het niet jij was die achter de pc zat die onder jouw account op jouw adres met jouw creditcard iets heeft besteld.
Zodra deze tool er is? Bewijs maar dat ik het was. Onschuldig tot anders bewezen.
Jij hebt duidelijk nooit de voorwaarden van jouw bank of creditcard echt bestudeerd. Door daar iets tussen te plaatsen wat op knoppen drukt zouden ze je hele creditcard en bankrekening mogen opheffen omdat je er risicovol mee omgaat enkel al door zulke tools te hebben op de computer waar je financiële transacties mee doet.
Bedankt voor het maken van mijn punt (sarcasme komt niet altijd goed over). Ik voorzie een aardige juridische clusterfuck bij een dergelijke tool indien ingezet voor het aangaan van overeenkomsten zoals het doen van een aankoop.
Voor zakelijke toepassingen waarbij er een hoop saai geklik (deels) geautomatiseerd kan worden zie ik dan weer wel wat nut. Ik moet bijvoorbeeld weleens wat info van een website plukken wat veel dezelfde handelingen vraagt, maar bij lange na geen speciaal opgezette routines of scripts rechtvaardigheid. Hier zou AI met dergelijke mogelijkheden wel uitkomst kunnen bieden.
als ik met cc betaal zal ik toch echt mij moeten identificeren op mijn iphone dat ik het was.
dan nog dat het op mijn adres is afgeleverd.
vroeger waren studentenhuizen een drama. meerdere mensen die een voordeur deelden. je kon als webwinkel niet aantonen dat de houder van de kaart iets ontvangen had dus was je als webwinkel je centjes kwijt. geen idee hoe dat tegenwoordig gaat. bij veel cc bedrijven is het hun corebusiness om fraude tegen te gaan.
Er zal vast in de kleineettertjes staan dat je akkoord gaat met gedane aankopen omdat je akkoord bent gegaan met het gebruik van de tooling.

En dan komen we gelijk bij het punt van een paar maanden terug dat de button om een aankoop te bevestigen ook verplicht tot betalen op veel sites niet duidelijk zou zijn. Nou, dan gaat dit soort tooling nog veel leukere situaties opleveren.
Gewoon niet de tooling gebruiken als je dit als risicovol ervaart, het er niet op aan laten komen dat er ongewenst een aankoop wirft gedaan.
Je hebt zelf dan misschien niet op de bestelknop gedrukt, je geeft ergens wel toestemming aan de applicatie het voor het te mogen doen. Niet aan mij besteedt dut soort fratsen, ik houd zelf graag de regie in handen.
Voor technisch onderlegde gebruikers prima, maar 95% van de internetgebruikers heeft geen flauw idee wat ze doen en zo'n hip AI ding is cool want AI. Dus aanzetten en gaan... Dit soort ontwikkelingen is het grootst mogelijke risico voor onwetenden. Die lezen geen voorwaarden en andere lettertjes.
Google zal zich vast laten betalen door de vliegmaatschappijen om ze een voorkeur te laten krijgen boven de anderen maatschappijen bij het automatisch boeken van een vlucht
Daar hoort "verderop" nog een API bij waarmee websites dit compatibel kunnen maken voor de inzet van dit soort AI.

Ben benieuwd hoe deze nieuwigheid zich zich binnen de privacy sfeer zal manifesteren...
Dat lijk me sterk, de AI is er juist om de API overbodig te maken door als een gebruiker door de website te klikken. De website wordt de 'API'.
Als de AI zelf steeds opnieuw naar knoppen moet zoeken of dit vooraf al is aangegeven in de code (API) om een site geschikt te maken voor spraakbesturing icm. AI.

Daarnaast kan er best een modus zijn voor sites die daar niet aan voldoen...
De Jarvis is in staat om op knoppen te klikken en tekst in te voeren. Het programma zou hiervoor geregeld screenshots nemen. Op basis van die screenshots bepaalt de AI-bot welke handeling moet worden uitgevoerd. Het duurt volgens de ingewijden daardoor telkens 'een paar seconden' voordat Jarvis een actie onderneemt.
Hij reageert daadwerkelijk op wat er gerenderd wordt op het scherm, zoals een gebruiker.

Met een API wordt de AI overbodig, waar ik trouwens compleet voor ben. Het is toch zonde om zoveel compute te gooien tegen iets dat een simpele API ook kan.
Precies, een "bestuurde" modus is veel effectiever en zeker op de grote schaal energiezuiniger.
Het is vaak juist niet in het belang van de website om de verkopen op deze manier door de klant te laten automatiseren. Een groot deel van de checkout-procedure op veel sites is erop gericht je te upsellen. Denk aan een 'upgrade', 'verzekering nodig?', etc. als je een vliegticket boekt. Een AI die daar snel voorbij klikt is natuurlijk niet in het belang van de verkopende partij. Veel medewerking met een API moet je daarom niet van ze verwachten.
Ticketmaster is in deze wel een leuk voorbeeld.

"vroeger" mocht je een nacht voor de kassa liggen. Nu kun je het scherm refreshen en volgen dat je nummer 1000 in de wachtrij bent. Straks geef je dus je browser de opdracht tickets te kopen. Moet je waarschijnlijk niet moeilijk doen over ad-hoc beslissingen (die stoel is niet beschikbaar, dan heb ik liever die plaatsen, maar doe toch deze maar omdat die andere te duur zijn) en je moet waarschijnlijk de juiste browser/OS combinatie gebruiken wil je kans maken.
Dat wordt leuk dus.....

edit: naar aanleiding van svideo die ticketmaster noemde

[Reactie gewijzigd door Lothlórien op 27 oktober 2024 11:01]

Lijkt me leuk in combinatie met dynamische prijzen. Heb je ineens tien keer zo veel betaald voor je concert omdat Jarvis dacht dat je dat wel prima zou vinden.
Leuk voor testautomatisering, maar een red flag voor productie doeleinden.
Ai klikt dan automatisch op een paar Google Ads? :+
Klinkt me als de zelfbestellende koelkast. Hoor je ook niets meer van. Zou het zelf ook niet willen hebben.
Gaat mij net zo, dadelijk als ik thuiskom een hele rij pakketdiensten voor de deur met bestellingen....mag ik bedanken.
Lijkt me ideaal voor het verplichte urenschrijven. }>
In het artikel staat er dat het in staat zal zijn om research te verzamelen, producten te kopen of vluchten te boeken.

In het eerste geval zie ik niet direct wat er nieuw aan is gezien bv CoPilot ook al websearches kan doen.
Producten kopen of vluchten boeken lijkt mij nu geen alledaags ding, laat staan dat ik het geautomatiseerd wil doen. Hoe kan een consument de juiste beslissing nemen als een reclame gigant voor jou gaat beslissen welk product je moet kopen. Ze doen er toch echt alles aan om de barrière naar onnodig consumerism te verlagen.

Op dit item kan niet meer gereageerd worden.