Google introduceert Gemini 2.5 Computer Use-model dat browser kan gebruiken

Google heeft het Gemini 2.5 Computer Use-model als preview via de api beschikbaar gemaakt. Het model gebruikt de 'visuele begrips- en redeneringsmogelijkheden' van Gemini 2.5 Pro om te kunnen communiceren met gebruiksinterfaces, waaronder browsers.

Google schrijft dat AI-modellen vaak via api's met software kunnen communiceren, maar dat veel digitale taken nog altijd directe interactie met de gebruikersinterface vereisen, zoals het invullen en versturen van formulieren. Voor dit soort taken moeten agents net als mensen door webpagina's en applicaties navigeren, onder andere door te klikken, te typen en te scrollen.

De invoer voor de tool bestaat uit de gebruikersaanvraag, een schermafbeelding van de omgeving en een geschiedenis van recente acties. Het model analyseert de invoer en genereert daarop een respons, zoals klikken of typen. Voor bepaalde acties, zoals het doen van een aankoop, is bevestiging van de gebruiker nodig. De clientsidecode voert de ontvangen actie daarna uit.

Volgens Google presteert het model in meerdere benchmarks beter dan alternatieven, zoals Claude Sonnet en het agentmodel van OpenAI. Gemini 2.5 Computer Use zou onder andere hogere scores halen in Online-Mind2Web, WebVoyager en AndroidWorld.

Tekst gaat verder onder de afbeelding

Benchmark Computer Use Gemini

Ontwikkelaars hebben toegang tot het Computer Use-model via de Gemini-api in Google AI Studio en Vertex AI. Het model is vooral geoptimaliseerd voor webbrowsers, maar kan ook gebruikt worden voor taken in mobiele gebruiksinterfaces. Het model is nog niet geoptimaliseerd voor gebruik op desktop-OS-niveau.

Door Imre Himmelbauer

Redacteur

08-10-2025 • 16:23

12

Reacties (12)

Sorteer op:

Weergave:

Wat OpenAI presenteerde (programma/browser vervanger) door alles in ChatGPT te hebben staat mij tegen. Dit ook. Ik ben redelijk fan van Gemini (in mijn ervaring het meeste op de feiten gebaseerd en bizar genoeg weinig bias, heb een heel interessant experiment uitgevoerd met Gem,Grok,GPT en Gemini was het meest gebalanceerd en had geen moeite alle schandalen van z'n maker op te lepelen.) maar hoef het niet in alles geintegreerd te hebben.


Anywho, wat mij betreft is het nu wel klaar met GenAI. Sora2 is al heel schadelijk, heb al aan oudere familieleden en vrienden moeten uitleggen dat wat ze naar me sturen met AI gemaakt nep-nieuws is. Los van dat ik de toegevoegde waarde niet snap. Mijn nerd kant is natuurlijk super onder de indruk, maar laten we nu focussen op hoe we wat we hebben ethnischer en verantwoordelijker kunnen maken. Los van dat het heel belangrijk is dat we zelf nog tot inzichten kunnen komen door zelf op onderzoek te gaan en artikelen lezen. Keerzeide is natuurlijk wel dat het nu voor minder techy mensen makkelijker is tot betrouwbaar genoege informatie te komen. Zeker gezien het politieke landschap nu. Maarja, nu zijn de meeste chatbots redelijk feitelijk en politiek neutraal, hoe lang dat zo blijft?

[Reactie gewijzigd door DamirB op 8 oktober 2025 17:07]

[...] maar laten we nu focussen op hoe we wat we hebben ethnischer en verantwoordelijker kunnen maken.
Hoe zie je dat precies voor je dan, nu er nog steeds mensen aan de knoppen zitten?
AI is net als stemrecht. Het zou voor iedereen beter zijn als sommigen er geen gebruik van zouden maken.
Dat is het lastige. in een perfecte (maar ongmogelijke) wereld zouden we nu grote AI ontwikkelingen stopzetten en ons hierover buigen. Los van de financiele bubbel (nvidia geeft geld aan openai, dat het aan oracle geeft, dat het aan nvidia geeft) is wat we nu krijgen niet wenselijk en niet nodig. NotebookLM Chatbots, Deep Research zijn nuttige fucnties wanneer goed gebruikt. Integratie in alles in ons leven en het super makkelijk creeren van AI nep-media dat zelfs voor ons nerds nu erg lastig te onderscheiden is? Dat absoluut niet.

Ook in de chatbot zelf moet betere detectie komen voor malafide opdrachten. Daar moet de aandacht naartoe gaan. En dan kunnen we vast ook nog wel een alinea schrijven over klimaat-impact.
Alles qua AI gaat tegenwoordig echt supersnel vooruit. Ik begin me ook echt vragen te stellen over de ethische verantwoording van wat ze tegenwoordig allemaal kunnen. Maar van een technologisch standpunt blijft het wel indrukwekkend tbh.
Heerlijk, ik verheug me nu al op het eerste artikel over iemand die ontslagen wordt, nadat hij veel schade heeft aangericht, omdat hij zijn werk op deze manier grotendeels geautomatiseerd had.
Browser automation was al mogelijk als AI agent met playwright mcp: https://www.npmjs.com/package/@playwright/mcp

Wat mij opviel was dat dit erg veel tokens gebruikte. (Lees miljoenen voor een enkele taak)

Hoop dat dit beter werkt
Browser-use was nog eerder.
Ik gebruik zelf manus.im op het moment voor computer use, omdat deze ook:
- Voorbij cloudflare "Are you human?" checks komt, die opvallend veel sites onnodig hebben (bv online supermarkten).
- Login data kan onthouden

Ik kijk echter uit naar apps die dit LLM gaan gebruiken, en die 2 essentiële features er bovenop bouwen.
Alvast uitproberen kan op : https://gemini.browserbase.com/

[Reactie gewijzigd door Utrecht25 op 8 oktober 2025 18:53]

Wat is het allereerste nieuwsbericht op tweakers.net?

Ik krijg bij deze vraag geen antwoord. En hier zouden 2 uitkomsten kunnen zijn. Het eerste bericht op de frontpage of het allereerste bericht op Tweakers ooit.. maar hij komt niet eens op Tweakers voorbij de cookies.. terwijl hij eerst al moeite heeft met Google cookies...
Bij mij doet ie het wel meteen correct, zonder probleem met cookie banner hoewel ik de prompt wel in engels had gedaan. https://i.imgur.com/FT0aWJQ.png . Aangezien hij ook refelecteert op zijn werk uit de vorige stap is het wel apart dat het bij jou mis ging.
Het gaat snel.. dit gaat echt jobs kosten. Programmeurs die met selenium browser based websites testen en dergelijke.. 100man kan door 1 werknemer vervangen worden


Om te kunnen reageren moet je ingelogd zijn