Google DeepMind introduceert Gemini-model voor robots

Google DeepMind heeft twee nieuwe varianten van Gemini aangekondigd, speciaal voor robots. Het gaat om twee Gemini Robotics en Gemini Robotics-ER. Ook kondigt Google een samenwerking met Apptronik aan om 'de volgende generatie humanoïde robots te ontwikkelen'.

Beide nieuwe AI-modellen zijn gebaseerd op Gemini 2.0, zegt Google in een aankondiging. Het eerste model, Gemini Robotics, is een zogenaamd 'vision-language-action'-model. Dit AI-model kan volgens het bedrijf ook nieuwe situaties begrijpen en daarin taken uitvoeren, zelfs als het niet op die taken getraind is. Gemini Robotics is volgens Google verder goed in omgaan met nieuwe objecten, verschillende soorten instructies en nieuwe omgevingen.

Gemini Robotics is gemaakt om met allerlei soorten robots te werken. Google trainde het model met name op data van twee robotarmen, maar het kan ook gebruikt worden voor de humanoïde robot Apollo van Apptronik. Verder snapt het model opdrachten in natuurlijke taal en in verschillende talen. Ook is het model zeer behendig en heeft het fijne motorische vaardigheden. Zo kan het AI-model - wanneer het geïntegreerd is in een robot - eten in een hersluitbaar zakje doen.

Het tweede model is Gemini Robotics-ER. Dit model heeft geavanceerd ruimtelijk inzicht en is ontworpen om verbonden te worden met bestaande low-level controllers, aldus Google. Het model kan al doende volledig nieuwe mogelijkheden aanleren. Krijgt het model bijvoorbeeld een koffiemok te zien, dan kan het zelf inschatten dat het de mok bij het handvat moet oppakken en een veilige route vinden om de mok te benaderen. Het Gemini Robotics-ER-model wordt beschikbaar gesteld aan 'vertrouwde testers', zoals Agile Robots, Agility Robots, Boston Dynamics en Enchanted Tools.

Google DeepMind kondigt tot slot nieuwe benchmarks en frameworks aan voor semantische veiligheid in AI en robotica, om onderzoek naar robotveiligheid binnen de academische wereld en de industrie te bevorderen. Zo kan het nieuwe framework helpen bij het opstellen van 'grondwetten' om robots te ontwikkelen die veiliger zijn en beter aansluiten bij menselijke waarden.

Door Eveline Meijer

Nieuwsredacteur

13-03-2025 • 07:42

15

Reacties (15)

15
15
6
1
0
8
Wijzig sortering
"pick up the ball and slam dunk it through the net".
robotarm laat balletje los boven het net.
"good job".

maar een 'slam dunk' is hier niet mogelijk. toch wordt er een taak uitgevoerd. m.a.w. dit AI model gaat tot actie over op basis van een serie aannames? klinkt gevaarlijk.
of het was van te voren al getraind op de taak en bekend met het gewenste resultaat.

[Reactie gewijzigd door JJ Le Funk op 13 maart 2025 09:20]

Dat is een kwestie van afkaderen. Tegen het AI-model zeggen wat de buiten- en binnengrenzen zijn van z'n actieradius.

Een AI-model 'denkt' of 'kiest' niet. Het maakt geen 'afwegingen' (niet zoals mensen dit doen). Het voert (voor mensen complexe) wiskundige matrixberekeningen uit en de uitkomst geeft een bepaalde output.

Het doet wel 'alsof' het denkt, kiest en afweegt, maar het is gewoon platte wiskunde. Een papegaai weet ook niet 'wat' hij napraat. Een hond weet ook niet wat 'zit' betekent. Het enige wat die hond weet, is dat als hij een klank hoort die op 'zit' lijkt die in zijn richting uitgesproken wordt, en hij gaat zitten dat hij het dan goed heeft gedaan en haalt daar een bepaalde voldoening of creert een bepaalde verwachting (al is het maar 'niet gestraft worden'.)
Zelfs dit doet een AI-model niet.

Als we LLMs als voorbeeld pakken:
De zwakte van de huidige populaire LLMs is dat ze altijd per se een antwoord willen geven. Vraag een LLM een boekverslag te schrijven van een Nederlands boek, dan krijg je een hele proza over dat boek. Of het daadwerkelijk klopt is wat anders. Als het LLM het boek niet kent, gaat ie uit een heel boekverslag verzinnen op basis van de titel die je hebt opgegeven. De huidige LLMs zullen niet zeggen "Ik ken dit boek niet". Wat een LLM 'weet' niet wat een boek of boekverslag is. Het is alleen wiskunde.

Als je vraagt om een YAML-gebaseerde output te genereren van een toetsenbord layout dat geïmporteerd kan worden in OpenRGB, dan krijg je dat netjes. Behalve dan dat OpenRGB geen YAML begrijpt, maar XML. Het AI-model moet dan eigenlijk zeggen dat het, het formaat van OpenRGB niet kent in plaats van iets verzinnen.
Een hond weet ook niet wat 'zit' betekent. Het enige wat die hond weet, is dat als hij een klank hoort die op 'zit' lijkt die in zijn richting uitgesproken wordt, en hij gaat zitten dat hij het dan goed heeft gedaan en haalt daar een bepaalde voldoening of creert een bepaalde verwachting (al is het maar 'niet gestraft worden'.)
Maar wat is dan iets begrijpen? Wij mensen doen eigenlijk hetzelfde. Wij koppelen ook begrippen aan personen, acties of voorwerpen. Ja wij mensen zijn slimmer en kunnen er meer over na denken. En we hebben een taal ontwikkeld waardoor we het beter kunnen omschrijven richting andere. Maar als je tegen de hond zegt pak de bal dan begrijpt hij wel dat die de bal moet zoeken en pakken. En niet van "ga naar deze plek waar ik ooit de term bal geleerd heb en pak een voorwerp als die er is". Er is dus een koppeling in zijn hoofd dat bal dat voorwerp is. Dat noem ik toch wel begrijpen. En ja misschien is het in zijn hoofd iets anders omdat hij onze taal en begrippen niet kent. Misschien is zit wel "kont op de grond doen", maar dat is dus zitten. Maar hij is geen robot is alleen maar codes probeert uit te voeren en potentieel crasht als het niet lukt.

En van de papagaai is dat compleet de papagaai zijn schuld of mede ook de mens? De meeste mensen leren wel het praten maar koppelen er verder niets aan. Daartegen het woord koekje zullen de meeste papagaaien wel weten wat het is omdat ze dat dan krijgen. Maar deze vogel herkent bepaalde dingen toch redelijk goed. https://m.youtube.com/shorts/M_4nAAM2MGo. Natuurlijk is zijn begrip niet zo goed als een mens. Hij zal inderdaad niet begrijpen dat een boek is om te lezen. Maat hij lijkt ieder geval niet willekeurig dingen te zeggen.
Maar als je tegen de hond zegt pak de bal dan begrijpt hij wel dat die de bal moet zoeken en pakken. En niet van "ga naar deze plek waar ik ooit de term bal geleerd heb en pak een voorwerp als die er is". Er is dus een koppeling in zijn hoofd dat bal dat voorwerp is.
Je 'begrijpt' elkaar ook wel. Als een hond naar jou piept omdat 'ie honger' heeft snap jij ook wat ie bedoelt. Zonder dat je 'hond spreekt' :) -
Als ik enthousiast roep "Zoek de bal" dan gaat dat beest een bal zoeken. Ik ben er van overtuigd als ik met hetzelfde enthousiasme (op dezelfde toon) roep 'zoek de Appel', dat hij dan heel vrolijk naar die bal gaat zoeken. Als ik naar een andere taal luister die ik niet machtig ben, kan ik (denk ik) uit de intonatie halen of iemand blij/boos/verdrietig is.

Een hond kent geen 'mensentaal'. En mensen kennen geen 'hondentaal'. Dat wil niet zeggen dat er geen begrip over en weer kan zijn, maar een hond weet niet wat een 'bal' (een over het algemeen bolvormig voorwerp gevuld met lucht/foam (uitzonderingen daar gelaten)) "is". Het enige dat die hond weet, is dat als zijn mens vraagt om iets met de klank "bal" (of wat er op lijkt), dat hij dan een bolvormig voorwerp moet gaan zoeken.

Dat filmpje met die vogel is overigens superschattig! :) Maar het feit dat de vogel bij het zien van een metalen pan 'metaal' of 'bowl' "zegt",omdat ie de klanten van 'metaal' bij de frase 'waar is dit van gemaakt' heeft geleerd, of bij een boek 'boek' "zegt", wil niet zeggen dat het beest 'weet' wat een boek is. Daar zit een groot verschil in.
Als je vogel een gemaileerde braadpan ziet, zegt hij dan ook metaal wanneer er wordt gevraagd om wat voor materiaal het is? Of is alleen dat metalen kommetje 'metaal' voor de vogel. De vogel 'weet' niet wat hij 'zegt' omdat hij slechts klanken nabootst.
Een hond kent geen 'mensentaal'. En mensen kennen geen 'hondentaal'. Dat wil niet zeggen dat er geen begrip over en weer kan zijn, maar een hond weet niet wat een 'bal' (een over het algemeen bolvormig voorwerp gevuld met lucht/foam (uitzonderingen daar gelaten)) "is". Het enige dat die hond weet, is dat als zijn mens vraagt om iets met de klank "bal" (of wat er op lijkt), dat hij dan een bolvormig voorwerp moet gaan zoeken.
Als je er toch op door wilt gaan doe ik ook nog een duit in het zakje: Dat heb je goed gezien, maar is toch wel écht hetzelfde begrip, want: Generalisatie. Honden weten wat een bal is, een rond object om mee te spelen, absoluut. Ze weten ook dat een appel LIJKT op een bal, maar eigenlijk voedsel is, want ze gebruiken eerst hun neus. Dus kan het inderdaad zo zijn dat een hond neigingen om spelen én eten vertoont bij het waarnemen van een appel.

Onze taal staat daar los van. Het voorbeeld dat je noemt waarin je "bal" vervangt" voor "appel" gaat nat op tenminste twee punten: a. het begin van wat je zegt is meestal genoeg voor de hond om te begrijpen wat je bedoelt of verder gaat zeggen. Wat dit betekent is dat "Zoek de" al genoeg is om actie te triggeren. Bal is alleen maar een stukje extra info, en enigszins optioneel, omdat er nooit geleerd is om onderscheid te maken tussen bal en iets anders, dus zal de hond automatisch "bal" invullen en aannemen, ook als je toch stiekem iets anders zegt.

Mensen zijn ook zo te manipuleren, zijn heel veel voorbeelden van. Dus over de LLM's mag je van mij praten wat je wilt, daar weet ik zelf ook nog onvoldoende van. Maar je uitleg over dierlijke intelligentie toont gebrek aan inzicht, en daarom wil ik je vragen om ófwel bronnen te vermelden, of te corrigeren. Dit zeg ik met een achtergrond in sociale wetenschappen, met respect.

(EDIT: Ik zou het nog beter kunnen toelichten, ook met bronnen en voorbeelden, maar ik wil het even een beetje beknopt houden. Heb geen tijd om er veel dieper dan dit op in te gaan.)

[Reactie gewijzigd door Angelevo op 13 maart 2025 15:58]

Ik ben het niet volledig met je eens. Je hoeft niet te weten wat rond is of hoe de bal van binnen gevuld is om een bal te herkennen. Daarnaast is een rugbybal ook geeneens rond.

Als je een kind net heb geleerd dit is een fiets en zo kan je fietsen dan weet een kind wat een fiets is. Daarvoor hoeft hij niet te weten dat een fiets van metaal is, dat de je voet op de pedalen komt, dat de pedalen een ketting beweegt, die dan tandwielen laat draaien, die dan de wielen laat draaien, wat dan frictie op de grond veroorzaakt waardoor je dan uiteindelijk vooruit gaat.

De meeste mensen weten ook niet wat er allemaal onder de motorkap van de auto afspeelt. Maar toch rijden veel mensen in een auto.

Als ik vraag weet je wat blauw is dan zal je waarschijnlijk ja zeggen. Maar kan je een persoon die blind geboren is uitleggen wat blauw is? Je kan niet zeggen de lucht is blauw want dat heeft die ook nooit gezien. Ik zou het ieder geval niet kunnen omschrijven. Wijs iets aan wat blauw is. Is het echt blauw? Want volgens https://simplicable.com/colors/blue-color is alleen #0000ff echt blauw en heet de rest anders.

Wat ik dus probeer te zeggen is dat er een verschil zit tussen begrijpen wat iets is en er verstand (of ieder geval meer kennis) van hebben.

Daarnaast ik verwacht niet dat als je een hond geleerd dat een tennisbal een bal is en je zou een nieuwe bal naast een appel zou neerleggen dat die met de appel komt. Misschien dat die ze geen van beide zou pakken omdat het niet zijn bal is en dat die er niet aan durft te komen. Maar dat is een ander verhaal.
Als ik je reactie zo lees ben ik bang dat je de betekenis van "begrijpen" niet goed begrijpt.

Mij lijkt het dat begrijpen niets anders is dan de logica/ verbanden zien tussen verschillende concepten, ideeën of constructies. En dat is iets wat ons mensen zo bijzonder maakt, dat wij dit in grote mate kunnen. En tegelijkertijd is dit ook precies wat LLM's en soortgelijke AI's doen. Zonder direct de betekenis achter iets te kennen, zijn (dan wel wiskundig) de verbanden tussen alle woorden wel vastgelegd.

Zou je als argument opgooien dat dit niet hetzelfde is zoals wij mensen dan geldt dit in verlenging ook voor individuen onderling. Ik begrijp niet zoals een ander.

Naar mijn mening kun je dus zeker wel stellen dat huidige AI's zaken goed begrijpen. Volledige bewustzijn is dan weer een ander verhaal. Huidige AI's kunnen mooie antwoorden schrijven, maar echt bewustzijn onderscheid zich door mooie vragen te kunnen stellen.

[Reactie gewijzigd door vinesto op 13 maart 2025 13:15]

Nog eerder, de Jetsons.
Daar was ook een aflevering van (test)robots met foutjes.
Google stelt dat ze bezig zijn met veiligheidswetten. Ik vraag mij wel af hoe dat te combineren is met militaire toepassingen? Ik kan mij voorstellen dat het leger buitengewoon geïnteresseerd zal zijn in de AI ontwikkelingen specifiek voor robots.
Ze zijn al bezig om de robothonden te trainen om drones uit de lucht te detecteren en neerhalen.
https://www.armyrecogniti...gs-in-anti-drone-training
Op schepen had je dit al voor raketten.
Dit gaat een stuk verder terug dan je zou denken: in 1979 bestond Goalkeeper CWIS al, een Nederlands stuk radargeleide luchtafweer voornamelijk voor schepen. Dat systeem kon toen al volledig automatisch finctioneren; het kon doelwitten detecteren, prioriteiten maken welk doel het belangrijkst/gevaarlijkst was, en vervolgens neerhalen zonder menselijke tussenkomst.

Toen was het nog niet zo eng omdat het voornamelijk bedoeld was tegen raketten/bommen/straaljagers op zee, ver van bewoonde gebieden. Maar die techniek komt nu steeds meer richting het slagveld zelf waar ook burgers kunnen rondlopen, en dat baart mij wel grote zorgen.
Nu was ik al bezig om Cassandra (zie Netflix serie) in huis te halen via Home Assistant, maar nu mot ik ook nog op zoek naar een robot haha.
Dan zou je “better than us “ moeten kijken.
Ik gebruik nu al een tijdje gemini advanced en het redeneert super goed

Op dit item kan niet meer gereageerd worden.