Google Deepmind heeft het AI-model Robotic Transformer 2 getoond, waarmee het mogelijk moet zijn om taalcommando's te vertalen naar specifieke handelingen voor robots. Het bedrijf noemt dit het eerste 'vision-language-action'-model.
Volgens Google maakt RT-2 net als taalmodellen gebruik van data van het internet om tekstcommando's te begrijpen en om te zetten in specifieke robotacties. Het bedrijf stelt dat robots trainen tot dusver zeer complex was en miljarden datapunten vereiste. Ook bij Googles eerdere robot-AI-modellen, zoals RT-1 en PaLM-E, had de robot nog veel specifieke data nodig om concrete acties uit te kunnen voeren.
Om de robot bij eerdere modellen, bijvoorbeeld, afval weg te laten gooien, moest deze expliciet getraind worden om afval te kunnen identificeren, op te kunnen pakken en weg te kunnen gooien. Het nieuwe model zou de robot echter met een kleine hoeveelheid trainingsdata al zulke acties kunnen laten uitvoeren, ook als deze nooit expliciet op dergelijke handelingen is getraind. Hiervoor maakt het model gebruik van afbeeldingen uit een groot corpus van webdata om te begrijpen wanneer iets als 'afval' bestempeld kan worden.
Google heeft het nieuwe robotmodel getest met 'meer dan' 6000 verschillende taken. Bij taken die expliciet voorkomen in de trainingsdata presteert het nieuwe model net zo goed als het RT-1-model, stelt Google. Maar bij nieuwe, onvoorziene scenario's zou het succespercentage bijna verdubbeld zijn; van 32 procent bij RT-1 naar 62 procent bij RT-2. Volgens Google is er desondanks nog zeer veel werk vereist voordat robots behulpzaam kunnen zijn in mensgerichte omgevingen.