AI-agent van Nvidia schrijft 'betere reward algorithms dan die van mensen'

Nvidia Research heeft vrijdag zijn nieuwe AI-agent Eureka onthuld. Deze heeft robots onder meer geleerd hoe ze lades moeten openen en scharen moeten gebruiken. Ook heeft het een robothand geleerd hoe het complexe behendigheidstrucjes kan uitvoeren met een pen.

De AI-agent maakt gebruik van GPT-4 en generatieve AI om code te schrijven voor robots die reinforcement learning toepassen, schrijft Nvidia Research. Het bedrijf zegt dat Eureka onder andere robotarmen en robothanden heeft geleerd om dertig verschillende soorten taken uit te voeren. De reward algorithms van de AI-agent zijn 80 procent effectiever dan die geschreven door menselijke experts, schrijft het bedrijf. Hierdoor zijn de prestaties van de robots met ruim 50 procent verbeterd. Daarnaast evalueert Eureka zichzelf op basis van trainingsresultaten en kijkt hij naar eventuele veranderingen in het beloningssysteem. Nvidia Research heeft een bibliotheek met de Eureka-algoritmen en het onderzoek gepubliceerd.

In een korte video laat Nvidia een simulatie van een robothand zien die op verschillende manieren een pen hanteert, die dat volgens Nvidia 'net zo goed doet als een mens'.

Door Loïs Franx

Redacteur

20-10-2023 • 16:35

44

Reacties (44)

44
44
11
0
0
20
Wijzig sortering
Het gaat nog heel lang duren alvorens een robothand dit in Real Life kan nabootsen.
Dergelijke 'trucjes' zijn dermate subtiel qua fijne motoriek dat zelfs een menselijk brein / lichaam er soms moeite mee heeft om zoiets aan te leren.
Maar hersenen zijn er fysiek gezien (in een lichaam zonder ongewenste aandoeningen) juist volledig voor gemaakt om zulke dingen wel goed te kunnen leren.

Als je iets leert dan versterk je de verbindingen tussen synapsen en wat niet goed gaat dat verslapt na verloop van tijd omdat je het niet gebruikt, zodat je waarschijnlijk (heel erg versimpeld) de juiste motoriek overhoudt.

Dit soort software doet in principe ongeveer hetzelfde. Maar dan in minder tijd, dus waarom je aan lijkt te nemen dat dit speciaal gedrag is ontgaat mij helaas een beetje.

Tenzij je doelt op de hardware. Daar kan vast inderdaad nog het nodige verbeterd worden.

[Reactie gewijzigd door Stukfruit op 23 juli 2024 04:13]

Een robothand in real-life is per defenitie hardware.
Het is beide, de hardware doet niks (goeds) zonder software en andersom net zo min.

Als de software fouten maakt, lukt het niet, als de hardware fouten maakt lukt het ook niet...
Dergelijke 'trucjes' zijn dermate subtiel qua fijne motoriek dat zelfs een menselijk brein / lichaam er soms moeite mee heeft om zoiets aan te leren.
Stap 1 is motorsturing. Dat gaat blijkbaar zeer vlot. AI gaat dat nu al beter kunnen als een menselijk brein.

Stap 2 van ‘motoriek’ zijn de actuators zoals motoren en mechaniek ontwikkelen die de aansturing kan omzetten naar echte (veilige) bewegingen. Ook de sensorinput van onze aanraakingsgevoeligheid nabootsen is lastig. Net daar knelt het schoentje.

We staan ver met artificiële intelligentie (zeker als het over deelaspecten gaat zoals dit voorbeeld) maar als het over artificiële motoriek gaat die spieren nabootst staan we nog niet zo ver.

Spieren zijn zacht en flexibel en kunnen naar kracht leveren ook impact absorberen. Een tandwielaandrijving met elektromotor is star. Als je botst is dat hard, het geeft niet mee = harde robotica.

Stel je steekt uw vinger tussen zo’n robotvinger die hevig met die pen aan het draaien is dan breekt uw vinger. Doe dat bij een mens en je voelt dat amper.

Er is natuurlijk al wel veel onderzoek gedaan naar fijne en veilige/zachte artificiële motoriek (zachte robotica) dus ik verwacht wel dat de komende 10 jaar wel belangrijke doorbraken komen omdat we grote AI stappen maken bij de aansturing.
Wanneer ik die filmpjes bekijk die hieronder worden beschreven door @Alxndr zie ik inderdaad dat de hele robot een aanraakgevoelige wrap nodig heeft... bij voorkeur met gradaties zoals de lekker switches van wooting 🙂

[Reactie gewijzigd door UUasmont op 23 juli 2024 04:13]

Klinkt alsof je te weinig op YouTube etc zit. ;) Lopen, rennen, dansen met of zonder saltos kunnen ze al. En een pingpong balletje laten stuiteren/balanceren kunnen ze ook al een stuk beter dan ik (en jij?)

OK, dit lijkt me een stapje verder, maar die filmpjes die ik noem zijn ook al jaren oud - en als het in een simulatie kan...

Dat mensen beter zouden zijn in subtiele fijne motoriek is al jaren achterhaald, ik snap oprecht niet waar je dat vandaan haalt. Heb je gemist dat chirurgen tegenwoordig juist om die reden robots gebruiken?
Je bedoelt dat de chirurg de opdracht geeft: "snij die 2 aders maar door (die ene daar achter niet), brandt ze vervolgens dicht, haal daarna dat stukje weefsel weg en sluit de wond. Doe dat maar, dan ga ik een bakkie doen, tot over een kwartier"?
Komt die chirurg na een kwartier terug om te zien dat de robot koffie heeft gezet in het ondertussen overleden lichaam...
Nee, dat soort instructies worden niet in twee zinnen doorgegeven. Zoveel lijkt me wel duidelijk. Heb je dit gezien? https://storage.googleapi...asets_and_RT_X_Models.pdf hier wat meer context https://www.youtube.com/watch?v=GZdytTKeGYM
Ik kan nog wel winnen met ping-pongen denk ik.. :P
Ik denk dat het een stuk sneller gaat dan jij denkt.
motorisch is het probleem al opgelost, alleen sensorisch zal er zich fysiek nog een probleem stellen, want wat niet door camera's gezien kan worden zal enkel door drukpunten en de kennis van de geometrie van het volledige object kunnen worden opgevangen. Die eerste categorie is nog heel beperkt tov huid en de 2e kan onvolledig zijn.
Schaken is ook subtiel en lastig voor het menselijk brein. Dat punt is AI toch ook snel gepasseerd.
Een gesimuleerde hand die dus trucjes uitvoert met een virtuele pen...

Sorry, maar dat maakt een clickbait titel, vind je ook niet @LFranxWind ?

Dat een AI een zelf betere code schrijft die aantoonbaar beter is dan menselijke code is nieuwswaardig genoeg en daar zou de focus op moeten liggen IMHO.
Fair enough. Het dekt de lading ook niet helemaal. De titel is inmiddels aangepast. Bedankt voor de feedback :)
Wat krijgen we nou - iemand krijgt kritische feedback en geeft vervolgens toe dat dat beter kan, en levert daarnaast ook boter bij de vis door correcties door te voeren?? ;-) Vooral dat laatste is erg zeldzaam. Ik wist niet dat het nog bestond. Thumbs up voor die mentaliteit.

[Reactie gewijzigd door Znorkus op 23 juli 2024 04:13]

Dit is tweakers, inderdaad
Nou ja, als ik echt denk dat ik een valide punt heb zoals hier (en het me, voor de verandering, lukt dat zo neutraal mogelijk te verwoorden) neem ik altijd de vrijheid de auteur te taggen.

Hoewel niet helemaal volgens de regels, wordt dat tot nu toe toch altijd gewaardeerd en meestal de nodige aanpassingen gemaakt.
Als je via forum: Geachte redactie goede feedback levert op een artikel dan wordt er altijd iets mee gedaan.
Reinforcement learning. ;)
De reward algorithms van Tweakers zijn 80 procent effectiever dan die uitgedeeld door de gemiddelde consument, waardoor sneller verbeteringen aan de artikelen worden doorgevoerd. :)
Digital twins van robots, andere aparatuur of zelfs hele gebouwen, fabrieken en assemblage lijnen is juist hoe ze dat testen ;)
Mooi in een fabriek, maar ook de reden dat het nog altijd vrij houterige bewegingen zijn in de praktijk. Houdt de simulatie rekening met hoe je lagers en gewrichten zijn ingelopen en de fluidomechanica van deze bewegingen in de lucht?
Als je deze gesimuleerde bewegingen in de praktijk laadt, kan het nooit werken. Daar zijn de bewegingen te complex voor, en de tolerantie te nauw.
Je kunt het systeem robuust maken voor zulke factoren door hiervoor te generaliseren, dmv het simuleren van een heleboel variaties van de genoemde parameters. Je kunt ruis toevoegen om complexiteit te "faken". Het trainen op heel veel synthetische data is een bewezen effectieve methode om te bereiken wat jij beweert dat onmogelijk is.
Ik begrijp wat je bedoelt denk ik. Bv de boston dynamics robots die reageren op "ruis" als een duwtje of een pakketje dat ze oppakken? Maw praktijk wijkt ietjes af van voorspelde waarde en AI stuurt correct bij, op basis van vergelijkbare afwijkingen in simulatie waarin het model de situatie met trail en error heeft kunnen oplossen.
Interessant maar toch sceptisch over hoe dit in de praktijk uitdraait.
Die animatie van een robothand en een pen is wel een goed voorbeeld. Die hand bestaat in het echt, en kan Rubik's kubussen oplossen. En omdat hij eerst in een gesimuleerde omgeving geoefend heeft, kan hij dat ook met een rubber handschoen aan, en met 2 vingers bij elkaar gebonden, etc.
Onderzoek van openAI uit 2019.
Ik was ook sceptisch in het begin ;)
Fysieke robots werken ook met simulaties om te berekenen waar ledematen naartoe moeten.

Dat is juist de hele reden waarom dit soort dingen tegenwoordig mogelijk zijn :p
Maar een simulatie wordt toch gevolgd door de praktijk, wat is anders het doel?

Ik dacht we krijgen iets gaafs te zien zoals die dansende robots van Boston Dynamics. Dus vandaar dat ik me geclickbaited voelde.
Het doel is om een generieke agent te ontwikkelen waarmee verschillende robots getraind kunnen worden. De exacte performance van de getrainde robot in de echte wereld is belangrijk natuurlijk, maar het gaat echt om de methode zelf. Het vinger trucje is dus ook niet zo belangrijk, het is gewoon een schowcase. Overigens komen dit soort fysische simulaties aardig overeen met een laboratorium omgeving dus zo heel groot zijn de verschillen niet.
Fysieke robots werken met hele stijve assen en strakke toleranties. Dit touwtjes-gebaseerd besturen van een hand zoals een mens dat doet met zijn spieren is vele malen complexer en vereist veel "instinctieve" correctie. Ook zijn er in de echte wereld een tal van factoren die in de simulatie niet voorkomen. De humanoid robot van Boston Dynamics valt ook nog om de haverklap om buiten hun promo videos
Klopt, en er moeten ook correcties worden doorgevoerd per joint omdat het ene onderdeel voor de andere voor extra buiging kan zorgen. Zeer interessant spul omdat het dingen een nog grotere uitdaging maakt :)

Tijdens het schrijven van dit bericht was ik eigenlijk op zoek naar een video die ik hierover eens heb gezien op YouTube, maar ik kan 'm echt niet meer vinden. In de betreffende video werd dit goed uitgelegd. Het ging over een systeem waarbij robotarmen werden gebruikt om vanuit een grote metalen plaat producten te "stansen", maar dan in drie dimensies en met een rotatie op de hoeken (waardoor het nog moeilijker werd). Was mooi om te zien.

Mocht iemand weten waar ik het over heb: post 'm even :P

[Reactie gewijzigd door Stukfruit op 23 juli 2024 04:13]

@Stukfruit bedoelde je de video over Roboforming van Smartereveryday? Interessante toepassing van robotarmen voor industriele doeleinden;)

Edit, Hierbij link: https://youtu.be/Jc16Ob-yoDs?si=6l1nkGERUOtYDAfp

[Reactie gewijzigd door phytorank op 23 juli 2024 04:13]

Maar er is dan ook weinig verschil tussen een simulatie en werkelijkheid, in dit geval. De simulatie draait puur op sensor gegevens, en dat is dan dus identiek aan werkelijkheid. Het is sowieso een goede start, die dan in de praktijk automatisch verder verbetert wordt. Zo leren mensen ook veel zaken, alleen de mens leert dan tich keer trager.
En zie hier het einde van het beroep "Programmeur". Gelukkig is dit voor AI makkelijker te doen dan een vrachtwagen besturen of een fiets repareren, zodat dure banen makkelijker en sneller uitbesteed kunnen worden aan AI dan goedkopere banen die handwerk vereisen.

/sarcasm met een vleugje serieus.
Prompt engineers zijn de nieuwe programmeurs?

Het enige wat overblijft zijn juist creatieve beroepen, want het enige wat ze niet kunnen is 'out of the box denken' en met originele ideeen komen. (maar dat was het sarcastische gedeelte toch?)
In tests die ontwikkeld zijn om menselijke creativiteit te testen laat bepaalde AI (ik geloof GPT) inmiddels de ruime meerderheid van de menselijke breinen achter zich. En prompt engineering kunnen ze ook al beter.

Ik wil er graag iets constructiefs tegenover zetten over wat mensen dan wel met hun vrije tijd, behoefte aan zingeving en geldnood moeten doen maar ik kan even niks bedenken. Misschien dat een superintelligent systeem daar iets op weet.

PS Je bedoelt "outside the box", maar ik snap het evengoed :)
De misvatting is dat heel veel mensen hier wel goed in zijn. Dat valt vies tegen.

Trends volgens wordt verward met creativiteit.
Generatieve AI is minder "creatief" dan de mensheid (de AI heeft geen kennis van de individuele levenservaringen die menselijke creativiteit inspireren) maar de creatieve uitingen van de AI zijn gebaseerd op het internet en het internet is reen reflectie van wat populair en dus waardevol is. Dit betekent dat de AI meer geneigd is om commercieel relevante output te genereren, en dus de mens voorbij steekt op het vlak van creativiteit.

Overigens kan een AI ook beter prompt engineeren dan een mens.
Code schrijven is een middel en geen doel op zich. Computers waren dusdanig primitief en onhandig in het gebruik dat je een leger typisten nodig had om ermee te werken. Dit probleem is nu opgelost.
Een AI die een AI maakt. And so it started.... :+
29-8-1997; de dag dat Netflix is opgericht.
Ik graaf alvast voor mijn bunker.
Ik leer m’n AI alvast hoe een bunker te graven en bouwen.
Kan hij tot het nodig is zichzelf leren hoe het proces te verbeteren en te versnellen.

Op dit item kan niet meer gereageerd worden.