Google-onderzoek laat ai eigen voortbewegingstechnieken ontwikkelen

Wetenschappers van Googles Deepmind-onderzoeksafdeling voor kunstmatige intelligentie hebben een onderzoek gepubliceerd naar manieren om ai te 'belonen'. Hiertoe gebruiken ze een complexe omgeving, waarin de ai zijn eigen manier van voortbeweging moet bedenken.

De wetenschappers hebben hoogtepunten van hun onderzoek gepubliceerd in de vorm van een video. Daarin is te zien hoe een onuitputtelijke agent zich in verschillende omgevingen voortbeweegt, vaak op uiterst creatieve manieren. Er zijn verschillende modellen ontwikkeld. Zo is er de planar walker, die het meeste wegheeft van een paar benen zonder torso. Er zijn ook een soort vierpotige spin en een humanoïde. Elke verschijning heeft weer effect op de gekozen techniek, onder meer doordat de complexiteit andere mogelijkheden biedt.

Zo is in de video te zien dat de agent leert springen, bukken en klimmen. Uiteraard zit er ook een doel achter de soms komische vertoning. De onderzoekers willen aantonen dat het niet altijd nodig is om een zorgvuldig gekozen beloning voor zelflerende systemen te bedenken bij reinforcement learning. In hun onderzoek hebben ze ervoor gekozen om de beloning te definiëren als 'voorwaartse vooruitgang', of eigenlijk 'zo ver mogelijk vooruitkomen'. Ze willen demonstreren dat een complexe omgeving ook kan leiden tot complex gedrag zonder dat daar een ingewikkelde beloning voor nodig is.

Helaas!
De video die je probeert te bekijken is niet langer beschikbaar op Tweakers.net.

IT-banen

Reacties (29)

wewa 10 juli 2017 15:58

Doet me denken aan een onderzoek van een paar jaar geleden - youtube linkje . Daarvan zijn de modellen iets anders, maar volgens mij de basis hetzelfde; machine learning gebruiken om vanaf een willekeurige initialisatie tot een oplossing te komen die vooruitgang garandeert.

Een leuk onderzoeksveld, zou gaaf zijn om deze algoritmes goed genoeg te krijgen voor in spelletjes.

Vanuit de robotica is hier ook altijd interesse voor, hoewel het moeilijk is om een robot te laten leren omdat ze slecht tegen vallen kunnen - Youtube filmpje van een lerende robot. en linkje naar relevant artikel.

[Reactie gewijzigd door wewa op 8 augustus 2024 19:37]

unglaublich 10 juli 2017 16:10

Dit bestaat al sinds 1995 en is honderden keren gedaan, ook met eenvoudige cost functies zoals de totaal verbruikte energie. Begrijp me niet verkeerd maar er zijn al veel interessantere resultaten geboekt dan dit voorbeeeld.

[Reactie gewijzigd door unglaublich op 8 augustus 2024 19:37]

Flipull @unglaublich • 10 juli 2017 16:17

Nou, het gaat er om of simpele beloningsfuncties genoeg zouden zijn voor zeer complexe AI ontwikkeling...

Misschien was dat antwoord ook al aangenomen als waar*, doch blijft het een leuk onderzoeks-onderwerp

*modellen gezien zo simpel als google's voorbeeld:

vang zoveel mogelijk zonlicht op
Overleef (Polyworld)
Loop rechts (MarI/O)
Maximalizeer RAM-inhoud (Suckerpinch's NES AI)

[edit]
Past eigenlijk wel in het licht van Q-Learning, een actie-keuze-model waarin reeksen van acties geleerd moeten worden, voor er een beloning komen zal.
In dit verhaal, moet de robot veel spiertjes leren te gebruiken om te leren wat liggen, staan en lopen in houd. Onmensenlijke taak eigenlijk

[Reactie gewijzigd door Flipull op 8 augustus 2024 19:37]

freaq @Flipull • 10 juli 2017 19:25

naja zo anders is dat ook niet hoor:
http://www.goatstream.com/research/papers/SA2013/

dit is ook al 3-4 jaar oud en gebruikt een neural netwerk om spieren aan te sturen.

maargoed de combinatie met de "visuele identificatie" van en planning om een zekere actie te doen is wel indrukwekkend.

[Reactie gewijzigd door freaq op 8 augustus 2024 19:37]

bbob

Kunstmatige intelligentie

@unglaublich • 10 juli 2017 17:38

Het enige dat mij stoort aan deze video is dat er wordt gekeken met 1 snelheid, lijkt zo snel mogelijk, waardom geen adaptieve snelheid om misschien is dat een volgende fase in het leerproces.

Kurai Hoshi @unglaublich • 10 juli 2017 17:08

1994 zelfs..
https://www.youtube.com/watch?v=bBt0imn77Zg

Vandro @Kurai Hoshi • 10 juli 2017 17:12

Onderschat het verschil niet tussen simpel voortbewegen in een heel simpele omgeving (lopen, zwemmen OF recht omhoog springen) en een complexe omgeving (lopen, springen over opstakels en bukken tegelijkertijd).

ZpAz

@Vandro • 10 juli 2017 17:40

Het concept is denk ik niet echt wezenlijk verschillend. Hoe het met de meeste werkt is een score bijhouden van "afstand" en gewoon "random bewegingen" maken. Je probeert de bewegingen te vinden waar de score het hoogste is, door te variëren op de voorgaande probeersels die hoge punten haalden.

Je kan de computer dan voor elk obstakel apart laten trainen en deze resultaten gebruiken in de gehele "course".

Vandro @unglaublich • 10 juli 2017 17:01

Met het grote verschil dat (zover ik kan zien) de voorbeelden in jouw link leren van een model, i.p.v. end-to-end.

Slaut 10 juli 2017 15:51

Doet me hier aan denken:
https://www.youtube.com/watch?v=xOCurBYI_gY
Mario en andere NES spellen gespeeld door AI, waar ook de 'beloning' voor de AI de vooruitgang is.

Kingeling 10 juli 2017 15:46

Hilarisch om die humanoids te zien navigeren over en rond de obstakels...hahaha. Uiteraard een bijproduct van de eigenlijke test, maar daarmee niet minder grappig

gold_dust @Kingeling • 10 juli 2017 16:12

Dit soort onderzoek is al heel oud, hier is een paper uit 1994 (!) waarin virtuele wezens leren lopen. Vrij bizar dat Google dit als innovatief presenteert en ook dat de journalistiek dit als hapklare brokken overneemt zonder eerst verder onderzoek te doen.

Veel van wat Google claimt uitgevonden te hebben is al lang geleden ergens ontwikkeld waarbij ik van een advertentiebedrijf dat probeert een technologiebedrijf te zijn eigenlijk ook niets anders zou verwachten.

Lapa @gold_dust • 10 juli 2017 16:47

Wat googles AI onderzoekers hier interessant en innovatief aan vinden is niet het leren lopen zelf, maar de manier waarop de AI getraind wordt (met een simpele beloning "vooruitkomen = goed").

Dat het in de media komt vanwege grappige filmpjes doet daar niks aan af en komt ongetwijfeld door een samenspel tussen de media en de marketingafdeling van Google.

Of dit precieze stukje onderzoek nou echt baanbrekend is, kan je over twisten, maar vergis je niet, de AI afdeling (Deepmind) van "advertentiebedrijf" Google is echt een voorloper en staat zeker in de top 5 van meest vooruitstrevende AI-ontwikkelaars. Waarschijnlijk nog hoog ook, ook al is dat niet 100% objectief te bepalen. Deepmind is overigens ook maar gekocht door Google, maar wel vanuit een sterke interne drang van de top van het bedrijf om echt fundamenteel AI onderzoek te doen.

[Reactie gewijzigd door Lapa op 8 augustus 2024 19:37]

DigitalExorcist 10 juli 2017 15:43

Zoals die mensachtige figuurtjes zie ik ook altijd lui langskomen die uit 't café komen zondagochtend.

Boy @DigitalExorcist • 10 juli 2017 16:03

oh wat erg, ik moest gewoon hardop lachen hier om deze comment

jammer dat er geen +1 grappig moderatie meer is...kunnen we geen 'duimpje' hier krijgen zoals op het forum als je een comment waardeert?

NTwoO @DigitalExorcist • 10 juli 2017 16:28

Idd. Wat studentenhumor. Het is natuurlijk de DOF aantal wat daar gewoon wat lastigheid met zich meebrengt. Alcohol voegt immers ook wat "randomisation" toe aan de DOF wat normaliter zo gecoördineerd is tijdens het lopen bij mensen.

Kurgan @DigitalExorcist • 10 juli 2017 19:59

Ik dacht eigenlijk meteen hieraan.

K.Vriend 10 juli 2017 15:50

Next gen QWOP of headcrabs

.

Het zou gaaf zijn om modellen als dit in Unreal Engine te hebben.

[Reactie gewijzigd door K.Vriend op 8 augustus 2024 19:37]

Zezura @K.Vriend • 10 juli 2017 16:41

In gaming, Neuraal netwerk AI bestaat en is een vergelijkend model, waarbij er een kost bate aspect word gebruikt inplaats van een simpel switch statement Met condities. Dit verbeterd de AI waarbij het meestal niet meer voorkomt dat een AI bijvoorbeeld in een bepaalde modus blijft hangen of vreemde handelingen doet.
Ik heb zelf de lectures niet gevolgd over neural network AI. Maar wel wat van mee gekregen. Deze techniek is en wordt de nieuwe standaard binnen Game development. Games moet het wel realtime draaien.

Castor385 10 juli 2017 15:50

Lijkt wel een beetje op QWOP

Jorgen Moderator Beeld & Geluid 10 juli 2017 15:53

Soms lijken ze ook gewoon motorisch gestoord. Hoe lang zou het duren voor dat ze met hun bewegingsmogelijkheden een optimale vorm van bewegen gevonden hebben? Neem nu die "spin". Die rende met 1 poot naar voren en 1 naar achteren en 2 aan de zijkant, alsof hij met sommige poten kon lopen en met andere alleen kon "sturen en lichte sprongen kon maken". In het filmpje ervoor liep hij bijna zoals een hond of kat zou rennen, met de poten 2-aan-2. Dat zag er niet alleen natuurlijker uit, maar liep ook veel vloeiender.

- peter -

10 juli 2017 17:06

Ik snap ook nog altijd niet waarom men dit soort AI toepassingen niet in game engines stopt? Train een class/character en de animaties zijn een stuk vloeiender en logischer.

Al zien de animaties in dit filmpje er wel erg slecht uit. Er was een tijdje geleden ook een stuk betere: https://www.youtube.com/watch?v=pgaEE27nsQw

[Reactie gewijzigd door - peter - op 8 augustus 2024 19:37]

kozue @- peter - • 10 juli 2017 18:21

Omdat een game nog veel meer in real time moet doen dan alleen de beweging van 1 npc uitrekenen. Dit kost een hoop processorkracht.

gaurdian 10 juli 2017 17:46

Ben benieuwd wat er gebeurd als je een 'pijn' factor toevoegt (strafpunten als er iets anders dan voeten wordt geraakt). Ik denk dat je dan behoorlijk dicht in de buurt komt van menselijk lopen!

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (29)

Sorteer op:

Weergave: