Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Google toont hoe DeepMind Quake III Arena leert

DeepMind, het zusterbedrijf van Google dat werkt aan kunstmatige intelligentie, heeft een paper gepubliceerd waarin het uit de doeken doet hoe het bots heeft getraind die zelfstandig en zonder enige uitleg Quake III Arena leren spelen.

DeepMind heeft bots, agents noemt het bedrijf ze zelf, gemaakt†die geleerd hebben hoe ze Capture the Flag kunnen spelen, een van de spelvormen in Quake III Arena, de shooter die id Software in 1999 afleverde. De agents krijgen vooraf geen uitleg over de regels, maar presteren inmiddels zo goed dat ze zich kunnen meten met goede menselijke spelers.

DeepMind wilde het de bots bovendien extra moeilijk maken en ontwikkelde voor het onderzoek een tool die random maps kan genereren voor Capture the Flag, zodat de zelflerende agents niet kunnen vertrouwen op mapkennis. Bovendien werden de agents zo gemaakt dat ze enkel reageren op visuele informatie, niet op andere gamedata. Ze kunnen dus niet door muren heen kijken, zoals sommige bots die door gameontwikkelaars zijn gemaakt.†De makers wilden bereiken dat de bots de regels van het spel leerden begrijpen.†Bovendien wilden ze dat de bots leerden om zowel in een groep samen te werken als tegenstanders te bestrijden. Dat is wonderwel gelukt. De agents ontwikkelden zelfs erkende menselijk strategieŽn,†zoals campen in de vijandige basis, het verdedigen van de eigen basis en het begeleiden van de vlagdrager.

Hoewel de agents vooraf geen uitleg kregen over de regels, leerden ze al snel†het concept van de spelvorm doorgronden. Zo vonden de medewerkers van DeepMind neuronen in de code die werden geactiveerd†als de eigen vlag werd gestolen of als een teamlid van een agent de vlag van de vijand vasthad. De agents presteerden niet alleen goed in de de game, hun bijdrage werd ook hoog gewaardeerd door menselijke spelers. In een evaluatie na afloop van een aantal†gemengde potjes, waarin agents en menselijke tegenstanders samenspeelden, werd de bijdrage van de agents hoger aangeslagen, omdat ze beter zouden samenwerken.†DeepMind deed al eerder onderzoek naar bots die leren om StarCraft II te spelen.

Door Paul Hulsebosch

Redacteur games

04-07-2018 • 10:32

55 Linkedin Google+

Reacties (55)

Wijzig sortering
Dat is toch een schietspel? Hoe is dit niet waanzinnig beangstigend?! Dit houdt dus in dat Deepmind even makkelijk kan leren oorlog te voeren. Want het lijkt mij niet, dat het wezenlijk uitmaakt of de intelligentie het virtuele karakter in het spel gestuurd of een robot/drone met inputs uit de echte wereld.
Deze wordt op een andere manier ontwikkeld dan bestaande bots, maar het principe van een bot in een schietspel is helemaal niks nieuws. En die porten we ook niet even naar een combat drone, dat is een compleet andere situatie. Ook de manier waarop zo'n AI het leert zou wellicht voor oorlogs drones gebruikt kunnen worden om hun gedrag te verbeteren, maar je kan ze niet vanaf nul het zichzelf gaan laten aanleren. Nogal veel schade, collateral damage, etc ;).

Overigens verbaasd het mij dan toch dat deze niet meer kan dan zich meten met een goede menselijke speler. Ze moeten toch ene na andere headshot plaatsen? Zelfs een bot die compleet random rondrent maar wel een perfecte aimbot erbij heeft zou het al behoorlijk redelijk moeten doen. Eentje die weet dat hij de vlag moet volgen zou een automatische win moeten zijn lijkt mij. Of kunnen deze bots niet geweldig mikken? Maar dan is de vraag waarom, immers zou dat wel het makkelijkst moeten zijn voor een algoritme om te leren.
Deze AI heeft enkel het 'beeldscherm' als input, net als menselijke spelers. Het is dan toch een stuk lastiger om perfecte headshots te plaatsen of 'instant' te reageren denk ik. De informatie moet eerst verwerkt worden. Bij multiplayer wordt dit nog verergerd door de onvoorspelbare latency.

De aimbots van weleer hadden altijd direct toegang tot de game data: CoŲrdinaten van het hoofd, latency, snelheid van het hoofd, snelheid van de kogel, etc. En dan nog was het niet altijd 100% raak.

Maar vermoedelijk zullen deze bots inderdaad een aantal beperkende factoren hebben. Misschien een limit op de turn speed of een random precision.
Volgens mij is input lag/reactietijd ook voor die bots een 'ding'. Ze moeten dus ook (virtueel) de toetsen indrukken en de muis bewegen bijvoorbeeld.
maar je kan ze niet vanaf nul het zichzelf gaan laten aanleren. Nogal veel schade, collateral damage, etc
Dat valt wel mee. Ja, veel schade aan kartonnen huizen enzo.
Vergeet ook niet dat het geleerde naar alle andere drones gekopieerd kan worden.
Verder beginnen ze met wat basiskennis.
Marketing-technisch heeft Google de afgelopen jaren zijn marketing machine goed bijgeschaafd.


De grote vraag die gesteld kan en mag worden is of in casu deepmind wel zo deepmind is,
https://code.google.com/archive/p/quake3-brainworks/


Het is een truukje dat ze ook hebben uitgehaald met Android, en persoonlijk vertouw ik Google niet met dit soort ‘successen’. Er wordt niet nieuws bedacht maar iets ouds opnieuw uitgebracht met betere middelen in een ander jasje.


Als Google lef heeft maken ze het open-source.
Dat is wat evolutie is toch en daarmee een verbetering?
Wat heeft dat met lef en open-source te maken? Enkel omdat jij nieuwsgierig bent om te weten hoe ze het doen? Dat is Google vanzelfsprekend niet verplicht, ook niet moreel gezien.
maar je kan ze niet vanaf nul het zichzelf gaan laten aanleren. Nogal veel schade, collateral damage, etc
Dmv zelf-leren in een virtuele omgeving zoals in de video, komen ze al een heel eind, zonder collateral damage, etc :)
> Dit houdt dus in dat Deepmind even makkelijk kan leren oorlog te voeren.

Via Machine Learning is patroonherkenning relatief eenvoudig te combineren met repetitieve handelingen.

Het is aan de overheden van deze wereld, om te zorgen dat dit soort techniek niet wordt geÔmplementeerd al-la "Terminator style". Of dit gaat lukken betwijfel ik, aangezien zowel de USA als China behoorlijk investeren in AI op het gebied van oorlogsvoering en beveiliging.

Bron: http://www.atimes.com/art...ake-the-us-in-ai-warfare/

Anderzijds kan je stellen dat het een betere wereld is, wanneer machines geautomatiseerd elkaar opblazen voor onze oorlogen. Want wanneer er AI wordt gebouwd met mensen als doel, wordt er waarschijnlijk ook AI gebouwd om mensen te beschermen / andere Machines vernietigen.
Dat klopt.
Het is technisch mogelijk Deepmind of iets gelijkaardigs, virtueel te laten trainen om dan in het echt in te zetten. Zo zou je bvb een leger van tienduizenden of meer drone vliegtuigen kunnen laten besturen om een land uit te roeien.
Hoe ga je ze de leerervaring geven? Het aantal vlieguren wat een bot nodig heeft is nog steeds vele malen groter dan een mens.
Daarnaast zijn oorlogssituaties inherent hectisch en extreem dynamisch en daardoor niet a priori geschikt voor AI.
Wat je ziet is dat in spellen met zetten, AI inmiddels mensen kan verslaan, zonder al teveel moeite zelfs. Voor continue data werkt dat heel anders en is de divergentie in je model veel groter. Toch is dat wel belangrijk. Google gebruikt hier nu een schietspel, maar de centen voor Google zitten vooral in de toepassingen in de systeem en regeltechniek in de infrastructuur hoek. Autonome autobesturing, electricitetisopwekking. Het maakt namelijk niet uit wat een robot leert, AI gaat over hoe je het leerproces vorm kunt geven en daarbij kun je ieder spel pakken wat veel gespeeld wordt, en waarbij de ontwikkelaar bots niet direct uitbant.
"Het aantal vlieguren wat een bot nodig heeft is nog steeds vele malen groter dan een mens."
Klopt, maar een mens kan slechts een x aantal uren per dag geconcentreerd bezig zijn. Een bot kan 24/7 ervaring opdoen. Daarnaast kunnen meerdere bots tegelijk data / ervaring uitwisselen. Iets wat mensen slechts deels kunnen.
En kennis bij bots is makkelijk uitwisselbaar, waar elke mens weer opnieuw moet beginnen met trainen. Je kunt slechts scholing bij-'programmeren' via boeken, dus ook nog een hele lage informatiedichtheid (lezen gaat veel langzamer dan digitale machine-to-machine interfaces)) en met mogelijk slechte sectoren (mensen vergeten).
Dan nog - Voor een partijtje Go - een zettensysteem, had deepmind 5 seconden per zet, en een best cluster om mee te leren. Het originele artikel rept niet over de leertiijd die erin gestoken is, dus daar is men niet al te trots op, anders was het wel vermeld (aanname). In een dynamische wereld gaat het aantal "zetten" naar oneindig en is er dus nog veel meer nodig voor. Daarom ook dat ik aangeef dat het vooral het leren is waarin google geinteresseerd is, en niet direct de oorlogstoepassing.
Hoe ga je ze de leerervaring geven? Het aantal vlieguren wat een bot nodig heeft is nog steeds vele malen groter dan een mens.
1 vs 1 wel, maar 100 vs 100 niet, er hoeft maar 1 bot data op te halen die het aan de 99 kan uploaden (zelfs onder het vliegen), bij mensen moeten er dan 100 getraind worden.
Plus, als die bot opgeblazen wordt, heb je data tot aan het 'overlijden'. Dus de 2e aanval zou die voorgaande move kunnen verbeteren.

Yep. "Terminator", de Incredibles-bots uit deel 1 zijn eigenlijk gewoon sneak previews van wat je kan verwachten over X aantal jaren :)
Doet me erg denken aan de aliens uit de film Edge of Tomorrow.
Het boek "All you need is kill" diende als inspiratie voor die film, trouwens. Leest stukken beter zonder het Amerikaanse er zo vingerdik op.
Dat aantal vlieguren kunnen ze natuurlijk perfect in simulatie doen. Alleen die simulatie nog een beetje verbeteren.
Het maakt wel degelijk uit, omdat physics in de echte wereld nou eenmaal echt wat anders zijn.
Op AI vlak betekend dat alleen dat je deze instanties van deep-mind niet in de echte wereld los kan laten, maar dat je nieuwe zal moeten trainen met real life physics als spelwereld.
Of je laat een AI meekijken met een echte piloot die een vliegtuig bestuurd, waarbij de AI leert hoe het vliegtuig reageert op de input van de piloot, vergelijkt dat met wat hij zelf gedaan zou hebben. Hij kan dan zowel de gesimuleerde physics verbeteren als zijn eigen pilootskills.
Dat is vergekijkbaar met wat Tesla onder andere doet om Autopilot te trainen. Het is allemaal zo makkelijk nog niet.
Dat klopt enigszins, maar als je dus een drone hebt die zelf kan vliegen (nu al te koop in de winkel) combineert met deze AI, de video output van de drone en dus een manier om hem te besturen zal het allemaal reuze meevallen hoe lastig het is. Natuurlijk heb je andere physics maar een kind van 10 kan een drone besturen zonder kennis van deze 'physics' gezien de drone zelf al heel veel kan, in het begin zal hij crashen en weer opstijgen en zo ook de AI.
Dat kost een vermogen aan drones.... en als je ziet hoeveel Boston Dynamics al aan geld kost voor de ontwikkeling van hun autonome robots die nu eindelijk tot iets nuttigs in staat zijn, maar niet eens hoeven te vliegen, is dat voor een kind van 10 wel heel veel zakgeld.
een drone helicoptertje die valt is niet perse direct stuk toch?
Wel als ie zwaar genoeg moet zijn om wapens mee te nemen, daar ging t om ;)
Dit soort dingen word zo vaak gebruikt voor AI opdrachten. Mijn broertje heeft ook een tank spelletje met AI moeten maken op zijn opleiding Informatica.
"Hoe is dat niet waanzinnig beangstigend?! Dit houdt dus in dat jouw broertjes tankspelletje even makkelijk kan leren oorlog te voeren. Want het lijkt mij niet, dat het wezenlijk uitmaakt of de intelligentie het virtuele karakter in het spel gestuurd of een robot/drone met inputs uit de echte wereld."
Helemaal mee eens. Hiermee kan je de perfecte soldaat creŽren; zal altijd gehoorzamen en geen gewetensbezwaar hebben bij het doden van eigen burgers. De natte droom van elke staat.
In het spel kan je neergaan en blijven terug komen. Als in het echt de drone tegen de vlakte gaat is het gedaan met zelfstudie.
Nee hoor, gewoon constant je code uploaden naar de satelliet, of op dezelfde andere wijzen waarop nu data (bijv. Camera footage) naar de basis wordt gestuurd.
Ja maar wat dan? Dat is net mijn punt. De drone gaat neer, de data wordt geŁpload maar wat dan. De studie is gedaan. Je kan niet oneindig respawnen. Het aantal drones is wel eindig.
Misschien snap ik je niet helemaal. Het beste wat ik kan doen is mijn redenatie even stap voor stap uitleggen:
1. Ro-Maniak2 zegt dat het beangstigende dat Deepmind kan leren oorlog voeren.
Het beangstigende waarin volgens mij naar wordt verwezen is het feit dat zo'n machine na een tijdje een voor de mens overslaanbaar moordmachine wordt.
2. Jij lijkt te impliceren in je reactie dat het wel meevalt omdat je niet automatisch kan respawnen.
3. Ik zeg daarop dat al datgene wat die machine geleerd heeft wel behouden blijft. In principe gaat geen kennis verloren.
Daarmee bedoel ik eigenlijk dus dat dat beangstigende daarmee niet is weggenomen.

Natuurlijk zal een robot wel wat kosten, maar met een beetje massaproductie zal je er wel heel heel veel kunnen maken. Het is niet zo dat we binnenkort nou echt door onze voorraden metaal etc. heenzitten. Ik kan me voorstellen dat robots op een gegeven moment een goedkopere en slimmere investering dan soldaten die jarenlang training en eveneens materialen nodig hebben.

Kortom, ik denk wel dat men er een boel kan maken.
Waarom dit niet bijzonder beangstigend is, is dat die AI geen notie heeft van het begrip "mens". De gemiddelde mens op straat ziet er niet zo uit als vijanden in het spel dus mocht die AI in een terminator frame gezet worden, zou er vrij weinig gebeuren. Ik zou alleen niet langsrennen in het blauw of rood gekleed met een vlag in m'n handen.

Een AI trainen op een positieve / happy manier is net zo riskant ; als de beloning van het spel een berg hartje, ballonnetjes en bloemetjes is, zou een AI in de echte wereld dat willen bereiken. Nou lijkt het hart van een mens niet echt op een hartje in het gemiddelde spelletje, maar just saying.
Ik vrees dat de skills die de agents leren in StaCraft II op de lange termijn dodelijker mzijn dan wat ze leren in Quake III Arena.
De combinatie van beiden. Eťn AI dat niet alleen het leger aanstuurt maar het leger is.
Precies net zo waanzinnig beangstigend als tetris.
Zo'n bot speelt duizenden games met in het begin alleen maar losses. Maar door vaak genoeg te spelen "leert" de bot dat bepaalde moves een hogere eindscore opleveren dan andere.

Het efficient maken van dit leerproces is wat google probeert te bereiken:

Deep reinforcement learning
As opposed to other AIs, such as IBM's Deep Blue or Watson, which were developed for a pre-defined purpose and only function within its scope, DeepMind claims that their system is not pre-programmed: it learns from experience, using only raw pixels as data input. Technically it uses deep learning on a convolutional neural network, with a novel form of Q-learning, a form of model-free reinforcement learning.[2][44] They test the system on video games, notably early arcade games, such as Space Invaders or Breakout.[44][45] Without altering the code, the AI begins to understand how to play the game, and after some time plays, for a few games (most notably Breakout), a more efficient game than any human ever could.[45]

As of 2014, DeepMind played below the current World Record for most games, for example Space Invaders, Ms Pac-Man and Q*Bert. DeepMind's AI had been applied to video games made in the 1970s and 1980s; work was ongoing for more complex 3D games such as Doom, which first appeared in the early 1990s.[45]
Ok, ik begrijp dat Quake gekozen is, omdat de source open en beschikbaar is en omdat het duidelijk omlijnde doelen heeft. Ik snap ook dat Go en schaken ook gestileerde oorlogsspelletjes zijn, maar... moeten we nu echt beginnen met het trainen van AI op semi-militaire omgevingen? Ik zou graag willen dat wanneer AI ontsnapt in de echte wereld en zich schuilhoudt in de cloud dmv zero days, het in ieder geval een AI is die geoptimaliseerd is voor het bereiken van maximaal menselijk geluk in plaats van aantal kills per seconde. :+ 8)7
Ik denk dat je het doel een beetje mist. Het ging hier niet om goed worden in schieten. Er worden al jaren bots geprogrammeerd in games die het veel beter kunnen dan wat hier gepresteerd is en als je die de AI skills geeft, kunnen ze misschien nog beter worden.

De test gaat over hoe AI acties kan leren en kan leren van ervaringen door bij start te beginnen. De methode van leren is waar het hier om gaat en niet WAT er geleerd wordt. Dan zou je dus robots kunnen maken die in onbekende of crisissituaties zelf kunnen leren wat ze het beste kunnen doen bijvoorbeeld.

Games als Go en Schaken hebben het nadeel dat het vooral gaat over het voorspellen van zetten en situaties die statisch zijn, hoewel Go uitermate moeilijk is te voorspellen. Er is echter wel een continue pauze. Hier gaat het om interactie in de ruimte en geeft dus een heel andere sfeer.

Je legt zelf goed uit waarom Quake III gekozen is.
Ik begreep best dat het hier om acties leren en ervaringen leren gaat en ook om te zien of er gecoŲrdineerd gedrag ontstaat tussen verschillende AI spelers. :-) Maar kijk eens in welk speelveld ze dit leren. Het is jammer dat er nooit een wereldwijde hit game geweest is die heet: Super-Hospital III, waar alle spelers verschillende rollen van een echt ziekenhuis nabootsen. De reden is natuurlijk, omdat het heel moeilijk is om zoiets te bouwen en het dan waarschijnlijk nog steeds een slechte game zou zijn. Misschien moeten we deze AI inzetten in een colaboratieve vorm van Eurotrucking simulators of een mega flight-sim etc. waarbij de AI zowel zelf het vliegtuig moeten leren besturen als alle vliegvelden moet managen :-)
Super gaaf dit! Ik vermoed zomaar dat dit ook weer meer kennis oplevert over hoe wij als mensen leren en hoe onze hersenen werken.
Kijk, eindelijk leuke AI medespelers voor arena shooters :D
Wat bij AI altijd het lastige is bepalen wat de juiste actie is. Of wat de "ground truth" is in meer zoekende AI. Daarom zijn ze ook zo goed in spelletjes omdat spelletjes inherent een score of een winnaar hebben. In een oorlog situatie wordt een score systeem al een stuk lastiger. Heb je een hoge score als je "flag" captured (of doel neerploft) zonder verdere casualties en hoe meet je dat accuraat genoeg.

Aan de andere kant kun je AI dingen leren in een meer gecontroleerde omgeving en nadat hij het geleerd heeft kun je het loslaten in een echte situatie.
Ik begrijp niet hoe die bots zonder uitleg van de spelregels dit spel kunnen aanvatten. Je moet toch ergens het doel van het spel meegeven? Hoe weet zo'n bot anders of hij goed bezig is?
Hij krijgt alleen een eindscore. Verder laten ze hem "los".
Het valt onder gpl v3 maar ikkan niets downloaden of moet je een geregistreerd developer zijn? Q3 ctf is nog altijd ongeŽvenaard, ik wil wel eens met die botjes spelen…
Vind het enorm indrukwekkend en beangstigend tegelijk. Dit zijn de verhalen die nu naar buiten komen, maar hoe ver ze dus effectief staan is volgens mij al veel verder. Om deze toepassingen van ML/AI dadelijk in het veld in te zetten is er waarschijnlijk al en zal denk ik niet meer lang duren voordat we daar de verhalen van zien verschijnen.

Zoals al veel aangehaald in de reacties zijn er tal van toepassingen waarvoor dit gebruikt kan worden, het meest voor de hand liggende is oorlogscenario´s. Enerzijds dan ook spijtig dat een shooter wordt gebruikt om met deze technologie naar buiten te komen. Geeft toch de indruk dat dit het primaire doel is waarvoor deze zaken onderzocht worden. Niet onwaarschijnlijk ook omdat hier (vermoed ik) de meeste financiŽle resources zijn te halen.
Dus een computer leren oorlogvoeren in een virtueel concept valt in mijn ogen vrij makkelijk om te schakelen naar een echte wereld?! 8)7

Op dit item kan niet meer gereageerd worden.


Apple iPhone XS Red Dead Redemption 2 LG W7 Google Pixel 3 XL OnePlus 6T FIFA 19 Samsung Galaxy S10 Google Pixel 3

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank en Intermediair de Persgroep Online Services B.V.
Alle rechten voorbehouden © 1998 - 2018 Hosting door True