Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Dota 2-bots van OpenAI winnen van team met voornamelijk professionals

Een team dat bestaat uit vijf bots die zijn getraind voor de game Dota 2, hebben het opgenomen tegen een professioneel team van menselijke tegenstanders. De bots wonnen de best of three door de eerste twee rondes overtuigend te winnen.

Christy Denninson van OpenAI maakte bekend dat het team met bots, genaamd OpenAI Five, de eerste twee wedstrijden won en daarmee ook meteen de best of three. Het team van de menselijke tegenstanders, bestaande uit voormalige professionals en een Dota 2-commentator, won wel de derde en laatste ronde, die eigenlijk puur voor de lol werd gespeeld. Voorafgaand aan deze ronde koos het publiek welke heroes de mensen de strijd mee mochten aangaan.

De eerste wedstrijd was een simpele overwinning voor OpenAI Five, waarbij de menselijke tegenstanders geen enkele verdedigingstoren konden vernietigen. In de tweede ronde ging dat iets beter en werd er een toren ingenomen, maar veel verder kwam men niet. De wedstrijden van OpenAI Five vonden plaats in het kader van The International, het jaarlijkse, prestigieuze Dota 2-toernooi.

Er waren wel een aantal beperkingen aangebracht voor de wedstrijden van de bots. Zo kunnen spelers van Dota 2 normaal gesproken kiezen uit meer dan 100 verschillende heroes, maar dat aantal was voor de wedstrijden van OpenAI Five teruggebracht tot 18. Ook hebben de makers toegelicht dat de reactietijd van de bots is ingesteld op 80 tot 200ms, waarmee het redelijk dichtbij de reactietijd van menselijke spelers komt. Dit leidde volgens de makers echter niet tot wijzigingen in de gameplay; de kracht van de bots ligt volgens hen in het teamwerk en de coördinatie, in plaats van de snelle reflexen.

OpenAI Five bestaat in feite uit vijf neurale netwerken. De bots zijn gedurende enkele maanden getraind door elke dag tegen zichzelf te spelen; op een versnelde wijze was dat goed voor dagelijks 180 jaar aan speeltijd. Met de hulp van 128.000 reguliere cpu-cores en 256 Nvidia P100-gpu's werden de bots getraind, waarbij ze door middel van trial and error leerden welke acties een maximale virtuele beloning opleverden.

Het was al duidelijk dat OpenAI Five hoge ogen zou kunnen gooien. Zo kwam het team eerder al meerdere keren als winnaar uit de bus in wedstrijden tegen semiprofessionals. Vorig jaar had OpenAI al een bot ontwikkeld die Dota 2 kon spelen en zelfs een wereldtopper zoals Dendi wist te verslaan, maar dit was nog onder behoorlijk beperkende omstandigheden en in een één-tegen-één-situatie.

Door Joris Jansen

Nieuwsredacteur

06-08-2018 • 18:35

26 Linkedin Google+

Submitter: RedPixel

Reacties (26)

Wijzig sortering
Het mooiste vindt ik nog dat ze het grootste voordeel van OpenAI instant response hebben uitgezet, er zit een vertraging van 200ms in de acties van OpenAI, wat overeenkomt met de responstijd van een DOTA prof. Ze winnen dus echt voornamelijk op tactiek en keuzes en niet op een inherent computervoordeel.

[Reactie gewijzigd door acst op 6 augustus 2018 18:53]

Bedankt voor deze info. Dat was ook een van de eerste vragen die ik had of er speciale voorwaarden golden. Nu nog rekening houden met klein percentage misclicks en balanceren voor het feit dat een AI altijd de beste/snelste route kiest omdat een AI klikt waar die wilt klikken.
Hoe meer skill je hebt hoe minder je misclickt natuurlijk ;)
Klopt, een vertraging van 80 tot 200ms zelfs. Dat heb ik nog even ingevoegd. Zou toch ook wel leuk zijn om eens te zien hoe de wedstrijden zouden zijn verlopen met praktisch geen vertraging :)
Of twee AI's tegen elkaar laten spelen. Een met die vertragingsrestrictie en een zonder. Dat een groot aantal keer herhalen bij wijze van Monte-Carlosimulatie en op basis daarvan een uitspraak doen hoeveel die vertraging nou echt uitmaakt bij twee evenwaardige spelers.
Ja ook interessante inderdaad :)
Ik denk dat het toch voor een groot deel ligt in net wat hogere precisie bij bijvoorbeeld aanvallen (200ms vertraging is een ding, maar pinpoint accuracy is gewoon een groot voordeel) en het feit dat deze bots "elkaar" beter kennen den mogelijk voor een menselijk team. Eerlijk is het daarom pas op moment dat je een soort van neuralnet/hivemind tussen de mensen kan creeren want acties en tactieken in spellen als dota en vergelijkbare games hangen enorm aan de coordinatie tussen spelers. De AI is enkele maanden getraind met eelke dag zijnde het equivalent van 180 jaar samenspelen. Die AIs hebben dus effectief tienduizenden jaren (!) samengespeeld. Zelfs top teams komen op enkele duizenden uren. Dat zou ik geen eerlijke condities noemen. Die AI verslaat dus net mensen, maar heeft daarvoor ruwweg minimaal een factor 10000x (waarschijnlijk eerder richting de 100000x) meer ervaring voor nodig. Dat is voor dingen als dota met heel beperkte omstandigheden en vaste regels natuurlijk te doen, maar zodra je in de echte wereld komt is even verzamelen van het equivalen van honderduizenden jaren aan ervaringen met een specifiek geval toch nog vrij ondoenlijk. Al verzamelde je bijvoorbeeld data van alle huisartsen ter wereld (dat zijn er pakweg 4 miljoen, wat wel en aardige overschatting is omdat de dichtheid artsen alleen in een paar westerse landen even hoog is als in NL), dan nog zou het dus pakweg een jaar duren om genoeg data te hebben. En dat is onder de aanname, dat de taak van een huisarts even makkelijk is (zeker voor een AI) als een spel als dota met heel exacte regels. Dat is natuurlijk niet het geval en je zou dus enorme hoeveelheden tijd nodig hebben om alleen al de data te verzamelen die nodig is om een AI in een echt scenario te trainen. Niet voor niks zijn zelfrijdende autos getraind met data verzameld over ongeveer een decennium met honderden voertuigen. En ook dat is weer een veel simpler geval dan het voorbeeld van de arts omdat in het verkeer het meeste wat er gebeurt binnen de regels is en die gewoon een makkelijke basis vormen voor het trainen van de AI.

Het blijft natuurlijk indrukwekkend hoe snel AI verbetert (voor groot deel natuurlijk ook gedreven door de vooruitgang in rekenkracht).

[Reactie gewijzigd door Darkstriker op 6 augustus 2018 23:22]

Die insta hex op earthshaker was toch voor mij een beetje te snel 🙄. Je ziet gewoon dat 200ms toch nog net een fractie sneller is dan in een echte dota match tussen menselijke spelers. Tevens was deze showmatch niet tussen de allerbeste spelers, een team liquid had misschien 2 matches gewonnen. Wel mooi om te zien dat AI tot dit in staat is 👍
Ik kijk geen Dota 2, maar wel LOL, en daarbij zie je van sommige pros met enige regelmaat <100ms reacties, waar ze bijvoorbeeld al verwachten dat er iets zou gebeuren voor de tegenstander verschijnt.
Zoiets dus:
https://youtu.be/z2mzK4RpdAM?t=19
Ik vraag me wel af in hoeverre de huidige versie van de AI nu echt met onverwachte situaties kan omgaan, en ook tussen potjes leren. Want hoewel vorig jaar dus in een veel beperktere setup de AI een wereldtopper kon verslaan, werd de AI daarna 50x op een rij door random bezoekers verslagen: Iemand het een tactiek gevonden die de AI niet begreep, en blijkbaar kon die niet zijn spel zo veranderen dat die tactiek niet meer werkte (en het was er eentje die nooit tegen een mens zou werken).
Ze zijn nog “redelijk beperkt” omdat ze voornamelijk tegen zichzelf spelen en sommige menselijke acties nog nooit meegemaakt hebben. Ze kunnen ook nog maar met(en tegen) een beperkt aantal heroes spelen. Ze zijn nu gewoon heel sterk in een voorsprong opbouwen in het begin en deze maximaal uit te buiten door het menselijke team hiermee constant onder druk te zetten.
Iirc krijgen de bots elke minuut een update en leren ze 180 jaar aan games per dag.
Hoewel het natuurlijk een grijs gebied is, en ik het echt niet na doe, maar dat klinkt meer als een veredeld optimalisatie script dan wat ik onder een 'echte' AI schaar. En dat wordt dus ook bevestigd door hoe het vorig jaar ging: Een mens valt voor zo'n aparte strategie misschien de eerste keer. De tweede keer probeert hij wat anders, en wie weet verliest hij nog steeds. Maar de AI bleef gewoon tegen dezelfde taktiek keer op keer verliezen. Ze kunnen hem dan vast trainen met replays, of tegen zichzelf waarbij hij specifiek die strategie probeert uit te voeren, maar het is niet dat hij 'beredeneert' hoe hij die taktiek kan verslaan.
Daar heb je dus precies de definitie van A.I. beschreven: "een veredeld optimalisatiescript"
Dat is waarschijnlijk ook de rede dat ze pro de 3e keer wonnen en waarschijnlijk de 4e, 5e enz ook.

Als je kijkt naar de leercuve van de pro
Eerst heel hard verliezen (over rimpelt en eerste kennis making ) 2 potje in de toren kunnen komen (nieuwe situatie weer opnieuw afstasten tegen stander leren). 3 potje winnen. (Het gedrag van de AI doorhebben)
bwach OpenAI Five moest spelen in een best of three, dat had natuurlijk best of Five moeten zijn ;)

het "menselijke team" hoewel ex-pro's waren nog niet echt op elkaar ingespeeld en hadden ook nog weinig ervaring tegen deze AI, het duurt soms een tijd om een succesvolle strategie te ontwikkelen, van daar dat meer matchen ook wenselijk was.
game 1 hopeloos verloren
game 2 al iets beter
game 3 gewonnen.
game 4 heeft de AI nu een tegen antwoord op de nieuwe strategie ?
game 5 ??
Kun je het nog een professioneel team noemen wanneer het bestaat uit voormalige professionals en een commentator?
Kun je het nog een professioneel team noemen wanneer het bestaat uit voormalige professionals en een commentator?
Ze hebben op het hoogst niveau gespeeld en zullen heus nog wel genoeg ervaring hebben om van bots te winnen. echter hebben deze spelers niet altijd in dezelfde team gezeten (gok ik zo) en zijn ze niet op elkaar ingespeeld. Dus lijkt me een erg slechte vergelijking ten op zichtte van een echt professioneel team ;)
Maar dat gaan ze dus later tijdens The International doen (tegen een prof team). Overigens 3 maanden geleden verloor OpenAI nog van wat amateurspelers/ontwikkelaars van OpenAI zelf, dus de progressie is duidelijk te zien.

[Reactie gewijzigd door acst op 6 augustus 2018 18:52]

Een echte aanrader is de documentaire over AlphaGo.
Deepmind die met hun AI tegen professionele Go spelers speelt.
Vind dit eigenlijk indrukwekkender omdat er samengewerkt dient te worden, Go is 1v1. Nu nog tegen een echt professioneel Dota team natuurlijk :)
Dat zeker. Hopelijk komt hier ook een mooie documentaire over.
Ik wil AlphaGo niet afdoen als simpel maar AI in Dota is wel complexer. Zo heeft OpenAI het volgende aangegeven:
OpenAI Five observes every fourth frame, yielding 20,000 moves. Chess usually ends before 40 moves, Go before 150 moves, with almost every move being strategic.
In Dota, each hero can take dozens of actions, and many actions target either another unit or a position on the ground. We discretize the space into 170,000 possible actions per hero (not all valid each tick, such as using a spell on cooldown); not counting the continuous parts, there are an average of ~1,000 valid actions each tick. The average number of actions in chess is 35; in Go, 250.
Dota is played on a large continuous map containing ten heroes, dozens of buildings, dozens of NPC units, and a long tail of game features such as runes, trees, and wards. Our model observes the state of a Dota game via Valve’s Bot API as 20,000 (mostly floating-point) numbers representing all information a human is allowed to access. A chess board is naturally represented as about 70 enumeration values (a 8x8 board of 6 piece types and minor historical info); a Go board as about 400 enumeration values (a 19x19 board of 2 piece types plus Ko).
https://blog.openai.com/openai-five/
De professionals zijn voornamelijk menselijk, wat zijn ze dan nog meer? :+
Onjuiste grammatica in de titel inderdaad (waarmee dus geimpliceerd wordt dat er ook niet-menselijke profs in het team zaten, terwijl het om niet-prof maar wel menselijke spelers ging), maar dat hoort wellicht meer thuis als melding op het forum.
Detecteer ik een Spoon? :P
Mocht je meer informatie willen over het resultaat en hoe de AI zijn werk heeft gedaan dan is de volgende link interessant:
https://blog.openai.com/openai-five-benchmark-results/


Om te kunnen reageren moet je ingelogd zijn


Call of Duty: Black Ops 4 HTC U12+ dual sim LG W7 Google Pixel 3 XL OnePlus 6 Battlefield V Samsung Galaxy S9 Dual Sim Google Pixel 3

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank en Intermediair de Persgroep Online Services B.V.
Alle rechten voorbehouden © 1998 - 2018 Hosting door True