De professionele speler MaNa van Team Liquid heeft een serie StarCraft II-partijen verloren van de ai-computerspeler AlphaStar. MaNa wist geen van de vijf games tegen de kunstmatige intelligentie naar zijn hand te zetten, maar versloeg de ai wel in een live match.
Blizzard en DeepMind werkten voor het toernooi nauw samen. De game-ontwikkelaar zorgde voor een speciale versie van StarCraft, die wel dezelfde regels als het reguliere spel heeft, maar gericht is op ai-onderzoek. De wijzigingen maakten dat de games niet live aanschouwd konden worden.
Blizzard vertelde het interessant te vinden dat zijn strategiespel als benchmark ingezet wordt voor ai-onderzoek. DeepMind richt zich op het spel vanwege de complexiteit. Eerder ontwikkelde het bedrijf algoritmes voor het beheersen van schaken, Go en Atari-games, maar de hoeveelheid te verwerken informatie, omvang van het speelveld en het aantal realtime vereiste handelingen is bij StarCraft veel groter. Om deze redenen is de ai-wereld al sinds 2003 geïnteresseerd in realtime-strategiegames.
Grzegorz 'MaNa' Komincz van Team Liquid bleek bereid de handschoen op te nemen tegen de ai. Hij staat nummer 13 bij de StarCraft II World Championship Series en is gespecialiseerd in het spelen met het Protoss-ras. Het toernooi bestond dan ook uit Protoss vs Protoss-potjes.
DeepMind zorgde ervoor dat de kunstmatige intelligentie geen bovenmenselijke handelingen kon verrichten, wat betreft bijvoorbeeld de snelheid van de acties. Het bedrijf kreeg daarbij hulp van Dario 'TLO' Wunsch van Team Liquid. Hij is een Zerg-speler, maar trainde met DeepMinds AlphaStar met het Protoss-ras. Uiteindelijk kwam DeepMind uit op gemiddeld minder acties per minuut uit voor AlphaStar dan professionele spelers en ook de tijd tussen beslissen en daadwerkelijk handelen lag lager dan bij menselijke spelers, claimt het bedrijf. Hiermee zou de intelligentie van de acties de doorslag moeten geven.
Bij de eerste wedstrijd van de strijd tegen MaNa begon AlphaStar agressief, waarbij opviel dat hij met zijn stalkers niet aarzelde de ramp op weg naar de basis van MaNa te betreden. In de derde wedstrijd bediende de ai zich pas van de wall-off om zelf haar ramp te versperren. Het leek alsof zij geleerd had van MaNa, maar in feite speelde zowel TLO als MaNa elke wedstrijd tegen een andere agent, oftewel algoritme.
DeepMind heeft intern namelijk een soort eigen StarCraft-league waarbij het verschillende algoritmes tegen elkaar laat spelen die bij verschillende iteraties dankzij reinforcement learning beter worden. Uiteindelijk kiest het bedrijf de beste vijf eruit, die als agent ingezet kunnen worden.
Wat bij elke van de vijf partijen opviel, was dat AlphaStar regelmatig als ware hij een menselijke speler speelde, maar ook beslissingen nam en strategieën hanteerde die pro-spelers niet zouden toepassen. Zo had de ai een voorliefde om in een vroeg stadium heel veel workers te maken, tot wel 24, waar pro-spelers 18 al veel vinden. Met name op het gebied van micromanagement blonk AlphaStar uit, waarbij soms wel bovenmenselijk gehandeld werd. Zo wist hij met een groot aantal stalkers een groep immortals van MaNa te verslaan, waar die groep normaal gezien geen partij zou zijn voor de immortals.
MaNa verklaarde de strijd leerzaam te vinden, maar ook bevreemdend: "Ik heb nog nooit in mijn leven zulke StarCraft II-wedstrijden gespeeld." Ook TLO verklaarde geen vat te kunnen krijgen op zijn tegenstander en continu in het duister te tasten, omdat AlphaStar zich niet aan de conventionele speelstijl hield. DeepMind vond dat een mooie uitkomst, zodat pro-spelers over andere strategieën en speelwijzen leren nadenken.
Oriol Vinyals van DeepMind legt uit dat AlphaStar focust op bepaalde delen van de map, en alleen delen observeert waar hij handelingen wil verrichten. Die rauwe observaties worden gevoed aan long short-term memory units en zorgen voor neural network activations. Dit is te beschouwen als het brein van AlphaStar omdat op basis hiervan besloten wordt wat te doen, welke acties verricht worden, welke gebouwen en units gemaakt moeten worden en welke handeling waar verricht moet worden. Als laatste volgt de outcome prediction. Dit is de afweging van de ai of zij aan het winnen is of niet. Op basis daarvan beslist zij of zij bijvoorbeeld moet aanvallen of terugtrekken. AlphaStar kreeg hiervoor geen harde regels opgelegd, de ai leerde uit zichzelf.
Delen van de wedstrijden zijn terug te kijken, met commentaar, op het YouTube-kanaal van DeepMind. Daar is ook de live match te zien die MaNa tegen AlphaStar speelde. Hierbij had de agent als beperking dat deze meer als een mens naar het spelverloop kon kijken. Opnieuw startte de ai erg agressief, maar maakte wel wat micro-fouten en gaandeweg kon MaNa de ai verslaan, al gaf die zich niet gewonnen en volgde er geen 'gg'.