Onderzoekers van DeepMind hebben een paper gepubliceerd waarin ze een aantal resultaten tonen over de bots die ze getraind hebben om geheel op eigen houtje Quake III Arena te leren spelen. De ai blijkt beter in het spelen van de Capture the Flag-modus dan menselijke spelers.
DeepMind schrijft dat de agents hebben geleerd om capture the flag op een heel hoge standaard te spelen. Daarbij spelen ze in op de afmetingen van de gespeelde map en op het aantal teamleden. In de resultaten blijkt dat de bots heel snelle reactietijden hebben en heel accuraat zijn in het taggen, waarbij tegenstanders terug naar hun startpunt worden gestuurd. Bij de agents lag die precisie op 80 procent; bij mensen op 48 procent. De onderzoekers denken dat de goede prestaties van de agents hiermee samenhangen.
De superieure prestaties van de ai komt ook voort uit de snellere visuele verwerking en de bewegingscontrole. Dat was echter niet de enige reden voor het succes, bleek nadat de precisie werd beperkt en de reactietijd verhoogd. Ook bots met een bewust doorgevoerde extra vertraging van 267ms deden het nog altijd beter dan mensen. Met die verhoging kwam de reactietijd uit op 500ms, een vergelijkbare tijd met menselijke spelers. Sterke menselijke spelers wonnen gemiddeld 21 procent van de games, en spelers met een gemiddeld niveau wonnen slechts 12 procent van de potjes.
Menselijke spelers hadden weinig in te brengen tegen de ai op maps die geen van de spelers of bots ooit eerder had gezien. Een team van twee mensen wist per game gemiddeld zestien vlaggen minder te veroveren dan een team van twee agents. Alleen in een team van zowel mensen als bots wisten de mensen te winnen van een team met alleen bots. De onderzoekers maken daaruit op dat getrainde agents waarschijnlijk goed in staat zijn samen te werken met teamgenoten die ze nog niet eerder 'gezien' hebben, zoals mensen. Zelfs een team van twee professionele gamers met volledige onderlinge communicatie wist na twaalf uur oefenen slechts een kwart van de potjes te winnen van de ai.
De agents worden door de onderzoekers overigens 'FTW agents' genoemd, wat staat voor for the win. Dat verwijst naar de trainingsarchitectuur van de bots, waarbij recurrent neural networks op trage en snelle tijdsvlakken worden gebruikt in combinatie met een puntensysteem. Daarbij worden de gamepunten vertaald naar interne beloningen. Elke agent leerde zijn eigen interne beloningssignaal, waardoor hij zijn eigen interne doelen kan stellen, zoals het veroveren van de vlag. Daar komt een tweeledig optimalisatieproces aan te pas om die interne beloningen te optimaliseren voor het winnen. Door het toepassen van reinforcement learning werd de agents door uitproberen geleerd handelingen te verrichten om een maximale beloning te krijgen. In totaal zijn dertig verschillende agents getraind met in totaal 450.000 potjes.
Het onderzoek is gepubliceerd in het wetenschappelijke tijdschrift van Science, onder de titel Human-level performance in 3D multiplayer games with population-based reinforcement learning. DeepMind publiceerde eerder al een paper over de training van de bots.