Googles onderzoeksafdeling DeepMind en ontwikkelaar Blizzard hebben samen een toolset onder de naam Sc2le uitgebracht, waarmee ze onderzoek op het gebied van kunstmatige intelligentie en reinforcement learning binnen de rts-game StarCraft II willen faciliteren.
DeepMind en Blizzard kondigen de tools aan in eigen blogposts. Daar melden ze dat Blizzard een api heeft ontwikkeld die gamers, hobbyisten en onderzoekers toegang geeft tot StarCraft II. Zo kunnen geïnteresseerden ook binnen een sandbox experimenteren met kunstmatige intelligentie op basis van scripts of met een zelflerende variant. Daarvoor is een volledige versie van de game vereist die is voorzien van de api. Volgens DeepMind is die aanwezig vanaf versie 3.16.1.
Volgens Blizzard is de api geschikt om op grote schaal op een centrale infrastructuur te draaien. De ontwikkelaar heeft daarom, naast macOS- en Windows-versies van de game, een aparte Linux-versie uitgebracht die alleen werkt met de api en bedoeld is voor onderzoeksdoeleinden. In gepubliceerde Sc2le-tools zit verder een verzameling geanonimiseerde replays van 1v1-games op de StarCraft-ladder. Dat zijn er nu 65.000, maar dat aantal moet in de komende weken groeien naar een half miljoen.
Om de api te gebruiken, heeft DeepMind zijn eigen PySc2-toolset als onderdeel van de release beschikbaar gesteld. Die biedt een Python-interface waarmee zelflerende agents met de game kunnen communiceren. Daarvan maakt ook een voor mensen leesbare interface deel uit, die voornamelijk is bedoeld voor debuggingdoeleinden. De interface is verdeeld in feature layers, die in onderstaande video te zien zijn. Tot slot geven de organisaties een verzameling minigames vrij waarmee onderzoekers kunnen testen hoe goed hun agents zijn in het uitvoeren van specifieke taken.
Schematische weergave van Sc2le
DeepMind schrijft dat StarCraft een interessante game is voor onderzoek naar kunstmatige intelligentie, omdat spelers verschillende taken moeten uitvoeren om te winnen. Bijvoorbeeld grondstoffen verzamelen, een basis bouwen en gevechten houden. Bovendien kan een enkel potje lang duren, waardoor acties die vroeg worden genomen, uitwerkingen op de lange termijn hebben. Daar komt bij dat er veel spelers zijn, waardoor er genoeg replays zijn om van te leren. Ook zijn er meer dan driehonderd acties mogelijk, vergeleken met een beperkt aantal acties in bijvoorbeeld Atari-games.
Tot nu toe is de zelflerende ai voornamelijk goed in het uitvoeren van specifieke taken, zoals het verzamelen van grondstoffen. Het spelen van een volledig potje is echter nog zeer moeilijk. Zo kunnen de agents niet winnen van de makkelijkste ai die standaard in StarCraft aanwezig is. DeepMind schrijft dat uit onderzoek is gebleken dat de kunstmatige intelligentie goed kan leren door imitatie. Daarom is er goede hoop dat door de publicatie van replays betere agents ontwikkeld kunnen worden. Blizzard en DeepMind hebben hun onderzoek gepubliceerd in een paper.
Het verschil tussen een getrainde en een ongetrainde agent