Amerikaanse wetenschappers en een onderzoeksteam van Facebook hebben Pluribus ontwikkeld, een kunstmatige intelligentie die beter presteert dan professionele spelers bij no-limit Texas hold’em-poker met zes spelers.
De wetenschappers van de Carnegie Mellon-universiteit in Pittsburgh en Facebook AI Research evalueerden Pluribus bij twee testscenario's. Bij het ene scenario speelde een enkele versie van de kunstmatige intelligentie tegen vijf spelers, bij de andere nam een enkele speler het op tegen vijf agents, die overigens individueel speelden. Het ging om professionele spelers die elk meer dan een miljoen dollar gewonnen hebben met het spel. In totaal werden tijdens de test 10.000 hands gedurende twaalf dagen gespeeld.
De prestaties werden gemeten in milli big blinds per game, oftewel mbb/game. Dit meet hoeveel big blinds gemiddeld per duizend rondes gewonnen zijn. Een big blind is het geld dat de tweede speler in de pot stopt na de small blind van de eerste speler. In de variant waarin Pluribus tegen vijf spelers pokerde behaalde hij een gemiddelde van 48mbb/game, wat volgens de onderzoekers een erg hoge score is, vooral bij spelen tegen professionele spelers.
De prestaties waren bovendien consequent hoog gedurende de tienduizend gespeelde hands, wat de suggestie wekt dat de menselijke tegenstanders moeite hadden zwaktes in de strategie van de ai te vinden. Voor het scenario met vijf bots tegen een enkele professionele speler won Pluribus bij de tienduizend hands met een gemiddelde van 32mbb/game.
Bij Texas Hold'em kiezen spelers vijf kaarten uit twee kaarten in de hand en vijf open kaarten om goede combinaties te maken. Poker is al jaren een onderzoeksterrein voor kunstmatige intelligentie vanwege het element van verborgen informatie bij het ontwikkelen van strategieën. Tot nu toe bleven de vorderingen vooral beperkt tot de pokervariant met twee spelers.
De onderzoekers trainden Pluribus met behulp van het Monte Carlo counterfactual regret minimization-algoritme. Cfr is een iteratief algoritme dat leert door willekeurig potjes te spelen en gaandeweg beter wordt door eerdere versies van zichzelf te verslaan. De Monte Carlo-variant analyseert daarvoor samples van acties in het spelverloop in plaats van bij iedere iteratie de gehele 'spelboom' te doorlopen. Het algoritme kan simuleren wat er gebeurd zou zijn als andere handelingen gekozen waren en de strategie aanpassen op basis van de mate van 'spijt' die het heeft dat die route niet bewandeld was.
De blauwdruk van de strategie waar de werking van Pluribus op berust is in acht dagen berekend op een server met 64 cores en met minder dan 512GB ram. De onderzoekers hadden een uitgebreidere basisstrategie kunnen ontwikkelen voor hogere prestaties, maar ze streven ernaar dat een gecomprimeerde vorm van de blauwdruk op een systeem met maximaal 128GB ram kan draaien tijdens het spelen.
Het onderzoeksteam zegt tegen Technology Review dat het Pluribus niet vrij gaat geven, omdat de ai misbruikt kan worden om online pokerdiensten op te lichten. De techniek kan gebruikt worden voor ai-onderzoek bij andere multiplayergames, maar kan op termijn ook in de praktijk toegepast worden, onder andere om autonoom rijdende auto's te verbeteren en voor defensiedoeleinden. De onderzoekers publiceren hun werk onder de noemer Superhuman AI for multiplayer poker in Science.