DeepMind heeft het AlphaZero-algoritme ontwikkeld dat zonder enige voorkennis spellen kan leren puur op basis van de spelregels. In enkele uren kan het programma zo beter dan een mens of het beste programma tot nu toe presteren.
Bij schaken wist AlphaZero na 4 vier uur trainen, of 400.000 stappen, beter te presteren dan Stockfish 8. De opensourcesoftware Stockfish staat bekend als het beste schaakprogramma van dit moment. Van de 100 wedstrijden won AlphaZero er 28 en verloor het er 0, de rest kwam uit op remise. AlphaZero doet zijn werk aanzienlijk efficiënter: het programma zoekt 80.000 posities per seconde bij schaken, tegen de 70 miljoen van Stockfish. DeepMinds programma richt zich alleen op de meest veelbelovende zetten, wat volgens het team achter het programma 'menselijker' is.
Maar de software is niet alleen snel in het from scratch leren van schaak. De ontwikkelaars testten de eigenschappen ook bij het Japanse schaakspel shogi. Hierbij waren 110.000 stappen nodig, of 2 uur, om het niveau van het shogi-programma Elmo te bereiken. Hierbij won AlphaZero 90 potjes, met een verlies in 8 partijen.
Ook in go maakt AlphaZero zichzelf in korte tijd heer en meester. De trainingstijd hierbij is met 8 uur, gelijk aan 165.000 stappen, wat langer maar hierna is het programma beter dan de bestaande algoritmes AlphaGo Lee en AlphaGo Zero, eveneens van DeepMind. AlphaGo Zero is de verbeterde versie van AlphaGo, waarmee DeepMind de kampioen Lee Sedol wist te verslaan. Ook AlphaGo Zero heeft geen door mensen geprogrammeerde voorkennis van het spel nodig.
Zelfs na een trainingstijd van drie dagen, tegen de 8 uur van AlphaZero, moest AlphaGo Zero het onderspit delven in 60 van de 100 go-partijen. De Zero-variant won 40 keer. Gedurende de training kon AlphaZero 5000 tpu's van de eerste generatie en 64 van die eenheden van de tweede generatie inzetten. Tpu staat voor tensor processing unit. Deze chips zijn door Google ontwikkeld om rekenwerk voor deep learning af te handelen. Het getrainde algoritme draaide uiteindelijk op een systeem met vier tpu's.
Het Britse ai-bedrijf DeepMind, sinds 2014 onderdeel van Google, publiceert de resultaten van zijn onderzoek in een artikel met de naam Mastering Chess en Shogi by Self-Play with a General Reinforcement Learing Algorithm.