Googles ai-afdeling Deepmind heeft een variant van AlphaGo ontwikkeld die zichzelf het spel go kan leren. Het systeem, AlphaGo Zero, heeft daarvoor niet een groot aantal door mensen gespeelde go-spellen nodig als input.
Dit had de vorige versie wel nodig, maar AlphaGo Zero leert alleen door het spel tegen zichzelf te spelen, beschrijft Deepmind in een paper en een bijbehorende blogpost. De nieuwe versie start met leren door in eerste instantie volledig willekeurige go-potjes te spelen. Na drie dagen was AlphaGo Zero in staat om het niveau van de versie van het systeem te behalen dat Lee Sedol versloeg. Na 21 dagen bereikte het systeem het niveau van de Master-variant, die online potjes won tegen 60 spelers en won van de Chinese topspeler Ke Jie. Na 40 dagen was het nieuwe systeem beter dan elke voorgaande AlphaGo-versie, aldus Deepmind.
Elo-rating, van de verschillende varianten
Deze ontwikkeling is mogelijk aan de hand van een nieuwe vorm van reinforcement learning. In eerste instantie speelt een neuraal netwerk spellen tegen zichzelf met behulp van een zoekalgoritme, legt de organisatie uit. Deze versie weet niets over het spel go, behalve de regels. Tijdens het spelen voorspelt het neurale netwerk zetten en de uiteindelijke winnaar van potjes. Doordat er steeds nieuwe iteraties volgen, ontstaat er op die manier een systeem dat zichzelf elke keer verbetert. Het voordeel zou daarbij zijn dat de nieuwe versie van AlphaGo niet meer 'beperkt is door de grenzen van menselijke kennis', maar volledig uit het niets kan beginnen.
Er zijn ook andere verschillen met voorgaande versies. Zo heeft AlphaGo Zero slechts één neuraal netwerk, waar dat er eerst twee waren. Daarbij selecteerde één de zet en voorspelde het andere de winnaar vanuit elke nieuwe positie. Deze functies zijn nu gecombineerd in de nieuwe variant. Doordat het systeem in de loop van de tijd steeds efficiënter is geworden, heeft het ook minder tpu's nodig. De AlphaGo-versie die Lee Sedol versloeg, had 48 van deze chips, terwijl de huidige versie het met 4 doet. AlphaGo Zero versloeg de Lee-versie na drie dagen met een score van 100-0.