Wetenschappers van Googles Deepmind-onderzoeksafdeling voor kunstmatige intelligentie hebben een onderzoek gepubliceerd naar manieren om ai te 'belonen'. Hiertoe gebruiken ze een complexe omgeving, waarin de ai zijn eigen manier van voortbeweging moet bedenken.
De wetenschappers hebben hoogtepunten van hun onderzoek gepubliceerd in de vorm van een video. Daarin is te zien hoe een onuitputtelijke agent zich in verschillende omgevingen voortbeweegt, vaak op uiterst creatieve manieren. Er zijn verschillende modellen ontwikkeld. Zo is er de planar walker, die het meeste wegheeft van een paar benen zonder torso. Er zijn ook een soort vierpotige spin en een humanoïde. Elke verschijning heeft weer effect op de gekozen techniek, onder meer doordat de complexiteit andere mogelijkheden biedt.
Zo is in de video te zien dat de agent leert springen, bukken en klimmen. Uiteraard zit er ook een doel achter de soms komische vertoning. De onderzoekers willen aantonen dat het niet altijd nodig is om een zorgvuldig gekozen beloning voor zelflerende systemen te bedenken bij reinforcement learning. In hun onderzoek hebben ze ervoor gekozen om de beloning te definiëren als 'voorwaartse vooruitgang', of eigenlijk 'zo ver mogelijk vooruitkomen'. Ze willen demonstreren dat een complexe omgeving ook kan leiden tot complex gedrag zonder dat daar een ingewikkelde beloning voor nodig is.