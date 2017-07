Wetenschappers van Googles Deepmind-onderzoeksafdeling voor kunstmatige intelligentie hebben een onderzoek gepubliceerd waarin zij manieren onderzoeken om ai te 'belonen'. Hiertoe gebruiken zij een complexe omgeving, waarin de ai zijn eigen manier van voortbeweging moet bedenken.

De hoogtepunten van hun onderzoek hebben de wetenschappers in de vorm van een video gepubliceerd. Daarin is te zien hoe een onuitputtelijke agent zich in verschillende omgevingen voortbeweegt, vaak op uiterst creatieve manieren. Er zijn verschillende modellen ontwikkeld. Zo is er de planar walker, die het meeste wegheeft van een paar benen zonder torso. Er is ook een soort vierpotige spin en een humanoïde. Elke verschijning heeft weer effect op de gekozen techniek, onder meer doordat de complexiteit andere mogelijkheden biedt.

Zo is in de video te zien dat de agent leert springen, bukken en klimmen. Uiteraard zit er ook een doel achter de soms komische vertoning. De onderzoekers willen aantonen dat het niet altijd nodig is om een zorgvuldig gekozen beloning voor zelflerende systemen te bedenken bij reinforcement learning. In hun onderzoek hebben zij ervoor gekozen om de beloning de definiëren als 'voorwaartse vooruitgang', of eigenlijk 'zo ver mogelijk vooruit komen'. Zij willen demonstreren dat een complexe omgeving ook kan leiden tot complex gedrag, zonder dat daar een ingewikkelde beloning voor nodig is.