OpenAI start machinelearningcompetitie met klassieke Sonic-games

OpenAI, dat zich bezighoudt met de ontwikkeling van kunstmatige intelligentie, heeft een zogenaamde Retro Contest aangekondigd. Deelnemers moeten een ai-agent insturen die vervolgens onbekende custom Sonic-levels gaat spelen.

Volgens OpenAI is de competitie bedoeld om een algoritme voor reinforcement learning, een vorm van machine learning, te evalueren. Dit gebeurt door te kijken hoe het op basis van eerdere 'ervaringen' kan generaliseren. In plaats van een bekende omgeving te gebruiken zowel voor het trainen als voor de competitie zelf, krijgen deelnemers beschikking over een trainingset aan levels uit verschillende Sonic-retrogames. Hun agent moet tijdens de competitie voor de ontwikkelaars onbekende levels zien te doorstaan binnen een tijdsbestek van achttien uur per level. OpenAI heeft de te gebruiken benchmark eveneens gepubliceerd.

De competitie duurt twee maanden en loopt tot 5 juni. De winnaar is degene met de hoogste score op de ranglijst. Deelnemers kunnen hun agent insturen in de vorm van een Docker-container. OpenAI heeft zelf een aantal basisalgoritmes vrijgegeven, die deelnemers kunnen gebruiken als beginpunt. Daarnaast heeft de organisatie de Gym Retro Beta-omgeving beschikbaar gemaakt, die te vergelijken is met een soort emulator voor de Atari 2600 en Sega Genesis die gebruikt kan worden om games als trainingsomgevingen in te zetten. OpenAI gebruikte al eerder dit soort Gyms voor training met games.

In de aankondiging vermeldt OpenAI nog dat agents soms exploits vinden in games, afhankelijk van hoe de beloningsfunctie is ingesteld. Zo ontdekte een van zijn agents dat het mogelijk was om door een muur heen te glitchen en zo een hogere score te behalen.

OpenAI Sonic

Vorig nieuwsartikel Volgend nieuwsartikel

Door Sander van Voorst

Nieuwsredacteur

Feedback • 06-04-2018 10:19 22

06-04-2018 • 10:19

Lees meer

Microsoft krijgt exclusieve licentie op GPT-3-taalmodel van OpenAI Nieuws van 23 september 2020

Microsoft investeert miljard dollar in OpenAI Nieuws van 22 juli 2019

OpenAI Five-bots verslaan Dota 2-topteam Nieuws van 15 april 2019

OpenAI laat taalmodel coherente teksten schrijven maar vreest misbruik Nieuws van 14 februari 2019

Dota 2-bots van OpenAI winnen van team met voornamelijk professionals Nieuws van 6 augustus 2018

Microsoft-project traint ai-agents aan de hand van tekstadventures Nieuws van 16 juli 2018

OpenAI toont team van verbeterde Dota 2-bots die semiprofessionals versloegen Nieuws van 25 juni 2018

EA test zelflerende ai-agents in Battlefield 1 Nieuws van 22 maart 2018

EU-adviesgroep roept op tot internationaal raamwerk voor regels rond ai Nieuws van 12 maart 2018

OpenAI verslaat professionele Dota 2-spelers met zelflerende bot Nieuws van 13 augustus 2017

OpenAI traint kunstmatige intelligentie met Portal, Red Alert 2 en Shovel Knight Nieuws van 5 december 2016

Meer producten en artikelen

Software development Kunstmatige intelligentie Machine learning

IT-banen

Meer vacatures

Reacties (22)

-Moderatie-faq

Wijzig sortering

Sonicfreak 6 april 2018 10:28

Zeer interessant initiatief! Gaaf dat ze daarvoor Sonic games inzetten. Is ook ergens wel te begrijpen als je ziet wat voor physics Sonic games hebben en het level design is niet 'plat' zoals bij Super Mario 1 op de NES.

Over de physics van Sonic staat een leuke discussie op Neogaf en lees dan vooral de comments van Krejlooc.

https://www.neogaf.com/th...on-the-snes.979313/page-2

Verwijderd @Sonicfreak • 6 april 2018 11:02

https://en.m.wikipedia.or...per_NES_enhancement_chips

Vergeet deze troef van de SNES niet, de Mega Drive is idd sneller maar de SNES heeft een flink rijtje enchancement_chips.

Standaard zou de SNES de originele Sonic niet kunnen draaien op dezelfde manier als de Mega Drive dat doet maar met de SA1-chip geef ik het een goede kans.

Sonicfreak @Verwijderd • 6 april 2018 11:38

Volgens mij zijn die enhancement chips vooral bedoeld voor 3D-berekeningen en dus niet geschikt voor de wiskundige berekeningen voor de physics in de Sonic games.

Zie ook deze post waarom de DSP-1 bijvoorbeeld niet geschikt is.

https://www.neogaf.com/th...nes.979313/post-149132900

Edit: de SA1-chip zou misschien een optie zijn, maar vergeet niet dat de 68000 chip in de Mega Drive juist uitermate geschikt is voor wiskundige berekeningen, meer nog dan SNES chips.

[Reactie gewijzigd door Sonicfreak op 23 juli 2024 02:09]

Manyuken @Sonicfreak • 6 april 2018 10:40

Daarom vond ik de Sonic games ook gaver vroeger dan de Mario games!

Ik denk dat ik Sonic 1-3 echt blauw gespeeld heb!

Daarbij was Sonic Adventures op de Dreamcast ook zijn tijd ver vooruit!

RetroMan @Manyuken • 6 april 2018 12:52

Sonic was al blauw, dat kwam echt niet door jouw binge!

Manyuken @RetroMan • 6 april 2018 13:09

Lol smartass

kr4t0s 6 april 2018 11:35

Dit heeft overigens 0,0 met AI te maken. Dit is pure machine learning gewoon vele duizenden keren proberen en van meeste succesvolle pogingen worden nieuwe varianten geprobeerd. Die af en toe stapje verder komen.

Stream van Mario loopt al bijna 22 dagen
https://www.youtube.com/watch?v=oWU48a2nNLA

Dat proces kun je natuurlijk versneller door 100-tal (of meer) docker containers te starten in bijvoorbeeld AWS en heb je hetzelfde resultaat in een half uur.

[Reactie gewijzigd door kr4t0s op 23 juli 2024 02:09]

varkenspester @kr4t0s • 6 april 2018 12:36

"Dit heeft overigens 0,0 met AI te maken. Dit is pure machine learning"
Ik weet niet of je het goed beseft maar machine learning is 1 van de grootste en meest onderzochte takken BINNEN AI. Zeggen dat machine learning geen AI is als zeggen dat een boom geen plant is.

kr4t0s @varkenspester • 6 april 2018 13:05

Ik bedoel puur deze exercitie is puur machine learning komt geen intelligentie aan te pas. En dat vaak dingen AI genoemd worden die helemaal geen AI zijn maar gewoon aan elkaar gescript. Dit is puur trail en error, brute forcen van een level meer in de lijn van de infinite monkey theorem. De output kun je wellicht iets mee voor echte AI verder te ontwikkelen. Neemt niet weg dat het best leuk en interessant is.

Caedus @kr4t0s • 8 april 2018 09:01

Als je machine learning een vorm van brute forcen noemt dan begrijp je niet hoe machine learning (of misschien brute forcing) werkt. Brute forcen is het domweg doorrekenen en proberen van alle mogelijkheden en op basis daarvan de beste uitkomst kiezen. Machine learning werkt heel anders. Het is patroonherkenning. Volgens het standaardrecept werkt het door een artificieel neuraal netwerk te trainen op een bepaalde input en te 'belonen' bij de gewenste output. Je voedt je netwerk bijvoorbeeld veel Sonic-acties en leert het op basis daarvan wat een 'goede' actie is gegeven de input.

Machine learning is flexibel in de zin dat het, mits goed getraind, met nieuwe, nog nooit eerder geleerde situaties om kan gaan -- zoals nieuwe Sonic levels. Dat is wezenlijk iets anders dan brute forcen (waarbij voor een nieuw level eerst opnieuw gerekend moet worden). Toegegeven, machine learning werkt alleen binnen een bepaalde niche: datgene waarop het getraind is. Maar om te zeggen dat "er geen intelligentie aan te pas" en het "aan elkaar gescript" is, is te kort door de bocht.

kr4t0s @Caedus • 9 april 2018 10:04

Die Mario "AI" werkt dus niet zo. Daar loopt Mario, tot hij dood gaat of vastloopt. Dat levert een score op, dan worden er varianten met de hoogste scores opnieuw geprobeerd. Om een level uit te spelen kan dagen of weken duren. En dan wordt er nog niet eens gekeken naar oppakken van coins of extra levens etc.
Ben benieuwd naar de Sonic AI.

varkenspester @kr4t0s • 12 april 2018 10:06

Dat valt onder de tak genetic algorithms: een subtak van machine learning.
Dit is letterlijk 'machine learning': leren door te doen.

Hoe dommer het systeem (hoe minder voorkennis) hoe langer het leren zal duren maar ook hoe flexibeler. In principe kan je dit toepassen op elke game mits je maar een goede belongingsfunctie hebt.
Bouw je voorkennis in dan zal het sneller gaan maar kan je het enkel toepassen daar waar die voorkennis relevant is + je vernietigt mogelijk interessante evolutietakken (bvb het glitchen door de muur).

[Reactie gewijzigd door varkenspester op 23 juli 2024 02:09]

Shawty @kr4t0s • 6 april 2018 14:18

Brute force is imho een onderdeel van intelligentie, zeker in de jongere jaren van de mens.

Dit spreekwoord bestaat niet voor niks: "Een ezel stoot zich geen tweemaal aan dezelfde steen"

Wilglide @Shawty • 7 april 2018 09:22

"Een ezel stoot zich in het algemeen geen tweemaal aan dezelfde steen" - het moet immers wel blijven rijmen

En brute force in de jonge mens? Als je verhoogde neuroplasticiteit (lees: heel veel verbindingen hebben, waar in hoog tempo heel veel verbindingen juist verbroken worden, use-it-or-lose-it) brute force zou willen noemen, maar ik vind het een rare analogie. Het is wel verhoogde activiteit, maar zeker niet zo willekeurig als brute force wel is per definitie.

Een betere analogie zou zijn van het leggen van een puzzel, waarbij je begint met een puzzel die al in elkaar ligt, maar waarbij bijna alle stukje nog op de verkeerde plek liggen. Vervolgens gaat het brein de stukjes/verbindingen die absoluut niet in de buurt komen van waar ze nodig zijn verwijderen. Het gaat in jonge brein dus voornamelijk om het verwijderen van verbindingen. Later komt daar het versterken van bestaande verbindingen daarbij.

Ook interessant nature artikel uit maart 2018:

"The researchers also found that weak synapses, which comprise the majority of our brain and were previously assumed to be insignificant, actually play an important role in the dynamics of our brain."

varkenspester @kr4t0s • 12 april 2018 10:08

Wat versta jij onder intelligentie?
Ik denk dat je een wat SF idee hebt van wat AI is.
AI is niet meer of niet minder dan een programma dat in staat is zichzelf aan te passen onder invloed van stimuli uit zijn omgeving.
AI is per definitie dom, hoe dommer hoe liever: hoe minder voorkennis hoe genierieker de AI zal werken. 'Leren' is de essentie van AI. Zonder leren heb je geen AI.

Dit is een basisvorm van genetic algorithms, een tak in de machine learning (in de 'AI' dus) die leren stimuleert dmv beloningen.
En ja AI is inderdaad niet meer dan slimme trial and error. Elke vorm van AI is gebaseerd op leren. De uitdaging bestaat er in een goed leerproces te maken dat flexibel én snel is en tot goede resultaten leidt.

PS: je kan het ruimer stellen en zeggen dat intelligentie algemeen niet meer is dan slimme trial and error. Intelligentie is het vermogen om te leren en is iets helemaal anders dan kennis.

[Reactie gewijzigd door varkenspester op 23 juli 2024 02:09]

Brandts 6 april 2018 10:30

In de aankondiging vermeldt OpenAI nog dat agents in games soms exploits vinden in games, afhankelijk van hoe de beloningsfunctie is ingesteld.

Wat een leuke maar natuurlijk logische bijkomstigheid. De agent heeft natuurlijk geen idee of hij wel of niet aan het glitchen is, die ziet gewoon een mogelijkheid om binnen de omgeving (de levels en de bijbehorende physics, inclusief glitches) een hoge score te halen

MBicknese 6 april 2018 10:26

Gaaf!

Zou alleen niet weten waar te beginnen.

frickY @MBicknese • 6 april 2018 10:31

Bij de vrijgegeven basisalgoritmes dus.

BigBrotha @MBicknese • 6 april 2018 10:31

Ik keek laatst een filmpje over MarI/O waar ze uitlegde hoe dit in de basis werkt, interessant!
zie:
https://www.youtube.com/watch?v=qv6UVOQ0F44

bantoo 6 april 2018 10:33

Rondkijkend op de site lijkt het niet als of er iets te winnen is in deze competitie. Het is een leuk idee maar iemand moet zich wel zeer gemotiveerd voelen.

Brandts @bantoo • 6 april 2018 10:47

Persoonlijke ontwikkeling en hobby is voor velen vaak al genoeg motivatie. Daarnaast zal een enkele deelnemer willen winnen omdat het goed op hun CV staat.

paoper 6 april 2018 10:29

Deelnemers moeten schijnbaar wel de betreffende games(collectie) via Steam aangekocht hebben. De prijs valt geloof ik nog wel nog mee. Los van dat het ook gewoon vermakelijke games zijn.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (22)

Sorteer op:

Weergave: