DeepMind-model MuZero kan visuele Atari-spellen leren zonder regels te kennen

Google heeft een nieuwe stap gezet met het deeplearningalgoritme van DeepMind. Een nieuwe variant daarvan genaamd MuZero kan niet alleen spellen leren door deze veel te spelen, maar ook zonder de regels vooraf te kennen. MuZero kan zelfs visuele spellen spelen.

MuZero is een nieuwe AI van Googles machinelearningalgoritme die door dochterbedrijf DeepMind is gemaakt. Het algoritme is een spirituele opvolger van AlphaGo en AlphaZero, dat spellen als Go en schaken leerde en daarmee wereldkampioenen versloeg. MuZero kan schaken en Go leren, maar ook complexere visuele spellen van Atari. Google zegt bovendien dat MuZero de regels van het spel zelf kan leren door bepaalde strategieën te proberen.

Volgens Googles wetenschappers maakt MuZero gebruik van een model based planning-model, in tegenstelling tot een lookahead search. Bij dat laatste neemt een AI een beslissing op basis van mogelijke uitkomsten van beslissingen, en dat is het model waar ook AlphaGo en AlphaZero gebruik van maken. Algoritmes op basis van dergelijke beslissingsbomen werken volgens de onderzoekers vooral goed op basis van voorgesorteerde modellen met gedefinieerde regels. Spellen zoals schaak en Go hebben zulke regels en daarom zijn AlphaGo en AlphaZero er zo goed in. Daarvoor moet het algoritme dus wel vooraf trainingdata over het op te lossen probleem hebben gekregen.

MuZero

In de 'echte wereld' hebben problemen volgens de onderzoekers niet zulke gedefinieerde regels. Daarom maakt MuZero gebruik van model based planning, maar wel op een eigen, beperkte manier. Daarbij maakt de AI eerst een model van een omgeving en de mogelijke acties, om op basis daarvan een keus te maken over de beste volgende stap.

Bij afgekaderde omgevingen zoals een spel als Go is dat nog wel te doen, maar bij visuele omgevingen zoals een computergame wordt dat moeilijker omdat er zoveel verschillende aspecten zijn om rekening mee te houden. "MuZero gebruikt een andere aanpak om over dat soort limieten heen te komen", schrijven de wetenschappers. "In plaats van een model van een complete omgeving te maken, creëert MuZero een model op basis van alleen de aspecten die belangrijk zijn voor het beslissingsproces." De AI kijkt daarbij specifiek naar de waarde van de huidige positie, de waardeberekening van wat de beste actie is om uit te voeren, en vervolgens een waarde van het resultaat van de vorige actie. Op die manier kan MuZero ook werken in een omgeving waarbij het vooraf niet weet wat de parameters en beperkingen zijn.

De onderzoekers lieten MuZero vervolgens los op enkele visuele spellen van Atari, waaronder Ms Pac-Man. Daar moest de AI zelf leren wat de beste acties waren om te nemen. Het resultaat is volgens de onderzoekers dat hoe meer trainingen MuZero zelf kan uitvoeren, hoe slimmer de AI het spel kan spelen. In totaal lieten de onderzoekers MuZero 57 Atari-games spelen, waaronder Defender, Alien, Space Invaders en Yars Revenge, blijkt uit de tijdelijke paper die vorig jaar al verscheen.

leercurve MuZero Atari — Leercurves van MuZero in Atari bij een selectie van games.Totale beloning staat op de y-axis, de miljoenen trainingstappen op the x-axis. Lijn markeert de gemiddelde score van 1000 evaluatiegames, gekleurde regio's de standaarddeviatie.

IT-banen

Reacties (61)

drZymo

24 december 2020 13:41

Dit is natuurlijk een bijzondere mijlpaal, maar het is al wel oud nieuws. De originele paper is al n jaar oud, maar is nu pas in Nature gepubliceerd. Vandaar dat t nu weer in t nieuws komt.

In de tussentijd zijn er al andere algoritmes ontwikkeld die vergelijkbaar of zelfs beter presteren. In een van de moeilijkste atari games (montezuma's revenge) doet bijvoorbeeld het algoritme "First return then explore" (https://paperswithcode.com/paper/first-return-then-explore) het n heel stuk beter. Verder heeft deepmind met hun eigen Agent57 (https://paperswithcode.co...erforming-the-atari-human) een algoritme genaakt die overall beter presteert.

gaskabouter 24 december 2020 12:39

Er is nog een prachtig voorbeeld wat ze niet kunnen. Ik hoorde het laatst op een congres. Ze lieten een jongetje van drie een man observeren die met stapel boeken in zijn hand tegen een kast aan bleef lopen.

Na drie keer stond het jongetje op om de kast open te doen. Het duurt nog wel even voor een computer zich in de man kan verplaatsen en begrijpt dat hij de deur niet kan open doen en dat dat nodig is omdat daar de boeken in moeten......

Google en anderen boeken echt veel progressie maar het blijft vooralsnog heel beperkt qua begrip in een heel gecontroleerde omgeving. Maar wel gaaf natuurlijk.

Ik begrijp de -1 niet?

[Reactie gewijzigd door gaskabouter op 22 juli 2024 18:02]

DigitalExorcist @gaskabouter • 25 december 2020 13:27

En toch is dat ook terug te voeren op algoritmen. Dus is het te programmeren.

gaskabouter @DigitalExorcist • 25 december 2020 15:12

Als jij denkt dat het menselijke brein op basis van algoritmes werkt weet je meer dan de wetenschap. De werkelijkheid is dat het niet onwaarschijnlijk is maar helemaal niet bewezen. Laat staan begrepen....

gaskabouter @DigitalExorcist • 25 december 2020 15:37

Helder standpunt. En maakt iedere discussie overbodig. De neurowetenschap is klaar!

DigitalExorcist @gaskabouter • 25 december 2020 17:33

Dat is het op zich ook wel 😊

Het is echter meer een filosofische standpunt dan wetenschappelijk.. maar noem mij iets dat géén aangeleerd gedrag is dan?

[Reactie gewijzigd door DigitalExorcist op 22 juli 2024 18:02]

FriXion @DigitalExorcist • 25 december 2020 17:50

Je hand wegtrekken als iemand er een vlam tegenaan houdt.

grrfield @FriXion • 26 december 2020 22:53

Inderdaad en gelukkig maar. Het is een van de elementen die ons in stand houdt.

Al de rest is momenteel nog gerommel in de marge. Het blijven Von Neumann machines. Procedureel en niets meer, hoe groot de database ook is die er achter schuilt. Verder dan wat procedureel genereren zijn we echt nog niet gekomen.

[Reactie gewijzigd door grrfield op 22 juli 2024 18:02]

gaskabouter @DigitalExorcist • 25 december 2020 17:51

De basis reactie op basis emoties. Lachen bij blijdschap. Huilen bij verdriet etc.... Als je die emoties niet toont is dat vaak op basis van aangeleerd gedrag.

Maar zelfs taal ontwikkeld zich bij mensen die het niet geleerd hebben. Zie ook Chomsky bijvoorbeeld....

DigitalExorcist @gaskabouter • 25 december 2020 21:46

Taal is een communicatiemiddel.

Emoties, ja, maar lachen om humor of verdriet om een film is weer aangeleerd: dat is subjectief en verschilt van mens tot mens op basis van cultuur of verwachtingen. Een mop heeft een onverwachte wending en dat onverwachte maakt het leuk. Als je een bepaald verwachtingspatroon hebt en dat wordt doorbroken kun je dat grappig vinden..

gaskabouter @DigitalExorcist • 25 december 2020 21:55

En communiceren is geen gedrag?

En idd emoties kunnen gereguleerd worden op basis van aangeleerd gedrag. Maar de emotie zelf is niet aangeleerd. En waarom je uitlegt waarom iets grappig is is bezijden de discussie.

DigitalExorcist @gaskabouter • 25 december 2020 22:03

Communiceren leer je aan..

gaskabouter @DigitalExorcist • 25 december 2020 22:11

Nee. De vorm leer je aan. Iedere baby communiceert. Later leert hij of zij wat effectief is en wat het oplevert. Weer later ontwikkelt hij taal. Als baby's geen menselijke interactie hebben kunnen ze later nog steeds communiceren. Rudimentair maar ze kunnen het wel.

Nogmaals. Je hoeft het van mij niet aan te nemen er is genoeg literatuur. Begin eens bij Chomsky

DigitalExorcist @gaskabouter • 25 december 2020 22:24

Iedere computer communiceert ook. Als er iets te communiceren valt dan kan dat. Baby’s communiceren om en bepaalde noodzaak door te geven.

gaskabouter @DigitalExorcist • 25 december 2020 22:41

Vandaar de term programmeertaal. Je punt is dat als wij een computer zo programmeren wij zelf ook zo geprogrammeerd zijn

DigitalExorcist @gaskabouter • 25 december 2020 23:19

Yep. Dat zijn we ook. Door cultuur, ouders, omgeving, ervaringen uit het verleden.

We doen niks - NIKS - zonder dat we er zelf beter van worden. Die ervaring neem je mee en daar baseer je keuzes op.

Élk gedrag is aangeleerd en terug te voeren tot een if-then-else routine. Wel heel veel routines.. maar in de basis blijft het simpel.

gaskabouter @DigitalExorcist • 25 december 2020 23:29

Ik ben blij voor je dat er voor jezelf uit bent.

Fijne dagen verder

boesOne @DigitalExorcist • 26 december 2020 07:54

Élk gedrag is aangeleerd en terug te voeren tot een if-then-else routine. Wel heel veel routines.. maar in de basis blijft het simpel.

Dit is te simpel en leidt tot een oneindige lijst routines. Dat is onwerkbaar. Waar je filosofisch in de problemen raakt is ongeveer beschreven in het frame probleem. De veelvormingheid en dynamiek van de werkelijkheid dwingt je de vraag hoe te bepalen wat wel en niet relevant is te beantwoorden.

DigitalExorcist @boesOne • 28 december 2020 07:40

Das een interessante inderdaad. Maar kun je door waarneming daar niet een hoop van ondervangen? Het voorbeeld gaat uit van een stoel die verplaatst wordt: je waarneming bepaalt daardoor wat relevant is. De kleur van de stoel doet er op zich al niet echt toe. Die verandert niet maar al zou die na verplaatsing van rood naar groen gaan, is dat echt interessant? Het gaat om de verplaatsing tenslotte..

Zynth @gaskabouter • 28 december 2020 01:21

Helder standpunt. En maakt iedere discussie overbodig. De neurowetenschap is klaar!

Nee, ik denk dat hij mogelijk gelijk heeft.
Het gedrag is aangeleerd.
Alleen de kopie van het gedrag dat die individu heeft, is niet door die individu zelf aangeleerd. Dat is aangeleerd door een individu in een ver verleden, die mede daardoor door natuurlijke selectie en evolutie in ons aangeboren gedrag terecht is gekomen.
De facto als "gedrag" zijnde, dus wel aangeleerd.

Of het was natuurijk gewoon een toevallige genmutatie, die zo handig bleek te zijn dat hij niet meer is weg gegaan.

@DigitalExorcist, enig idee?

DigitalExorcist @Zynth • 28 december 2020 07:36

Je wordt gevormd door je omgeving in die zin ja. “Wij” (westerlingen) hoeven niet meer te jagen op ons voedsel, we leven in bepaalde luxe en weten daarom niet beter. Andere mensen elders op de wereld doen dat weer anders .. en die geven die kennis en ervaring dus ook weer door.

Ja evolutie helpt daarbij natuurlijk wel.

Altruïsme bestaat ook niet. Niemand zal ooit iets doen zonder er zelf beter van te worden. Al is het maar dat je zélf een goed gevoel krijgt als je iets voor een ander hebt gedaan: er is altijd een overweging waarbij je voor jezelf de beste uitkomst kiest.

[Reactie gewijzigd door DigitalExorcist op 22 juli 2024 18:02]

ouweklimgeit @gaskabouter • 24 december 2020 12:49

Ook in dit geval, bij de Atari spellen, zijn er gewoon limitaties. Gaat een ronde niet goed, dan ben je gewoon 'af' en kun je opnieuw beginnen. Maar die 'af' trigger is wel een leermoment voor de AI.

Zet zo'n AI maar achter een bordspel zoals Ganzenbord waar er geen 'af' triggers zijn. Komt 'ie nooit uit. En dat geldt ook voor jouw voorbeeld, iemand die continu tegen een kast aanloopt hoeft geen probleem te zijn.

gaskabouter @ouweklimgeit • 24 december 2020 12:51

Maar als je van "af" een trigger maakt wel. Het mooie van dit scenario is dat de computer zich moet verplaatsen in en ander denkend wezen. En dat kunnen ze nog helemaal niet eigenlijk.

Niet eens in vergelijking tot een kind van drie.

[Reactie gewijzigd door gaskabouter op 22 juli 2024 18:02]

Cemmey @ouweklimgeit • 24 december 2020 13:10

Het ligt wel iets complexer dan alleen "af". De computer moet weten dat het getal achter "score" een beloning is wanneer deze stijgt. Zodra deze gelijk blijft of zakt (doordat je iets kapot schiet wat bijvoorbeeld niet mag) en je levens van 3 naar 2 zakt dan moet het weten dat dit niet goed is. Op die manier moet het eerst alle elementen en waardes uit het spel leren kennen om beter te worden. Eigenlijk precies hoe wij het ook doen.

3raser @gaskabouter • 24 december 2020 13:11

Ik denk dat je die leermomenten onderschat. Een AI voert gewoon miljoenen mogelijkheden uit en daarbij komt het open doen van een deur echt wel een keer naar voren.

Kijk anders deze video even over een AI die een spelletje verstoppertje speelt. Er gaan miljoenen leerrondes overheen maar uiteindelijk komt de AI altijd met een (soms bijzondere) oplossing.

Super_Fred @3raser • 24 december 2020 13:21

Dit betekent wel, dat in dit geval (veel) fouten maken een optie is. Bij games of simulaties is dat geen probleem, maar ik zie zo geen real-life toepassing? Ai kan op deze manier niet uitvinden wat de beste manier is om een harttransplantatie uit te voeren bijvoorbeeld.

3raser @Super_Fred • 24 december 2020 13:50

Het AI kan eerst via simulaties leren wat de bedoeling is. Dan ben je al een heel eind. Je leert een baby ook geen harttransplantatie uit te voeren. Als het AI eenmaal weet hoe het normaal gesproken werkt en wat zogezegd de kneepjes van het vak zijn, waarom zou hij het dan niet kunnen? Vergeet niet dat veel van deze algoritmes die spelletjes spelen ook leren van mensen die het al kunnen. Volgens mij heeft AlphaGo eerst alle potjes van de wereldkampioen bekeken om er van te leren voordat hij zelf zo goed werd.

[edit] Als ik daar nog iets aan toe mag voegen zou ik het wel interessant vinden om te zien hoe een AI omgaat met fouten als het daadwerkelijk in de praktijk zou worden toegepast. Stel je voor dat een AI een operatie uitvoert en hij zou per ongeluk een vitale ader beschadigen, kan hij het dan ook zelf oplossen? Stel dat de patient het overleeft en de operatie geslaagd is, hoe ziet de AI zijn prestatie dan? Is de operatie een succes of niet? Want zo zwart wit worden de meeste prestaties wel bekeken als je een AI iets aanleert. Het zou dan eigenlijk zijn, operatie mislukt, herstelpoging geslaagd.

[Reactie gewijzigd door 3raser op 22 juli 2024 18:02]

gaskabouter @3raser • 24 december 2020 15:30

Een hartransplantatie is helemaal geen ingewikkelde handeling. Alle kennis die je moet verzamelen om die sequentie van handelingen min of meer correct uit te voeren is een stuk ingewikkelder. Het probleem is een computer leren dat iets niet goed is of fout, de meeste vaatjes kan je gewoon doorbranden, maar wanneer iets een beetje fout is, gewoon onhandig of een klein soort ramp.

Lapa @3raser • 24 december 2020 22:08

Voor de eerste generatie van AlphaGo heb je volgens mij gelijk. De tweede generatie, die véél sterker is en nog nooit door een mens verslagen is, heeft het alleen geleerd door tegen zichzelf te spelen.

gaskabouter @3raser • 24 december 2020 15:23

Dit is een leuk voorbeeld waarbij je met miljoenen keren dezelfde situatie uiteindelijke iets leert. Een kind van drie probeert niet na drie miljoen keer een keer de kast open te doen maar bedenkt na drie keer wat iemand anders waarschijnlijk wil en handelt in de intentie de ander te helpen. Zover is ai de komende decennia echt nog niet by a long shot.

Überhaupt inschatten wat iemand anders waarschijnlijk wil zit er de komende decennia echt niet in anders dan gewoon patroonherkenning...

Possemaster @gaskabouter • 24 december 2020 13:05

Wanneer die computer in die drie jaar van het kind dezelfde dingen had geleerd als dat jongetje was dat waarschijnlijk wel het geval geweest.

gaskabouter @Possemaster • 24 december 2020 15:26

Het bijzondere is dus dat dat kind de situatie voor het eerst ziet en er geen drie over doet om dezelfde situatie iedere keer opnieuw te doen totdat hij het goed doet.

Possemaster @gaskabouter • 24 december 2020 15:31

klopt, maar het jongetje weet wel hoe een deur open gaat, en begrijpt intenties omdat ie dat heeft geleerd.
Die jongen kan het ook fout hebben. De persoon die met die stapel boeken tegen een deur loopt kan het ook doen omdat er 1 boek scheef zit in zijn stapel. Dus er is altijd een foutmarge en dat is waar de AI naar toe moet.

gaskabouter @Possemaster • 24 december 2020 15:37

Ik denk dat de crux hem daar niet eens zo in zit. De onderzoekers die dit experiment deden leggen achteraf uit dat het op zich helemaal niet logisch is boeken in een kast te doen. Een computer zal dus vrij snel denken dat dat niet de bedoeling zal zijn. Terwijl het kind de boeken en de kast niet zo relevant vindt, maar juist de intentie van de man.

Dat is een computer veel moeilijker te leren.

fjjl 24 december 2020 12:59

Knap werk is dit. Vooral het aanleren van regels vind ik bijzonder in deze. Die moeten toch gedefinieerd zijn, anders worden willekeurige zetten uitgevoerd die niet mogen volgens de regels lijkt mij. Ik mis dus een klein beetje uitleg hoe dat gedaan is, of gebeurd dat door te kijken naar eerder gespeelde spellen?

phiemstra @fjjl • 24 december 2020 13:17

De regels zitten impliciet in de beloning die het algoritme krijgt voor een actie. Door veel te spelen tegen zichzelf, en terug te krijgen wat wel of niet een beloning oplevert krijgt het algoritme een beeld van wat de optimale beslissing is geven een bepaald situatie in het spel. Voor detail zou ik googlen naar Reinforcement Learning, wat de techniek is die MuZero gebruikt.

In de eerder oplossingen werd veel kennis van tevoren al in het systeem gestopt: menselijke speldata, kennis over het spel, en kennis over de regels. Dat je deze regels oplegt ipv leert betekend dat wat het algoritme moet leren makkelijker wordt. Wel is het nadeel dat de extra kennis beschikbaar en accuraat moet zijn.

Bij een spel als schaken bestaat deze kennis, maar voor veel problemen in de echte wereld is dit niet het geval. Daarom is het gaaf dat ze nu voor deze spellen het ook kunnen zonder de extra kennis. Dat is veelbelovend voor de andere toepassingen zoals zelfrijdende auto's.

[Reactie gewijzigd door phiemstra op 22 juli 2024 18:02]

KopjeThee @phiemstra • 24 december 2020 16:00

De regels zitten impliciet in de beloning die het algoritme krijgt voor een actie.

Ik denk dat hier de onduidelijkheid zit. De AI speler kent de schaakregels niet. Maar de omgeving waarin de spelers tegen elkaar spelen, en die beloningen uitdeelt, zal wel op de hoogte zijn van de regels (wat geldige zetten zijn en wanneer je gewonnen hebt).

badboyqxy @phiemstra • 24 december 2020 16:43

Waar zit hem nu het verschil in tegen de situatie die ze gebruikt hebben bij starcraft 2 en bij dota of league ?

maniak @fjjl • 24 december 2020 13:09

Ik vroeg mij hetzelfde af. Wij mensen hebben een intern beloningsysteem bv wanneer we doelen bereiken of punten erbij krijgen. Doordat spellen hierop inhaken worden wij "gestuurd" om de regels te volgen. Vraag mij af hoe ze dit voor elkaar hebben gedaan bij de AI.

Verwijderd @maniak • 24 december 2020 13:54

Dat doen ze door een beloningsysteem na te bootsen voor de AI. Je kunt dit doen door bijvoorbeeld voor elke zet een aantal punten toe te kennen en dus bv geef je minpunten voor een slechte zet. Door dan heel veel te trainen krijgt de AI na een tijdje door welke zetten goed zijn en welke slecht. Dit is natuurlijk wel een super versimpelde uitleg, in de praktijk is het een stukje ingewikkelder.

steveman @Verwijderd • 24 december 2020 14:16

Een probleem waar je dan tegenaanloop is dat het puntensysteem niet continu verloop, maar grote stappen zetten vanaf een heel groot "nutteloos" plateau.

Heel lang met je poppetje tegen de muur aan lopen zal niet veel scoren qua metric die het algoritme probeert te optimaliseren. En de stap tot, vijand neerknallen, 4 op een rij krijgen, uitgang vinden, wat wel nut heef is best groot.

Met top down kennis zal je dan iets als metric toe kunnen voegen die utility hebben: afgelegde afstand, rake schoten... dat soort dingen. Echter, als de AI ook die metric zelf moet leren is dat een beste klus!

Ben heel benieuwd naar de ins en outs

JackBol @steveman • 24 december 2020 14:42

Daarom doen ze dit niet 1 keer, maar bijv 10000 keer met random patronen en pakt de AI het patroon dat de meeste punten heeft opgeleverd en doet het dan weer 10000x random.

Heel veel trial en error (ze leren net zoals kinderen).

Superstoned @JackBol • 25 december 2020 08:29

Kinderen leren gelukkig niet door random dingen te doen :-) van fouten let je maar als je alles eerst een miljoen keer fout moest doen ging het niet goed... wij hebben veel ingebakken en leren van nadoen en observeren. En veel hypotheses vormen een testen. We zijn voorgeprogrammeerd om overal causaliteit en intentie te zien.

Tweekzor @maniak • 24 december 2020 14:16

Dat gebeurd voor de AI redelijk met dezelfde beloningen. Denk hierbij dus aan behaald aantal punten maar ook duur van speelsessie. Langer leven = beter, maar als je dat doet door stil te staan zonder punten behaal je natuurlijk niks. Dus meer punten = meer beter. Een AI zal dan leren om random uitgeprobeerde tactieken te onthouden en deze in te zetten op verschillende punten om zo tijdsduur en verkregen punten te maximaliseren.

[Reactie gewijzigd door Tweekzor op 22 juli 2024 18:02]

WhiteDog @fjjl • 24 december 2020 13:19

In een simpel spel met een controller (4 richtingen en 2 knoppen) kan je eigenlijk niets fout doen, de limitaties en regels zitten al in het spel ingebakken.

Ik zou het eerder vergelijken met deze AI een schaak-computerspel laten spelen. Daar kan je ook niets in doen wat niet mag. Maar mogelijk "leert" de AI zo de regels en gaat hij minder dingen proberen die toch nooit tot success lijden (bv. in een opening springen in Super Mario Bros).

R4gnax @WhiteDog • 25 december 2020 15:39

In een simpel spel met een controller (4 richtingen en 2 knoppen) kan je eigenlijk niets fout doen, de limitaties en regels zitten al in het spel ingebakken.

Ik zou het eerder vergelijken met deze AI een schaak-computerspel laten spelen. Daar kan je ook niets in doen wat niet mag. Maar mogelijk "leert" de AI zo de regels en gaat hij minder dingen proberen die toch nooit tot success lijden (bv. in een opening springen in Super Mario Bros).

Interessant voorbeeld wat je aanhaalt, want er is ooit al eens een AI getraind om het eerste level van Super Mario Bros te spelen.

Inderdaad; door controller input te koppelen aan een af-conditie en een monotoon stijgende functie die score voor een oplossing bijhoudt. In dit geval: de af-conditie is een leven verliezen, om wat voor reden dan ook, en de stijgende functie is hoe ver Mario naar rechts door het level gevorderd is. (Tijd telde dacht ik niet als factor. Buiten de teller helemaal naar nul laten lopen uiteraard, want dat triggert de af-conditie.)

En laat vervolgens het AI maar button-mashen. Kostte dacht ik 5u trainen voordat het level uitgespeeld was.

[Reactie gewijzigd door R4gnax op 22 juli 2024 18:02]

Lapa @fjjl • 24 december 2020 21:53

Dit algoritme wordt ingezet bij computerspellen zoals Pacman. Hoe vaak is het jou in Pacman gelukt om iets tegen de regels te doen?
En hetzelfde geldt natuurlijk als zo'n algoritme schaak speelt, het algoritme kent de regels niet maar heeft alleen beschikking over de zetten die op dat moment kunnen. Net zoals een mens die schaak op de computer speelt.

fjjl @Lapa • 24 december 2020 22:38

Wanneer de zetten die mogelijk zijn vastgelegd zijn voor het algoritme, zijn de regels dus bekend voor het algoritme. Welke zetten gespeeld kunnen worden volgt namelijk uit de spelregels. Maar hetgeen hier boven is uitgelegd over beloningen waarmee de regels worden aangeleerd, beantwoord mijn vraag

Lapa @fjjl • 24 december 2020 22:46

Nee, dat is echt wat anders. Als je dit algoritme (of een mens die het spel niet kent) achter een computer schaakspel of super mario zet dan kent het de regels niet, maar het is alleen maar mogelijk om dingen te doen die kunnen volgens de regels. Daardoor leert het algoritme (of de mens) uiteraard op termijn wel de regels.

Loy 24 december 2020 12:52

DeepMind is een bedrijf van Google, niet de naam van een algoritme.

JW1

24 december 2020 13:18

Grappig ook om te zien wat de factor geluk en skill is in de afzonderlijke Atari spelen. Tenminste als ik het goed zie. Als de deviatie heel hoog is, dan is geluk een grote factor en als de lijn heel hoog komt, zonder veel deviatie, dan is skill een grote factor. Of een trucje/timing dingetje, zoals o.a. boxing lijkt te hebben.
Wat ik me afvraag: daar waar de AI minder scoort aan het eind (bank_heist, battlezone, berserk, gravitar), zijn daar meer speelsessies nodig, herkent de AI de failure modes niet, bijvoorbeeld als verkeerde keuzes pas later problemen geven of is het iets anders?

YumYum 24 december 2020 15:33

Vraag me af of je ook dit soort leeralgoritmes kunt toepassen op het zelfrijdend maken van autos. 2 Miljard Tesla Autopilot kilometers als dataset en hoppa!

jaenster 24 december 2020 12:41

Dit laat maar weer zie hoe verneukeratief marketing is.

Elke keer is dit "de stap" en is het nu "echt zoals de mens", en elke keer gaan ze een stap verder waar ze de vorige stap afkraken.

matroosoft @jaenster • 24 december 2020 12:51

Er is een bepaald kader waarbinnen het systeem opereert zoals een mens ook zou doen. Dat kader wordt steeds een stukje groter.

Zomborro 24 december 2020 14:14

The Skynet Funding Bill is passed. The system goes on-line August 4th, 1997. Human decisions are removed from strategic defense. Skynet begins to learn at a geometric rate. It becomes self-aware at 2:14 a.m. Eastern time, August 29th. In a panic, they try to pull the plug.

cappie 24 december 2020 14:38

Ik ben niet onder de indruk... laat ze maar een AI ontwikkelen die Factorio kan spelen en daar in een raket weet te lanceren.. DAN ben ik pas onder de indruk.

Zyphlan 24 december 2020 21:19

Ze hebben een documentaire gemaakt over deepmind en alphago kampioenschap .... persoonlijk vond ik hem erg goed.

https://www.youtube.com/watch?v=WXuK6gekU1Y&t=317s

With more board configurations than there are atoms in the universe, the ancient Chinese game of Go has long been considered a grand challenge for artificial intelligence. On March 9, 2016, the worlds of Go and artificial intelligence collided in South Korea for an extraordinary best-of-five-game competition, coined The DeepMind Challenge Match. Hundreds of millions of people around the world watched as a legendary Go master took on an unproven AI challenger for the first time in history.

Directed by Greg Kohs and with an original score by Academy Award nominee Hauschka, AlphaGo chronicles a journey from the halls of Oxford, through the backstreets of Bordeaux, past the coding terminals of DeepMind in London, and ultimately, to the seven-day tournament in Seoul. As the drama unfolds, more questions emerge: What can artificial intelligence reveal about a 3000-year-old game? What can it teach us about humanity?

[Reactie gewijzigd door Zyphlan op 22 juli 2024 18:02]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (61)

Sorteer op:

Weergave: