Deepmind ontwikkelt versie van AlphaGo die zonder kennis go leert spelen

Googles ai-afdeling Deepmind heeft een variant van AlphaGo ontwikkeld die zichzelf het spel go kan leren. Het systeem, AlphaGo Zero, heeft daarvoor niet een groot aantal door mensen gespeelde go-spellen nodig als input.

Dit had de vorige versie wel nodig, maar AlphaGo Zero leert alleen door het spel tegen zichzelf te spelen, beschrijft Deepmind in een paper en een bijbehorende blogpost. De nieuwe versie start met leren door in eerste instantie volledig willekeurige go-potjes te spelen. Na drie dagen was AlphaGo Zero in staat om het niveau van de versie van het systeem te behalen dat Lee Sedol versloeg. Na 21 dagen bereikte het systeem het niveau van de Master-variant, die online potjes won tegen 60 spelers en won van de Chinese topspeler Ke Jie. Na 40 dagen was het nieuwe systeem beter dan elke voorgaande AlphaGo-versie, aldus Deepmind.

elo alphago zeroElo-rating, van de verschillende varianten

Deze ontwikkeling is mogelijk aan de hand van een nieuwe vorm van reinforcement learning. In eerste instantie speelt een neuraal netwerk spellen tegen zichzelf met behulp van een zoekalgoritme, legt de organisatie uit. Deze versie weet niets over het spel go, behalve de regels. Tijdens het spelen voorspelt het neurale netwerk zetten en de uiteindelijke winnaar van potjes. Doordat er steeds nieuwe iteraties volgen, ontstaat er op die manier een systeem dat zichzelf elke keer verbetert. Het voordeel zou daarbij zijn dat de nieuwe versie van AlphaGo niet meer 'beperkt is door de grenzen van menselijke kennis', maar volledig uit het niets kan beginnen.

Er zijn ook andere verschillen met voorgaande versies. Zo heeft AlphaGo Zero slechts één neuraal netwerk, waar dat er eerst twee waren. Daarbij selecteerde één de zet en voorspelde het andere de winnaar vanuit elke nieuwe positie. Deze functies zijn nu gecombineerd in de nieuwe variant. Doordat het systeem in de loop van de tijd steeds efficiënter is geworden, heeft het ook minder tpu's nodig. De AlphaGo-versie die Lee Sedol versloeg, had 48 van deze chips, terwijl de huidige versie het met 4 doet. AlphaGo Zero versloeg de Lee-versie na drie dagen met een score van 100-0.

Door Sander van Voorst

Nieuwsredacteur

19-10-2017 • 10:04

50

Submitter: Nactive

Lees meer

Reacties (50)

50
47
24
7
1
21
Wijzig sortering
"niet meer 'beperkt is door de grenzen van menselijke kennis', maar volledig uit het niets kan beginnen"

Met name dit aspect is belangrijk voor de vooruitgang in de prestaties van algoritmes. Een algoritme werd 'vroeger' vooral gevoed met een behoorlijke Test-set. Hiermee calibreert het algoritme zijn parameters iteratie-na-iteratie. Nu lijkt het er op dat de Test-cases niet meer een historische case is, maar een gegenereerde case.

Als het aantal use-cases uitbreidt waarbij een succesvolle uitkomst door het algoritme zelf beoordeeld kan worden, is het daarmee autonomer en in een aantal gevallen ook preciezer. Dit omdat de menselijke interpretatie/kennis geen beperking meer is. Zodra algoritme inderdaad beter in staat zijn de wenselijke uitkomst te bepalen, zijn we weer een enorme stap verder naar autonoom leren.
"niet meer 'beperkt is door de grenzen van menselijke kennis', maar volledig uit het niets kan beginnen"
De opgeblazen zelfoverschatting van de AI ontwikkelaars heeft weer een nieuw hoogtepunt bereikt. Hun algoritme dat een heel simpel bordspelletje met in beton gegoten regels en doelen beheerst zou beter zijn omdat het 'niet meer beperkt is door menselijke kennis'. Ja, wat moet je nou met al die menselijke kennis.

Laten we daarom aan een vierjarige kleuter de volgende vragen stellen. De vragen zijn de afgelopen jaren al beantwoord door heel geavanceerde, door en door geteste algoritmes van technische topbedrijven.

Vraag 1: Een nieuwe Airbus geeft na het opstijgen aan dat drie van de vier motoren problemen hebben, in ieder geval tegenstrijdige informatie doorsturen.
Antwoord algoritme: Uitzetten die 3 motoren! (En inderdaad stortte daardoor het vliegtuig neer, ja)

Vraag 2: De Europese marslander berekent dat hij onder het oppervlak vliegt. Een negatieve hoogte. Wat te doen?
Antwoord: Het algoritme aarzelt niet, starten die landingsmotor! (En stortte van 3,7km hoogte te pletter)

Kortom, deze door echt hele slimme mensen bedachte algoritmes misten het beetje menselijke kennis en inzicht die zelfs een 4-jarig kleuter wel heeft. Niet dat hij of zij de problemen eventjes zou oplossen maar zelfs een 4 jarige kleuter weet dat een vliegtuig zonder motoren neerstort en een marslander niet onder de grond kan vliegen.

Ik heb verder niets tegen algoritmes, bij het bewerken van films en foto's doe ik niets anders dan gebruik maken van slimme algoritmes. Mijn auto en motor zitten er vol mee en maken rijden een stuk makkelijker en veiliger. Het zijn fantastische hulpmiddelen. Maar aan welk algoritme dan ook meer intelligentie toekennen dan aan een demente fruitvlieg gaat mij echt te ver. Laat staan dat ze onze 'menselijke kennis' zouden kunnen vervangen.
De opgeblazen zelfoverschatting van de AI ontwikkelaars heeft weer een nieuw hoogtepunt bereikt. Hun algoritme dat een heel simpel bordspelletje met in beton gegoten regels en doelen beheerst zou beter zijn omdat het 'niet meer beperkt is door menselijke kennis'. Ja, wat moet je nou met al die menselijke kennis....
Go is een 'bordspelletje' is dat een stapje of heel veel complexer is dan schaken, vanwege de volgende redenen:

- Alles mag, op op slechts 2 uizonderingen na: je eigen stenen slaan, en herhaling van zetten.
- Het bord heeft 19x19 punten, in plaats van 8x8 velden.

Het heeft de mens duizenden jaren gekost om uit te vinden hoe dit spel goed gespeeld moet worden. Als je historische partijen bekijkt (100, 200, 500, 1000 jaar terug) dan zie je speeltechnieken en theorieën die uiteindelijk niet correct bleken te zijn in latere eeuwen. Openingen die in 1750 werden gespeeld, zie je nu niet meer terug simpelweg omdat er ontdekt is dat ze nadelig zijn voor de speler die ermee begint.

(PS: Met schaken is dit ook gebeurd, maar Go is veel ouder, en heeft een veel langere geschiedenis.)

Het punt is echter dat mensen voortbouwen op wat men weet op dit moment, en men niet heel ver terug gaat in de tijd om dingen te wijzigen, behalve als 'toevallig' iemand 'een gevoel' heeft dat iets beter zou kunnen; en diegene gaat daarmee experimenteren in toernooien. Het kan jaren duren voordat besloten wordt of de alternatieve manier van spelen beter, slechter, of gelijkwaardig is.

Tevens kunnen mensen maar een bepaalde hoeveelheid complexiteit behappen; er is een grens aan hoe ver je vooruit kunt zien, hoe goed je intuïtie is, hoeveel data je kunt onthouden en pasklaar kunt hebben. Een computer heeft die beperkingen niet. Gooi er meer CPU-kracht tegenaan, en hij kan verder denken in dezelfde tijd. Geef hem meer geheugen en data, en hij zal meer, en alles, pasklaar hebben, altijd. Intuïtie is vervangen door het neurale netwerk.

Door vanaf nul te beginnen, kan de computer de evolutie van Go 'overdoen'; hij kan in 6 weken meer doen dan wat de mensheid in 2000 jaar voor elkaar heeft gekregen. Omdat hij geen menselijke input krijgt, is hij ook niet beperkt door het menselijk denken, en kan dus zetten overwegen die mensen niet zouden meenemen. Een zet lijkt misschien niet goed te zijn in de gedachte van een mens, maar dat wordt besloten waarin de twee beste varianten 20 zetten diep worden geanalyseerd, met de conclusie "zet werkt niet". Een computer kan bijvoorbeeld wél een variant vinden, 37 zetten diep, die gebruik maakt van andere onderdelen op hetzelfde bord, waar mensen niet eens aan zouden denken, bijvoorbeeld omdat het 'onwaarschijnlijk' lijkt; en als ze eraan denken, is de complexiteit zo hoog dat ze het niet kunnen doorrekenen.

In de top van de Go-wereld heeft AlphaGo een daverende invloed gehad op hoe de opening en het eindspel gespeeld dienen te worden. Sommige technieken zijn gewijzigd, en sommigen zijn al in ongebruik gevallen. Zelfs in het middenspel heeft AlphaGo de inzichten veranderd, bijvoorbeeld op wat er mogelijk is in gevechten. AlphaGo kan met een groep stenen overleven in gebieden die volgens de experts te weinig plaats daarvoor hebben, simpelweg omdat AlphaGo tactische zetten ("close combat" gevechtszetten) kan zien die mensen nooit van zijn lang-zal-ze-leven zouden kunnen doorrekenen, waardoor AlphaGo dus 'onverwacht' gevechten kan winnen waarvan altijd gedacht werd dat dit niet mogelijk zou moeten zijn.

Het is zelfs zo ver dat mensen in bepaalde situaties zetten spelen die AlphaGo in die situatie heeft gespeeld, omdat het 'de juiste zet is'; terwijl ze niet zelf begrijpen _waarom_ het de juiste zet is. Men snapt slechts dat AlphaGo's nieuwe manier resultaten bereikt die voorheen onmogelijk werden geacht.

[Reactie gewijzigd door Katsunami op 22 juli 2024 14:01]

Ik krijg het idee dat je de essentie nog niet goed begrepen hebt van deze stap vooruit.

Daarnaast wordt het gezien als stap vooruit en om dit opgeblazen zelfoverschatting te noemen lijkt mij ook een stap te ver. Het is vooral de buitenwacht die intelligentie toedicht aan AI, een gemiddelde Data-scientist noemt het gewoon optimalisatie algoritmes.

Je voorbeelden snijden ook geen hout. Je zult altijd pogingen kunnen vinden in de ontwikkeling van een technologie die de productiefase nooit halen. Is daarom de technologie bij voorbaat af te schrijven voor de doelen die er wel zijn?

We hebben nog veel te leren over Neural Networks en de varianten ervan. Veel experts weten niet eens precies hoe de wiskunde erachter werkt. Ik vind je uitspraken dan ook iets te kort door de bocht.
Mijn uitspraken zijn wel wat kort door de bocht maar ik word ontzettend kriebelig van al die juichende stukjes over de fan-tas-tische prestaties van AI en Zelflerende systemen waarbij als sluitstuk ergens wordt opgemerkt dat die zolangzamerhand toch wel superieur worden aan mensen. Vooral als ze niet meer, zoals hier, worden 'beperkt door het menselijk brein'

Het programma 'kende alleen de regels van het spel'. Ja, en meer hoef je ook niet te weten omdat die paar hele simpele regels ALLES inhouden van het spel. Alle winnende strategieen zitten er al in opgesloten en ik geloof best dat een slimme programmeur een algoritme bedenkt dat al proberend en interrerend zelf een situatie oplevert waarbij de nulletjes en eentjes zoveel mogelijk overeenkomen met wat als 'gewonnen' is ingeprogrammeerd. Dat is op zich een uiterst knappe prestatie van de programmeurs, zij zijn bijzonder slim, het programma zelf is gewoon een programma. niet slim, niet dom, gewoon software en die hele opmerking over de begrenzing van de menselijke kennis is zinloos.
Je spreekt jezelf tegen.

Ja, de regels zorgen ervoor dat er bepaalde strategieën en tacktieken zijn die wel of niet werken, en waarbij de ene beter werkt dan de andere, afhankelijk van de situatie.

Het hele punt is het volgende.

- Ik vertel jou de regels van Go. Hoe lang kost het jou, om zonder enige extra input, het niveau van de huidige sterkste speler te benaderen door zelf te leren wat wel en niet werkt? Waarschijnlijk bereik je niet eens het 1d (1 dan, amateur) niveau, laat staat 1p (1 dan professional) of 9p.

- Ik vertel AlphaGo de regels van Go. Binnen 3 dagen bereikt AlphaGo het niveau van de versie die Lee Sedol versloeg, die vanaf 2003 tot 2013 als sterkste speler aller tijden gold. Binnen 3 weken bereikt het programma het niveau van de versie die Ke Jie inmaakte, de speler die tegenwoordig met enige afstand de sterkste ter wereld is.

Daarbij komt dan nog dat Ke Jie niet alleen heeft gestudeerd: zijn kennis en speelsterkte is de culminatie van 2000 jaar menselijk onderzoek naar Go; een culminatie van kennis uit China, Japan (vooral 1500-1985), Zuid-Korea (1985-2010), en nu weer China. AlphaGo maakt er compleet gehakt van nadat de regels zijn medegedeeld en het systeem een weekje of 6 heeft lopen prutsen.

Dus ja, de mensheid wordt door haar eigen denken en kunnen beperkt, want klaarblijkelijk is na 2000 jaar studie in 3 landen nog steeds het toppunt niet bereikt. Als dat wel zo was geweest, dan was AlphaGo _hoogstens_ zo sterk geworden als de sterkste mens, maar niet sterker. (Het toppunt betekent immers dat je alles weet, alle kennis altijd pasklaar hebt, en nooit fouten maakt.)

[Reactie gewijzigd door Katsunami op 22 juli 2024 14:01]

Het enige wat ik zie is een computer die regeltjes kan onthouden en daar heel snel enorm slimme simulaties op kan los laten.
Daar beschrijf je een schaakcomputer zoals Deep Blue, die probeert inderdaad in een gigantisch tempo verschillende zetten en kiest de beste.

Deze go-computer werkt compleet anders. Omdat het aantal mogelijke zetten gigantisch is zou het botweg proberen van alle mogelijkheden niet werken. Wat AlphaGo doet is aan een neuraal netwerk vragen "welke zetten zijn waarschijnlijk het best?" en alleen dat (kleine) groepje zetten wordt onderzocht. Het grootste verschil met een menselijke speler is dat de mens begrijpt waarom die zetten het overwegen waard zijn; AlphaGo komt niet verder dan "dat zegt mijn netwerk" (of, populair verwoord "dat zegt mijn gevoel").
Alleen dit keer hebben ze een methode gevonden om dit veel sneller te doen. Namelijk door het gebruik van nieuwe technieken en door het weghalen van de menselijke vertraging door het systeem "tegen zichzelf " te laten spelen.
Nee, dat is niet hoe het werkte. AlphaGo heeft alleen tegen mensen gespeeld om te laten zien hoe goed ie op dat moment was, maar is nooit getraind tegen mensen (en het verwijderen van de mens had dus niets met vertraging te maken).

Het punt is dat de vorige versies een soort van "basiskennis go" kregen door talloze spellen tussen mensen onderling als invoer te gebruiken. Net als bij schaken is er een enorme database van oude spellen beschikbaar. Die worden normaal gesproken door menselijke spelers als oefenmateriaal gebruikt, maar je kunt ze ook gewoon allemaal aan AlphaGo voeren onder het motto "kijk, dit is hoe de beste menselijke speler go spelen, probeer dat na te doen". Nadat die spellen allemaal verwerkt zijn heb je (als ik me goed herinner) een erg matige go-speler (goede amateurs kunnen er nog van winnen). Daarna ga je naar de tweede fase van de training: laat hem tegen zichzelf spelen, om steeds beter te worden.

Dit nieuwsbericht zegt dat de nieuwste versie niet eerst die database van oude spellen doorwerkt maar alleen de regels kent. Met werkelijk geen idee wat ie aan het doen is zit er dus niks anders op dan (letterlijk!) zomaar een willekeurige zet te doen. Van deze versie kan zelfs ik nog winnen ;) Deze compleet hopeloze versie gaat daarna meteen tegen zichzelf trainen... en dat werkt zo goed dat het slecht een paar weken kost om 's werelds beste go-speler te worden.
Het is en blijft het uitvoeren van simulaties obv een set aan regels...
Je laat het klinken alsof dat slecht is, maar wat gebeurt er in jouw hoofd als je zelf een potje go speelt (of als je de regels van go niet kent: als je een potje schaak speelt)? Vooruitdenken en plannen is toch niets anders dan simuleren?
"niet meer 'beperkt is door de grenzen van menselijke kennis', maar volledig uit het niets kan beginnen"


De opgeblazen zelfoverschatting van de AI ontwikkelaars heeft weer een nieuw hoogtepunt bereikt.
Gebaseerd op een door jou selectief gequote uitspraak waarbij je een essentieel deel weglaat:

"de nieuwe versie van AlphaGo niet meer 'beperkt is door de grenzen van menselijke kennis', maar volledig uit het niets kan beginnen."

Je doet het voorkomen alsof de uitspraak geldt voor AI in het algemeen, maar in realiteit gaat de uitspraak specifiek over de nieuwe versie van AlphaGo.

[Reactie gewijzigd door BadRespawn op 22 juli 2024 14:01]

De uitspraak gaat eigenlijk over alle AI toepassingen waarbij reinforcement effectief is. Als het algoritme zelf kan bepalen hoe succesvol een strategie is (en bij games is dat triviaal, winnen of verliezen) dan kan je games tegen jezelf spelen om verschillende strategiën te testen.
De opgeblazen zelfoverschatting van de AI ontwikkelaars heeft weer een nieuw hoogtepunt bereikt. Hun algoritme dat een heel simpel bordspelletje met in beton gegoten regels en doelen beheerst zou beter zijn omdat het 'niet meer beperkt is door menselijke kennis'. Ja, wat moet je nou met al die menselijke kennis.
Kan jouw 4 jarige kleuter Jeopardy winnen? Watson kon dat wel in 2011. Ik denk dat je niet veel weet van go maar ik denk dat je deze video wel zal snappen. https://www.youtube.com/watch?v=WFR3lOm_xhE Overigens zit er niet erg veel AI in auto's behalve in de modellen die vrijwel geheel automatisch rijden. De rest gebruikt vrijwel alleen zeer basale 'als dit gebeurt doe dan dit' software. En je voorbeelden hebben GEEN VAN ALLEN iets met AI te maken.

Al met al denk ik dat je even wat moet lezen of AI.
Belangrijk om toe te voegen is ook dat de dagen waarover het artikel spreekt net zo goed seconden hadden kunnen zijn. Het is slechts een kwantitatief verschil, een kwestie van processorkracht. Niet alleen leert AI dus vanuit het niets, het kan het zonder veel fantasie ook nog eens zo goed als instantaan.
Niet alleen leert AI dus vanuit het niets, het kan het zonder veel fantasie ook nog eens zo goed als instantaan.
Weet je dat zeker? Mijn kennis van AI i beperkt, maar je traint toch iteratief; elke volgende generatie van het netwerk is net iets beter dan de vorige? Dat kun je niet parallelliseren; je hebt iteratie N nodig om iteratie N+1 te trainen.
Zo goed als instantaan != instantaan, maar je hebt gelijk: strikt genomen kan AI met dit model nooit daadwerkelijk instantaan werken. Ik doelde met mijn opmerking meer op onze beleving van het proces.
Het is vooral 'instantaan' in vergelijking met hoe snel een mens dit niveau zou kunnen bereiken ;)
Het ging me niet om het woord "instantaan". Ik bedoel dat als het 100 uur duurt op 1 processor, hoe lang het dan duurt op 100 processoren. Bij een volledig parallel proces (bijvoorbeeld het bruteforcen van een wachtwoord) duurt het dan nog maar 1 uur. Bij een volledig serieel proces staan 99 processoren te niksen (omdat ze niets bij kunnen dragen) en duurt de berekening nog steeds 100 uur. Ik denk, maar weet dus niet zeker, dat het trainen van een neuraal netwerk zo'n serieel proces is. Als ik daar gelijk in heb, dan gaat jouw "secondes in plaats van dagen" (door er simpelweg meer processoren tegenaan te gooien) dus niet werken.
Ik snap je bezwaar, maar ik denk niet dat er sprake is van een volledig serieel proces, simpelweg omdat elke iteratie tot meer dan één mogelijke vervolgstap leidt. M.a.w. uit elke opstelling op het speelveld volgen tal van mogelijkheden, die dan elk voor de rekening van een andere processor kunnen komen. Zoals thoravatahr opmerkt is er dan wel degelijk parallellisatie mogelijk binnen de iteraties.
Neurale netwerken zijn juist tot op zekere hoogte heel goed te parallelliseren, vandaar dat ze ook zo goed getraind kunnen worden op GPU's (veel units die parallel relatief simpele berekeningen kunnen doen). Het wordt echter tricky als je meerdere GPU's (of andere parallelle chips) combineert, omdat je dan ook memory moet delen en dat is meestal traag.
Ligt eraan hoeveel iteraties... 1 iteratie 1, 2e iteratie 2, 3e iteratie 4, enz. Zo duurt het even voordat je op gang bent gekomen maar het gaat steeds sneller, behalve de momenten dat je gegevens moet verzamelen / verwerken... Zogenaamde lessons learned voor de volgende sessie

Ik geef maar gewoon invulling op het verhaal boven me, ik verwacht niet dat het zo werkt
de iteratie's zullen serieel gebeuren moeten, maar de tijd voor één iteratie kun je wel drastisch terugbrengen met meer rekenkracht. Als dat bijvoorbeeld van 1 minuut naar 10 seconden te brengen is scheelt dat toch een slordige 360 iteraties per uur.
Dat is niet helemaal waar. Om wille van efficientie en model overfit. Dit laatste gebeurt wanneer een algoritme te precies de Testdata modelleert, en daarmee niet generalistisch genoeg is en weinig toepasbaar op nieuwe situaties. Hier heb je altijd een balans in te vinden.
Inderdaad, toch is er parallellisatie mogelijk.. De beste versie van AGZero is getraind in 40 dagen (met toch vrij forse rekenkracht, alhoewel geen echte supercomputer oid).

Het trainen gebeurde op 64 GPU's en werd aangestuurd door 17 processoren (zie paper op deepmind website). Elke GPU is gaan trainen op trainingsdata gegenereerd met de vorige generatie van het netwerk. in Minibatches van 32 posities. Dus het trainen is geparallelliseerd (weliswaar is er wel een iteratief proces per generatie, wat hier overheen gaat).

Wat ik nog niet goed scherp heb, is hoe de resultaten van de de training op verschillende GPU's dan weer gecombineerd worden.

[Reactie gewijzigd door thoravatahr op 22 juli 2024 14:01]

Je kunt meerdere kandidaat-iteraties N+1 maken. Los daarvan: je moet een heleboel games met elke iteratie spelen; je kan niet op basis van 1 winstpotje een nieuwe iteratie trainen. Al die games kun je in parallel spelen.
Dit is prachtig, dit is een domein waar we nu echt een computer hebben, die fungeert als leraar. In Azië zijn Go-professionals deze partijen nu aan het bestuderen als lesmateriaal. Ook is het fantastisch dat AlphaGo nieuwe strategieën (e.g. Joseki en Fuseki) heeft ontdekt en aangetoond dat ze speelbaar en goed zijn. Het is leuk om te zien dat ook AlphaGoZero bijvoorbeeld de 3-3 invasie speelt, die voorheen niet werd beschouwd door professionals.

Volgens mij is dit principe al heel eenvoudig toepasbaar op andere domeinen, wellicht in eerste instantie met name de exacte domeinen, zoals wiskunde en informatica.

Het neurale netwerk is overigens wel enorm diep, in totaal bevat de stack meer dan 80 (!?!) lagen. (bron: het artikel in nature, te downloaden van deepmind.com)

[Reactie gewijzigd door thoravatahr op 22 juli 2024 14:01]

Kijk, nu wordt het echt indrukwekkend. Het was een commentaar van mij op de eerdere versies dat ze zo afhankelijk waren van het bestuderen van zoveel games, en dat het indrukwekkender zou zijn als je alleen de regels zou ingeven en het systeem daarvandaan zichzelf het spel zou leren. Dat hebben ze dus gedaan (en nee, vast niet vanwege mijn suggestie :P)

Echt zeer indrukwekkend. Wat wel nodig is om zoiets te laten werken is een golden standard in de zin dat het systeem kan toetsen welke uitkomst beter is. In het geval van go als een spel is dat duidelijk (de regels specificeren wie er wint), maar in heel veel situaties is dat veel minder helder. Dit is dus geen techniek die je overal in de AI kan toepassen op deze manier.

[Reactie gewijzigd door ATS op 22 juli 2024 14:01]

Inderdaad indrukwekkend, in 3 dagen trainen heeft dit algoritme al de kennis en vaardigheid overstegen die de mens in duizenden jaren collectief heeft opgebouwd over go. Daarna trainde het nog 37 dagen en heeft het een niveau bereikt wat ver boven het bereik van mensen ligt.
Doet me een beetje denken aan de bot van OpenAI die zichzelf Dota 2 leerde spelen, toch interessant om te zien hoe reinforcement learning steeds meer wordt gebruikt bij verschillende AI toepassingen. Ik ben benieuwd of dit ook een methode is die gebruikt gaat worden in real-world toepassingen, in plaats van alleen in virtuele omgevingen.
DeepMind past het al in real-world toepassingen toe :) Wellicht nog niet de versie en methodiek die ze nu hebben gecreëerd met AlphaGo Zero maar de geleerde kennis uit voorgaande versies wordt al toegepast. Ze gebruiken de AI bijvoorbeeld om het energieverbruik bij Google datacenters sterk te verminderen: https://deepmind.com/blog...a-centre-cooling-bill-40/

Deze versie van AlphaGo ligt mijns inziens dichter bij een meer generieke toepasbare AI (let op: ik bedoel hier overigens absoluut niet een Artificial general intelligence) omdat het nog maar één neuraal net gebruikt en daarnaast slechts werkt met reinforcement learning in plaats van ook supervised. Er is volgens mij niets meer dat deze AI nu erg Go-specifiek maakt. Dus ik neem aan dat het geleerde nu nog beter op real world scenarios toegepast kan worden in plaats van vooral games. Ik verwacht niet dat ze nog verder zullen gaan met het maken van een nog betere AI, hooguit dat ze zullen kijken of het leren nog efficiënter / sneller kan.

De volgende uitdaging voor game AI van DeepMind ligt volgens mij bij StarCraft II. Al is het volgens mij nog onduidelijk of DeepMind ook zelf echt een AI hiervoor gaat maken, ik hoop uiteraard van wel :)

[Reactie gewijzigd door Cloud op 22 juli 2024 14:01]

Leuk dat je StarCraft noemt: terwijl schaken en go spellen zijn die het gevecht volgens eenvoudige regels aangaan, lijken RTS'en al veel meer op menselijke oorlogsvoering. Vliegende drones zijn er al, nu alleen nog wat tanks ombouwen naar volledig remote control en je kan over een paar jaar Deepmind de wereld over laten nemen, omdat er geen mens meer is die tactisch sterk genoeg is en alle scenario's van tevoren kan beoordelen. Ik hoop dat ik het helemaal verkeerd zie...
de losse (statische) onderdelen tbhv lucht (en als je de loop bij sommigen wat laag zet ook zee/land) verdediging zijn al ontwikkeld, bekend is uiteraard de nederlandse autonome boordschutter tegen inkomende rakketen voor schepen. Maar grotere varianten hiervan zijn ook al in DE bekend (ben de namen/types even kwijt).

Dus een simpele koppeling aan een AI en je bent klaar betreft de verdediging, aanval word uiteraard lastiger gezien de verplaatsingen die nodig zijn (over land)
De AI leert zichzelf iets nieuws beter en efficienter dan mensen dat de AI kunnen leren. Als dit nu al zo snel gaat, is en blijft een terechte vraag waar het gaat eindigen.

"Humans, who are limited by slow biological evolution, couldn't compete, and would be superseded."
prof. Steven Hawking

Edit: typo

[Reactie gewijzigd door Pabz op 22 juli 2024 14:01]

AI begint altijd met input, door mensen ingevoerd.


Gaandeweg voegt AI daar zelf input bij. Er komt op een gegeven een kantelpunt waarbij cruciale input van AI zelf komt.


Het is een vraag waar landen en (regerings)leiders zich over moeten buigen en waar links en rechts al signalen over worden afgegeven.


Mooi voorbeeld is Elon Musk en Zuckerberg. Waar de een zegt dat we behoedzaam moeten zijn, neemt de ander potentiële problemen, en daarbij horende vragen niet helemaal serieus.
De een houdt zich bezig met raketten, de ander met advertenties verkopen. Dus die huidige inzichten kan je nog wel snappen..
De "zero" in de naam AlphaGoZero komt uit het feit dat deze AI begonnen is met 0 kennis over Go.
Bizar hoe snel de ontwikkelingen gaan. AlphaGo zelf was al behoorlijk nieuws dat een computer dat kon spelen. Nu leert de computer dat gewoon zelf te spelen :o
De AI is een beetje te vergelijken met een mens die veel sneller denkt en nooit pauze nodig heeft. Het is 'intelligence bruteforcing' als het ware.
Anoniem: 218230 19 oktober 2017 13:11
Problemen gaan vooral voortvloeien uit het doel dat opgegeven wordt door de mens.
Hij leert iets, maar wij bepalen wat zijn doel is en wat de prioriteiten zijn...

Simpel gezegd.. method shootpistol(Opponent). Vraag de snelste manier om alle veldjes op een spelbord eigen te maken. Wat zou hij leren en welke zou de snelste manier zijn om een spel te winnen ?

Mag je een tegenstander lamleggen of uitschakelen als hij vals speelt en wanneer speelt hij vals ?
Wie gaat hem leren wat goed en fout is ? Want daar heeft hij geen flauw benul van.
Dan rijst de vraag : Kan je het spel Go (terrein inpalmen) toepassen op een wereldkaart met legers ?
Als je nu twee AlphaGo Zero machines maakt, zouden die dan elk hun eigen speelstijl ontwikkelen?

Leuk dat ze dit al kunnen met go, maar ik vraag me af wat er gebeurd als ze reinforcement learning inzetten om een AI te maken die muziek kan componeren. Zou die dan een soort van eigen muzikaliteit ontwikkelen en muziek maken die wij mensen ook muzikaal vinden of blijft daar rommel uitkomen?
Reinforcement learning heeft een doel nodig. Wat precies is winnende muziek? Een computer kan in milliseconden bepalen wie een potje Go heeft gewonnen. Maar bij muziek kun je dus niet bepalen wat het betere algoritme van de twee is.
Anoniem: 712393 19 oktober 2017 16:25
Dit is hetzelfde als een wachtwoord hacken.

Op dit item kan niet meer gereageerd worden.