AlphaStar-ai bereikt Grandmaster-niveau bij StarCraft II met alle drie de rassen

DeepMind heeft AlphaStar Final getraind, een ai-agent die het Grandmaster-niveau bij rts StarCraft II heeft bereikt en beter speelt dan 99,8 procent van alle actieve spelers van het spel. De agent speelde anoniem online via Blizzards Battle.net-platform.

DeepMind gebruikte een combinatie van leren via reinforcement self-play, multi-agentgamepotjes via een eigen League en het imiteren van menselijke strategieën om van AlphaStar een Grandmaster te maken, het hoogste niveau dat op de StarCraft II-ladder te behalen is. Dat lukte de agent met de Terran, Zerg en Protoss, de drie facties in het spel.

Googles dochterbedrijf meldt dat de resultaten een sterk bewijs vormen dat dit soort algemene leertechnieken kunnen worden gebruikt om ai-systemen geschikt te maken voor werk in complexe, dynamische omgevingen met verschillende subjecten. Daarnaast verwacht het bedrijf dat de vorderingen kunnen helpen om kunstmatige intelligentie veiliger en robuuster te maken.

AlphaStar Final speelde ongemodificeerde StarCraft II-potjes op basis van een blikveld dat vergelijkbaar is met dat van mensen en met restricties om de action rate op het niveau van dat van menselijke spelers te brengen. Die snelheid van reageren is een van de eigenschappen waarmee machines gemakkelijk mensen kunnen overtreffen. Professionele StarCraft II-spelers hebben DeepMind geholpen bij het creëren van de beperkingen die tot evenwichtige omstandigheden moeten leiden. Het aantal acties per minute werd daarop gelimiteerd tot maximaal 22 per 5 seconden. Verder kan AlphaStar pas na 110ms een actie uitvoeren nadat een frame is waargenomen en kan hij vertraagd reageren op onverwachte situaties omdat agents vooruit beslissen waar ze gaan observeren.

DeepMind meldt dat het moeilijk is voor ai-agents om tot winnende strategieen te komen, doordat ze op elk moment in het spel meer dan 1026 mogelijke acties kunnen uitvoeren. Bovendien hebben de standaardleertechnieken hun eigen nadelen. Zo kan leren door tegen zichzelf te spelen leiden tot 'vergeetachtigheid', waarin een agent in een loop van terugkerende, winnende strategieën terechtkomt zonder iets nieuws te leren.

Tegen zichzelf spelen op basis van een willekeurige mix van eerdere strategieën, fictitious self-play genoemd, kan hierbij helpen. Alleen spelen om te winnen kan op zichzelf echter al beperkend zijn, claimt DeepMind. Daarom ontwikkelde het bedrijf exploiter agents die puur spelen om de zwakke plekken van een andere agent bloot te leggen. Verder werd AlphaStar slimmer door te leren op basis van imitatie. De kunstmatige intelligentie onderzocht daarbij het gebruik van strategieën van menselijke tegenstanders bij de potjes tegen zichzelf, waarbij onder andere analyses van openingszetten een rol speelden.

Professioneel speler Dario 'TLO' Wünsch zegt niet het gevoel te hebben gehad tegen een bovenmenselijke tegenstander te hebben gespeeld en Diego 'Kelazhur' Schwimer voegt daaraan toe dat spelen tegen de ai tot heel ongewone gameplay leidt en dat de agent geheel eigen speelstijlen en strategieën heeft.

De bevinding dat AlphaStar tot de beste spelers van StarCraft II kan behoren bij echte online gamerankings, volgt op een demonstratie in januari van dit jaar, toen een professionele speler van Team Liquid vijf wedstrijden verloor, maar een live wedstrijd won. Op die demonstratie kwam kritiek omdat de vergelijkingen van acties per minuut tussen mens en ai oneerlijk zouden zijn. Daarop zijn de restricties voor AlphaStar aangepast.

DeepMind publiceert de resultaten en de test in een artikel en op Nature met de titel Grandmaster level in StarCraft II using multi-agent reinforcement learning. Het bedrijf maakt alle replays van AlphaStar eveneens beschikbaar.

Door Olaf van Miltenburg

Nieuwscoördinator

31-10-2019 • 11:41

69

Submitter: duqu

Reacties (69)

69
68
29
7
1
32
Wijzig sortering
Hebben ze toch snel voor elkaar gekregen, binnen een jaar een AI door deep learning (discutabel) de beste Star Craft speler te wereld te laten worden.
Maar dit creert mogelijkheden, ik speel vaak RTS of MOBA niet graag tegen AI om dat je er uiteindelijk zelf slechter van gaat spelen. Als je doorhebt waar de normale AI beperkingen hebt liggen, dan zet je daar op in en is de enige sport nog zo snel mogelijk de AI kapot te maken.
Maar een AI als deze als je die op de juiste manier kan beperken, betekent dat je met je vaste team dus altijd een goeie tegenstander hebt om jezelf mee te meten, met niet alle nadelen van normale tegenstanders (spel verlaters, feeders, mensen die hun dag niet hebben, ombeschofte lui, boze mensen, teams die niet functioneren in match making etc)
Dit kan een ommekeer vormen voor online games (al is het alleen voor mij persoonlijk) waar je niet bang hoeft te zijn dat als je inzet op een online game dat het hit en mis is met je match making, maar je af en toe zelf kunt kiezen voor een goeie sterke match tegen een sterke tegenstander die niet altijd hetzelfde doet.
Ik denk aan totaal iets anders als ik dit lees. Deze simulaties zijn een begin van ai. Nu kun je ze menselijke beperkingen opleggen maar zelfs dat horen ze tot de top. Zonder die beperkingen zou de mens als geen kans hebben.

Maar waar het om draait is dat dit een simulatie is. Uiteindelijk zullen dit soort systemen vroeg of laat ook in het echt ingezet worden. Denk daarbij aan slimme robots en de USA en China zullen ook gaan kijken naar militaire toepassingen. Nu roept google hard daar niet aan mee te werken maar AI is niet te stoppen en zal door een ander bedrijf aangeleerd worden en daar worden ingezet.

Het AI systeem zal gaan anticiperen op de mens en uiteindelijk geloof ik dat het een gevaar zal worden. Dit artikel bevestigd eigenlijk al dat het gaat komen, misschien nog wel sneller dan we denken of willen.
Ik geef je gelijk en wacht met smart op de eerste Terminator achtige taferelen, waar ik me ga afvragen hoeveel vingers er gewezen worden voordat met eruit is welk "algoritme" er verantwoordelijk voor was om die trekker over te halen.
Ik geef je gelijk en wacht met smart op de eerste Terminator achtige taferelen, waar ik me ga afvragen hoeveel vingers er gewezen worden voordat met eruit is welk "algoritme" er verantwoordelijk voor was om die trekker over te halen.
Die Terminator is er al. Hij helpt ambtenaren te jagen op de meest hulpbehoevenden in ons land.

De Terminator heet SyRI.

Aangezien de overheid die terminator heeft ingezet is er "helemaal niemand schuldig" en "gaat alles goed". Kafka gaat nog eens heel groot worden.
Dat is inderdaad al een gedeelte van het verhaal.
Ik had het vooral over het beeld wat ik van die films heb, waar een autonome robot, in staat is om een beslissing te nemen en iets te doen wat mensen schaad.

[Reactie gewijzigd door NEO256 op 24 juli 2024 06:34]

Dat is inderdaad al een gedeelte van het verhaal.
Ik had het vooral over het beeld wat ik van die films heb, waar een autonome robot, in staat is om een beslissing te nemen en iets te doen wat mensen schaad.
Het verschil is niet erg groot: in jou beeld doet een autonome robot mensen direct pijn. Zonder dat er iemand verantwoordelijk gehouden kan worden.

In het SyRI voorbeeld zorgt de robot (in combinatie met de wet) ervoor dat mensen o.a. zelfmoord plegen. Zonder dat er iemand verantwoordelijk gehouden kan worden.

Eindresultaat: dood en verderf waaraan niet te ontsnappen is, is in beide gevallen hetzelfde.

[Reactie gewijzigd door GeoBeo op 24 juli 2024 06:34]

Kijk, inderdaad.
Ik voel me niet zo'n alu hoedje die overal alleen maar complot theorieën ziet, maar voor mijn gevoel is die realiteiten die ze schetste in die film en Georige Orwel - Big Brother nu gewoon realiteit.

En ik ben er ongemakkelijk onverschillig onder omdat ik zo iets heb van... kan er toch weinig tegen doen. Als we het hier in Europa tegen houden, dan lopen we dadelijk achter op de rest van de wereld kwa bewapening, ontwikkeling en economische kansen.

Er is simpelweg een te grote omezwaai voor nodig om mensen zover te krijgen dat ze willen zien dat willens en wetens maar al je data af te staan een risico is, dat een spraak gestuurde home assistent gewoon een afluister apparaat is dat je zelf gekocht hebt (of het aanverwante bedrijf er nu zelf naar luisterd of informatie uitlekt door hacken of stelen van informatie maakt niet uit).

En terug op dit artiekel, dat we autonomie uit handen gaan geven en gewoon gaan accepteren wat de antwoorden zijn waar computers mee gaan komen want "ze hebben het in veel gevallen goed, een computer maakt eigenlijk geen fouten" dus het zal wel kloppen. En er vervolgens naar handellen.

Dan als laatste stap, autonome systemen die zelf beslissingen nemen, "iemand voor een auto weg duwen om die persoon te helpen, maar even voor het gemak over het hoofd ziet dat de aanrijding misschien een met 5 km/h is met minimale schade. En de duw die wordt gegeven resulteert in een fixe val met hersenletsel" waarbij het gedrag er in de volgende versie uit gepatcht wordt.

Ik ga ook niet pretenderen dat ik een antwoord heb op deze complexe vraagstukken, maar wil alleen aanstippen dat we aan de drempel staan van een technologische vooruitgang waar we voor mijn gevoel als maatschappij nog niet klaar voor zijn. Het vinger wijzen / afschuiven van verantwoordelijkheden gaat gewoon niet meer werken als er mega grote bedrijven onderaannemers zaken kunnen laten produceren die vervolgens zo breed worden ingezet dat het op globaal niveau impact kan hebben.
"Terminator achtige taferelen" Dat zegt al hoe weinig je begrijpt van A.I. en C.I. zoals overigens de meeste mensen. Dat gaat nooit gebeuren.

Daarmee wil ik overigens niet zeggen dat A.I. geen gevaar vormt voor de mens, want dat doet ze zeker wel... maar zeker niet zoals jij denkt.

Ga er eens een boek over lezen of begin bij de blog van 'Wait but Why" artikel "Road to Superintelligence"
We hebben al drones, dadelijk gaan ze die automatisch naar een gebied laten vliegen voor dat ze iemand aan de besturing laten, daarna komt het punt dat ze automatisch opzoek gaan naar het huis / persoon dat ze willen opblazen en plaatsen alvast een kruisje boven hun hoofd voordat een persoon een trekker overhaalt en daarna draaien ze het om, er zit iemand met een mok koffie te wachten op een signaal, dan hebben ze 30 sec om het tegen te houden en ergens aan de andere kant van de planeet verdwijnt het doelwit van de kaart.

Er zijn al robots die grenzen bewaken:
https://mainichi.jp/engli...60824/p2a/00m/0na/020000c

Dus nee ik zie niet waarom we niet in de nabije toekomst robots krijgen, wat niet meer zijn dan rijdende karretjes met een geweer erop, die met wat omgeving informatie een rondje rijden en vervolgens met wat sensor informatie op een gegeven moment gaan kiezen om actie te ondernemen, wat audio afspelen, doormelden naar HQ of een paar keer wat herrie maken met een ijzeren herrie stok die kleine stukjes ijzer op ze af schiet tot dingen stoppen met bewegen.

Wat is daar zo onrealistisch aan?
De beste speler van de wereld? Nee. Uit jouw reacties kan ik concluderen dat je geen onderdeel bent van de Starcraft community of een doorgewinterde speler bent. Op dit moment is "Grandmaster" bij lange na nog niet goed genoeg om een pro te worden die een beetje mee kan draaien. Dus dit zegt op zichzelf niets.

Daartegenover staat dat Alphastar super impressive is. Ik ben de eerste die zegt dat het enorm menselijk speelt. Maar deze game is puur op mechanics en micro te winnen en dat doet Alphastar nog te veel om echt als een soort doorbraak gezien te worden. Micro/mechanic bots zijn niet moeilijk om te schrijven. Daar is zelfs een volledige officiele API voor beschikbaar. Die bots kunnen al heel lang zulke bovenmenselijke dingen dat het onmogelijk is om te winnen, maar dat is totaal niet interessant.

Waar de echte uitdaging ligt is het strategische denken verwerken in een A.I. Dat doet Alphastar nog net wat te weinig, maar het is zeker indrukwekkend.

Op basis van mijn analyse van alle beschikbare replays:
  • Protoss -> Deze versie is veruit het beste van de drie. Strategisch goed, scout veel en reageert op deze scouting informatie. Extreem goede micro, perfecte map awareness, maar AlphaStar verliest nog steeds als je vroeg een krachtige aanval of een proxy early attack zou uitvoeren.
  • Zerg -> Vrij goed, maar strategisch gezien slecht. Scout niet tot weinig en reageert weinig op scouting informatie. Alphastar heeft 1 gameplan en die voert hij EXACT uit en heeft dan extreem goede micro om te winnen. Als de all-in niet werkt heeft alphastar verloren. Dit vergt zowat geen strategisch inzicht en dit werkt niet in de top.
  • Terran -> Slechtste van de drie. Strategisch gezien niet interessant, heeft 1 gameplan. Nog betere micro dan zerg en wint dan op micro/macro/mechanics zonder te scouten. Heeft moeite met building placement waardoor units vast komen te zitten in zijn basis.
Bij Zerg en Terran win je in 5 minuten door een rare rush te doen want dan is de A.I. gewoon dood. Extreem exploitable dus en zeker niet "de beste speler" zoals je beweert.

[Reactie gewijzigd door Legion op 24 juli 2024 06:34]

Waar de echte uitdaging ligt is het strategische denken verwerken in een A.I. Dat doet Alphastar nog net wat te weinig, maar het is zeker indrukwekkend.
Dat gaat met de huidige "AI" (lees: machine learning) aanpak sowieso niet lukken.

Dit is de hele reden dat alle vormen van wat we nu "AI" noemen zo beperkt zijn en zo relatief brak werken: de computer begrijpt nog steeds niet waar hij mee bezig is. Hij is alleen goed in opzoeken in een database, welke acties net gebeurd zijn en welke acties iemand daar ooit op genomen heeft.

Mooi boek van 1 van de grondleggers van machine learning dat hierover gaat: waarom machine learning zo relatief beperkt is ten opzichte van het menselijke brein: https://www.amazon.com/Bo...ause-Effect/dp/0141982411
Wat is je punt precies?

Dat de database enorm groot is, maakt niet ineens dat de (geautomatiseerde) data-analyse ervan ineens bewustzijn heeft? Of "slim" is?

Het is en blijft geavanceerde curve fitting van datapunten. Met snappen waar "het algoritme" mee bezig is (strategieën zelf bedenken) of het begrijpen van causaliteit heeft het niets te maken. Hoe groot je die database ook maakt.
Ik zie je dit ook niet nadoen zonder enige vorm van machine learning:
https://www.youtube.com/w...Apo&feature=youtu.be&t=94
Verbeter me als ik het verkeerd heb, maar wat je daar ziet is regeltechniek (control system engineering in het Engels) en heeft vrij weinig (niets) met machine learning te maken.

En al helemaal niets te maken met "AI met bewustzijn" of "general AI" :P
Punt: De computer begrijpt precies waar hij mee bezig is in zijn afgebakende wereld. En doet dat hij beter, sneller, 'slimmer' dan wij zouden kunnen.

Slim: Welke 'slim' bedoel je? Sociaal slim, analytisch slim, technisch slim, autistisch (extra gevoelig voor externe prikkels) slim?

Ik denk dat mensen soms minder snappen waar ze mee bezig zijn dan ze zelf denken. Anders zouden we wel accuut stoppen met cement en (weer) eens hoogwaardige houtproducten gaan gebruiken ('beste carbon capture') (zie VPRO Tegenlicht van ongeveer 2 maanden terug).

Niet regeltechniek, is veel te traag voor dit soort 'reflex' toepassingen! Vooral beeldherkenning (om de impact hoek in te schatten) en reinforced learning. Net zoals bij 'Atlas' van Boston Dynamics.

AI met bewustzijn / general AI / mensen zijn heel erg overrated. Liever een goede specialist.
Starcraft 2 heeft zoveel mogelijke acties op elk moment van de game dat het niet echt uit een database zoeken is. Elke game is uniek en heeft onvolledige informatie. Die klassieke aanpak kan dus niet gebruikt worden. Als Alphastar machine learning had gebruikt dan had het helemaal niet gewerkt. Alphastar gebruikt Deep learning en speelt bijna eng veel als een mens op het eerste gezicht.

Het is dus jammer dat het strategische onderdeel het zwakste is op het moment.
Starcraft 2 heeft zoveel mogelijke acties op elk moment van de game dat het niet echt uit een database zoeken is. Elke game is uniek en heeft onvolledige informatie. Die klassieke aanpak kan dus niet gebruikt worden.
Die klassieke aanpak is de aanpak die gebruikt wordt. Het komt allemaal neer op curve fitting. De reden dat de machine learning beter wordt heeft te maken met: meer rekenkracht beschikbaar naarmate de tijd vordert, meer opslag beschikbaar, meer mensen beschikbaar die verstand hebben van het opzetten van machine learning systemen en iets betere algoritmes.

Maar aan de basis is het allemaal "gewoon" curve fitting en daarmee kun je per definitie nooit een systeem bouwen dat bijvoorbeeld causaliteit begrijpt of kan "nadenken".
Als Alphastar machine learning had gebruikt dan had het helemaal niet gewerkt. Alphastar gebruikt Deep learning en speelt bijna eng veel als een mens op het eerste gezicht.
Deep learning = machine learning.
Het is dus jammer dat het strategische onderdeel het zwakste is op het moment.
Dat zal dus ook zo blijven, zolang men uitsluitend deep learning gebruikt.

[Reactie gewijzigd door GeoBeo op 24 juli 2024 06:34]

Bij online games is het intermenselijke aspect juist belangrijk. Je noemt (begrijpelijk) de negatieve kanten ervan, maar er zijn ook bijzonder leuke ervan. Het internet zou niet het zelfde zijn zonder Leeroy Jenkins.
Hier nog een paar voorbeelden van dingen die een AI niet snel zou doen maar wel grappig zijn, wat tóch de gameplay kwaliteit ten goede komt.
Tenzij er AIs komen die om de X spelletjes een YOLO/troll/Leeroy script draaien, dan kan het multiplayer platform weg :P
Ik ben het met je eens, maar als iemand die 40 uur in de week werkt en verder nog een aantal andere verplichtingen per week in het leven heeft, heb ik niet voldoende tijd om echt mensen te onderhouden die leuk zijn om mee te samen en tegen te gamen.
Plat gezegt wil ik die ervaring soms gewoon kunnen afroepen. Een van de redenen dat ik me meer op single player spellen ben gaan richten of op spellen waar het aantal mogelijkheden lager licht zoals Armello zodat ik niet helemaal overgeleverd ben aan de grillen van mijn medestander / tegenstander.
Ik verkondig niet dat normale multiplayer moet verdwijnen, maar als we geen dedicated servers krijgen zodat ik zelf mijn matches kan kiezen en we dus overgeleverd zijn aan match making. Dan laat me alsjeblieft een keer tegen een "goeie bot" spelen die bijna menselijk aanvoelt, dan maar gaan wachten tot ik een keer een goeie match heb met een random groep van mensen.
Top 99.8 procent is niet perse "de beste ter wereld", maar zit wel in de top 250-1000 als ik deze website goed begrijp: https://www.rankedftw.com/stats/population/1v1/
Wel, vindt ik discutabel, er staat dat ze die bot al hebben moeten knijpen omdat hij "oneerlijk niet menselijk snel was", buiten dat op is er na een jaar de rek er waarschijnlijk nog niet uit is kwa mogelijkheden.
Verder dit AI presteert nu op dat niveau en zal dat met dezelfde hardware altijd blijven doen, mensen kunnen zich ook verbeteren, maar zullen na een bepaald punt gaan aftakelen.

En dan zullen er altijd uitschieters zijn.
Dus in absolute zin als ze kroon heen en weer geschoven worden zodra dit ding ook aan wedstrijden mee gaat doen.
Zelf ben ik een Diamond 2 zerg speler (top 15-20%, niets bijzonders). Ik heb de comments gelezen en ik snap de argumenten wel van vele. Ook lees ik de afkeer tegen AI die zowaar soms wat biast is. Echter, ik heb verschillende streams gevolgd waarbij ook zij tegen Alphastar speelden (Alphastar had geen hotkeys in de replay interface, op die manier kon je verifiëren dat het echt Alphastar was).

Alphastar speelde niet perfect en had ook missclicks. Het maakte soms zelfs zijn eigen units dood en dat was niet om supply vrij te maken, het systeem maakte echte (menselijke) fouten.

De recentere versie van Alpastar was zeker wel sterk op 'mechanics' maar niet onmenselijk. Ik heb hier een link van de beste speler op dit moment (Serral, zerg) tegen Alphastar en die maakt Alphastar echt helemaal kapot: https://www.youtube.com/watch?v=_BOp10v8kuM

Het verschil tussen EPM en APM bij een mens is trouwens erg groot (button spammen). Dit doet Alphastar niet maar de EPM is ongeveer hetzelfde als die van een mens (zie ook het youtube filmpje).

[Reactie gewijzigd door Ceri0n op 24 juli 2024 06:34]

Zelf ben ik een GrandMaster, kampioen Nederland/Benelux.

Waar in het filmpje zie je dat de EPM hetzelfde is? De EPM is altijd veel te hoog geweest voor Alphastar.

Anders volledig eens, het is enorm menselijk. Soms bijna eng veel menselijk. Ik vond het zelf erg leuk om Alphastar te zien spelen maar ik kan niet tegen oneerlijke claims. De statements van Google komen uiteindelijk binnen als "Alphastar heeft Starcraft 2 verslagen".

[Reactie gewijzigd door Legion op 24 juli 2024 06:34]

Zelf ben ik een GrandMaster, kampioen Nederland/Benelux.

De statements van Google komen uiteindelijk binnen als "Alphastar heeft Starcraft 2 verslagen".
uThermal? Harstem? Grubby? Anyway verslagen nog zeker niet. Maar wel een heel knappe prestatie. Hoop dat ze er veel meer gaan doen op blizzcon :-)
Zelf ben ik een GrandMaster, kampioen Nederland/Benelux.

Waar in het filmpje zie je dat de EPM hetzelfde is? De EPM is altijd veel te hoog geweest voor Alphastar.

Anders volledig eens, het is enorm menselijk. Soms bijna eng veel menselijk. Ik vond het zelf erg leuk om Alphastar te zien spelen maar ik kan niet tegen oneerlijke claims. De statements van Google komen uiteindelijk binnen als "Alphastar heeft Starcraft 2 verslagen".
Zie gametime 1:34 bijvoorbeeld. Wat is je gamertag als ik vragen mag :P ?
Op 1:34 is er nog geen actie dus de EPM werd nog niet gemaximaliseerd. Het probleem zit bij macro tijdens godlike micro.

Legion. Niet zo bekend als de 4 giganten van Nederland.
Zou je een link kunnen sturen waarbij de EPM te hoog is van Alpastar. Ik was er namelijk echt van overtuigd dat de EPM hetzelfde was als die van pro's (ongeveer dan). Het liefst wel een beetje recentelijk.
Ik heb 't een beetje druk atm maar zal ik doen einde deze week.
Zie deze Alphastar micro (ongeveer vanaf 10.25, 9.49 game time).

https://www.youtube.com/watch?v=nrluT5oNbsQ

Alphastar is overigens hier Protoss

[Reactie gewijzigd door Ceri0n op 24 juli 2024 06:34]

Lmao ripped

Also. Hier praat Beasty over EPM = APM voor Alphastar
https://youtu.be/U6XsQZ8z98A?t=33
https://youtu.be/uaJYF4iSvNs?t=1452

Dit schiet gewoon omhoog naar 250+ tijdens fights/macro-micro momenten in lategame omdat de APM zo hoog mag zijn en EPM zo goed als hetzelfde is bij Alphastar.

Ik kan wel genieten van alle filmpjes van Alphastar tho
Oh nee nog meer Deepmind marketing AI troep. De bad-faith result-faking game AI's zijn toch wel de meest irritante AI hype resultaten. Ik vraag me af of ze daar een team van wetenschappers of een marketing departement hebben zitten.

Even als referentie voor mensen die de vorige Deepmind troep niet hebben gelezen: Deepmind wint puur op mechanics. Dat was de vorige tig keer dat ze met hun hype troep kwamen het geval, en zal dit keer wederom het geval zijn. Ze doen er alles aan om resultaten te faken en om een paar irrelevante nummertjes te pakken om het voor te laten doen alsof hun AI niet gewoon keihard wint op mechanics.

Quote: If the agent learned actual useful actions why then didn’t Deepmind go back to the speculated initial harsher, more humanlike limitations on APM? Surely they must have realized that their AI was performing superhuman actions. The Starcraft community has almost unanimous consensus that AlphaStar had superhuman micro. The human pros said in the ama that AlphaStars greatest strength was its unit control and greatest weakness its strategic thinking.

Alphastar maakt altijd basis units en gaat daar vervolgens een micro-gevecht mee aan. Het kent geen strategische diversiteit en probeert vrijwel nooit up te graden naar hogere tier units. Hij start met een perfecte base setup micro en gaat vervolgens in de aanval. Hoezee wat een intelligentie.
Een artikel uit januari als bron, toen Alphastar nog niet de limitaties had van 22 apm per 5 seconden, etc. (en nog acties opspaarde enzo). Heb best wat Alphastar games gezien en kan echt niet zeggen dat wanneer het wint of competetief is, dit door insane micro komt. Daarnaast worden ook gewoon fouten gemaakt qua reacties en micro en dit is dus verre van perfect. Lijkt me vrij dicht bij menselijk in de buurt komen.
Misschien je info en bijbehorende mening een keertje updaten?
Helaas heeft het Alphastar team zich meerdere keren schuldig gemaakt aan mijn voorgaande beschuldiging. Telkens komen ze met "haa kijk nu doet ie t hoor" en bij het kijken van de replays blijkt toch dat hij in de niet intelligente aspecten van het spel het grote voordeel heeft.

Deepmind mag gerust clickbait pop-science blijven pompen maar het vertrouwen van de community zijn ze onderhand kwijt.
Heb uit nieuwsgierigheid toch even wat research gedaan en helaas heb ik wederom compleet gelijk. Dit is gewoon weer een marketing stunt, waarschijnlijk omdat ze weer funding nodig hebben.

Link naar een vele malen informatievere post over Alphastar van vorige maand. Quote van u/Gergi:
___________
It's even worse: Players found ways to trigger games against AlphaStar. However, DM now changes accounts more frequently making them harder to track. From the games I saw, you can tell that. The agent is a huge leap but still fails to understand game concepts. I.e
  • Raven, and generally the impact of a lot of late-game units.
  • It fails to properly react to a lot of common stategies. It probably has not seen them. The AlphaStar league has too little diversity.
  • No adaption to the current opponent during a game. The agent seems to stick with its script.
  • It has great mechanics resulting in good Macro and Micro. Except the Terran. It struggles with buildings placement, frequently locking own units in it's base.
  • Terran seems to be the worse Agent, Zerg the best (debatable)
  • Zerg seems to have the least amount of diverse strategies.

[Reactie gewijzigd door Osiummaster op 24 juli 2024 06:34]

No adaption to the current opponent during a game. The agent seems to stick with its script.
Opzich vind ik het niet heel gek wanneer een 'bot' meerdere malen hetzelfde script gebruikt om te kijken of de uitkomst altijd gelijk is. Hij moet natuurlijk leren welke factoren van invloed zijn op de uitkomst. Is dat zijn eigen zet of die van een tegenstander? Wanneer je continu dit script gaat wijzigen kan hij dus niet betrouwbaar genoeg zeggen waardoor dit komt. Dus uit 1000 games kan hij best 10x100 dezelfde strategie hebben gebruikt om hiervan te gaan leren.
Hoewel dit waar is, is het probleem dat er weinig variatie of keuze plaatsvindt op basis van wat voor units de tegenstander maakt. Oftewel het intelligentie aspect. De AI speelt een paar miljoen games tegen zichzelf en implementeerd de meest robuuste oplossingen tegen strategieen die hij kent. Ook is zijn build order natuurlijk perfect getimed voor optimale aanvallen. De meest zichtbare flaw is dat de AI bijna niet scout. Scouten wordt gedaan om te anticiperen op wat er aan komt en dit te counteren. Na te denken. Intelligentie. De AI doet een kleine scout om te kijken of hij direct aangevallen wordt en gaat daarna doodleuk zijn standaard build-path af voor een goed getimede midgame attack en daarna is het spel voorbij.

Persoonlijk heb ik geen interesse in een wiskunde AI. Ik wil een AI zien die daadwerkelijk de implicaties snapt van wat hij doet. Buildings uit elkaar bouwen zodat units goed kunnen bewegen. Stealth detectors en scouting om te anticiperen. AlphaStar ziet klaarblijkelijk geen relatie tussen componenten tenzij deze direct resultaat hebben (unit aangevallen = unit dood, minder units is niet goed) Deze AI is ongeveer zo advanced als een gepimpte schaakcomputer. Hij berekent uit opties die hij kent, in plaats van dat hij echt snapt wat alles doet en hier een optimaal plan mee in elkaar zet.

[Reactie gewijzigd door Osiummaster op 24 juli 2024 06:34]

+2 Helpt schijnbaar niet om je van de -1 af te krijgen. Maar ik deel je mening.
Tegenwoordig is ieder if/then/else loopje een AI. En ik bespeur nergens dat Alphastar iets anders is dat een zut voorgeprogrammeerde acties.

En het treurige eraan is, dat ze Alphastar waarschijnlijk op allerhande manieren proberen te remmen(b.v. niet het overzicht over de hele kaart, en maar x handelingen per seconden) omdat een mens dat ook niet kan. Maar goed, het is een leuk leerproces voor programmeurs, en ook enorm knap om het te zien werken, maar als we het hebben over AI, dan ben ik vaak teleurgesteld in wat het eigenlijk kan/doet en dat de "I" gewoon niet wordt waargemaakt.
>En het treurige eraan is, dat ze Alphastar waarschijnlijk op allerhande manieren proberen te remmen

Dat zou ik eerst ook gedacht hebben, maar het feit dat de "researchers" hebben laten zien keihard misbruik te maken van misleidende nummertjes waarvan het overduidelijk is dat ze geen correlatie hebben met de realitiet heeft mij daarin van gedachte verandert.

Voorbeeld uit het artikel:
_________________
What leaves the sourest taste in my mouth is this image

It seems to be designed to mislead people unfamiliar with Starcraft 2. It seems to be designed to portray the APM of AlphaStar as reasonable. I don’t want to imply malicious intent, but even in the best case scenario, the graph is made extremely carelessly. Look at Mana’s APM and compare it to AlphaStar. While the mean of Mana is higher, the tail of AlphaStar goes way above what any human is capable of doing with any kind of intent or precision. Notice how Mana’s peak APM is around 750 while AlphaStar is above 1500. Now take into account that Mana’s 750 consist over 50% spam clicks and AlphaStar’s EPM consist only of perfectly accurate clicks.

Now take a look at TLO’s APM. The tail goes up to and over 2000. Think about that for a second. How is that even possible? It is made possible by a trick called rapid fire. TLO is not clicking super fast. He is holding down a button and the game is registering this as 2000 APM. The only thing you can do with rapid fire is to spam a spell. That’s it. TLO just over-uses it for some reason. The neat little effect this has is that TLO’s APM’s upper tail is masking AlphaStars burst APM and making it look reasonable to people who are not familiar with Starcraft.

Deepmind’s blog post makes no attempt at explaining TLO’s absurd numbers. If they don’t explain TLO’s funky numbers they should not include them in the graph. Period.

This is getting dangerously close to lying through statistics. Deepmind has to be held to a higher standard than this.
___________

De "wetenschappers" zijn al enorm lang bezig met deze bad-faith clickbait nummertjes and proberen met false-correlations te faken alsof ze moeite hebben gedaan om de AI op intelligentie te laten winnen ipv op pure mechanics. Maar bij het bekijken van de games wordt het vrijwel direct duidelijk dat dit nooit het geval is.

[Reactie gewijzigd door Osiummaster op 24 juli 2024 06:34]

We Are Borg Moderator Wonen & Mobiliteit / General Chat @Osiummaster31 oktober 2019 15:42
Als toevoeging voor de niet starcraft kenners: het 'spammen' van clicks is iets normaals wat pro's doen. De clicks zijn zelf geen echte actie in-game: denk aan het continue maken van een box om units te selecteren, maar je doet vervolgens niks met die selectie. Volgens mij doen ze het om gefocussed te blijven. Maar wat Osiummaster perfect toelicht: als je op die manier 2000 APM behaalt, maar het overgrote deel is letterlijk 'geen actie' en de AlphaStar actie is wel 'effectief' met de APM, dan gaat de vergelijking compleet scheef want AlphaStar doet dan alsnog meer effectieve acties dan wat een echte menselijke pro kan uitvoeren
Ik denk dat je inderdaad beter gewoon naar replays kan kijken en dan de micro van AlphaStar beschouwen.
Puur naar cijfers kijken zegt gewoon vrij weinig over de efficientie en strategische kwaliteit ervan.

https://www.youtube.com/watch?v=y0QrKtmGhkE hier echt compleet nutteloze micro

en hier zie je dat AS niet perfect twee locaties tegelijk kan managen:
https://youtu.be/_BOp10v8kuM?t=598
Now take a look at TLO’s APM. The tail goes up to and over 2000. Think about that for a second. How is that even possible? It is made possible by a trick called rapid fire. TLO is not clicking super fast. He is holding down a button and the game is registering this as 2000 APM. The only thing you can do with rapid fire is to spam a spell. That’s it. TLO just over-uses it for some reason. The neat little effect this has is that TLO’s APM’s upper tail is masking AlphaStars burst APM and making it look reasonable to people who are not familiar with Starcraft.
Waarom zou AS geen auto select target mogen gebruiken? 8)7
Geloof zelf ook weinig van de 'intelligentie' van dit soort experimenten. Verder houdt een top gamer meer in dan alleen maar brains.

Een hoop training, reactietijd en de manier van peripheral-gebruik vergt jaren training. Snap werkelijk niet waarom ze dit constant op lopen te hypen.
Deepmind heeft natuurlijk ook jaren training. 1 deepmind 'brein' kan duizenden matches tegelijk spelen, en ook versnelt. In tegenstelling tot een mens die maar 1 game tegelijk kan spelen.
In essentie niet zo verschillend, mens spelen met ervaring; en ervaring is technisch gezien hetzelfde als wat de AI doet. Uit het verleden verschillende strategien terug ophalen en toepassen en de uitkomst kunnen inschatten en daaruit de meest geschikte actie kunnen kiezen en toepassen.
Mensen kunnen redeneren, zo genoemde "AI" kan niet. Er is helemaal niks intelligent, allen maar kopeiren en herhalen. Als een willekeurig mens een fractie van die "training runs" gedaan, zou hij waarschijnlijk veel beter zijn dan die "AI".
Wat is "redeneren". Op zich is dat ook maar te vertalen in een algoritme. Er is niets magisch aan. Nog een paar jaar tweaken aan de AI en beiden zullen indistinguishable zijn aan mekaar. Wat pizzaman79 hieronder zet vat het goed samen.

PizzaMan79
@Marctraider • 1 november 2019 10:08
De manier waarop deze intelligente is ontwikkeld heeft erg veel weg van hoe je hersenen zich ontwikkelen...
Reageer
De manier waarop deze intelligente is ontwikkeld heeft erg veel weg van hoe je hersenen zich ontwikkelen...
Hoe moet je dit soort AI vergelijken met de ingebakken 'AI' in spellen waartegen je kan spelen? Nu krijgen dit soort zaken veel aandacht, maar hoe werd bijvoorbeeld 20 jaar geleden de AI van shooters geprogrammeerd?

Zit het verschil vooral in dat we nu spreken over self-learning mbv reinforcement learning en bij de andere type AI spelers in spellen alles voorgeprogrammeerd was?

Hoeveel self learning zit er nu in de AI in games?
Volgens mij niets. Het is met name een "als dit, dan dat" voorgeprogrammeerde AI die een standaard geprogrammeerd riedeltje afspeelt.

Alphastar zou zich moeten kunnen aanpassen aan de tactieken van de speler. Dat kan de huidige AI niet.
Deze "AI" heeft meerdere persoonlijkheden of profielen. Je weet nooit tegen welke je het gaat opnemen.
Daarnaast spelen deze profielen continu in kampioenschappen tegen elkaar en zichzelf om hun techniek te verbeteren.
De ingebakken AI 'cheat'. In Starcraft ziet de bot bijvoorbeeld de hele map en krijgt extra resources. In shooters weet de computer waar jij bent, ook al sta je achter een muur. Bij AI's zoals deepmind is dat niet het geval. Die krijgt precies dezelfde informatie voorgeschoteld als een menselijke speler. De AI moet dus andere spelers visueel herkennen, weten dat een hoofd een hoofd is om een headshot te kunnen maken. Ipv bots die gewoonweg weten dat jouw character op coordinaat x,y,z in het level zit.

[Reactie gewijzigd door Atmosfeer op 24 juli 2024 06:34]

Op die demonstratie kwam kritiek omdat de vergelijkingen van acties per minuut tussen mens en ai oneerlijk zouden zijn. Daarop zijn de restricties voor AlphaStar aangepast.
Ik ben wel heel benieuwd wat die limitaties zijn, want dit lijkt mij per persoon verschillend. Daarnaast kan ik mij voorstellen dat zelfs de beste spelers "ups & downs" hebben in APM, terwijl een computer dat mogelijk niet heeft (ingebouwd)...
De aantallen acties per minuut van de twee worden vergeleken, maar niet de effectieve acties per minuut.
... ten eerste dat er een onderscheid gemaakt moet worden tussen apm, actions per minute, en epm, effective actions per minute; de eerste bestaat uit clicks en toetsaanslagen en de tweede alleen uit clicks en toetsaanslagen die een commando doorgeven dat nog niet gegeven was. Dat wil zeggen, de spam, het wild klikken, is eruit gefilterd. In het heetst van de strijd doen een hoop mensen dat, misschien wel iedereen.
bron.
De kritiek kwam vooral op deze grafiek. De menselijke speler heeft aanzienlijk meer APM dan EPM. AI heeft eigenlijk alleen maar EPM. Op basis daarvan gaan vergelijken, daar is wat van te zeggen. Dit gegeven hebben de AI developers meegenomen een geïmplementeerd. Hetgeen niet zo zeer een limitatie is, maar meer een imitatie van menselijk gedrag.

[Reactie gewijzigd door 5pë©ïàál_Tèkén op 24 juli 2024 06:34]

Ja exact, EPM is het belangrijkste en die is ver boven menselijk op het moment. De computer heeft nooit spam of missclicks. Het gebruikt niet eens een muis (pointer) maar een API om acties uit te voeren.

Bottomline is: de computer heeft op het moment evenveel EPM als de absolute top APM heeft. Veel te hoog dus.
;) Er is een reden waarom ik het woordje 'eigenlijk' gebruikte...

Door menselijk gedrag te kopieren (APMs) heeft de AI strategieën ontwikkeld die onmogelijk zijn voor mensen.
I suspect that the agent was not able to unlearn spam clicking it picked up from imitating human players and Deepmind had to tinker with the APM cap to allow experimentation. This had unfortunate side effect of superhuman execution which resulted in the agent essentially breaking the game by being able to execute strategies that were never intended to be possible in the first place.
Bron.
Ik ben het met je eens hoor :)
Ik ook met mezelf (en met jou :P). Was ter illustratie dat de termen APM en EPM bij de AI nogal door elkaar lopen.
En het feit dat AI onvermoeibaar is, zo lang de mens de stroomrekening betaald en hardware up to date houd en onderhoud. Ik als mens raak toch wel wat vermoeid na een lange pot, laat staan meerdere.
Ook krijgt een AI geen rode oogjes van lang staren naar een scherm. Op Terminator (Skynet) na, maar die heeft standaard rode ogen geloof ik.
Juist, of als je ff naar het toilet moet, iets wilt drinken, moet niezen enz.
Alphastar is absoluut niet de beste speler ter wereld. Het is zo lastig om tegen te spelen omdat hij volledig willekeurige tactieken probeert. Daarom is het lastig om tegen hem te spelen. Er is een bepaalde meta in SC2, Alphastar doet vaak maar wat. Je ziet wel dat wanneer een speler een potje of 5/10 tegen Alphastar speelt hij door heeft hoe de AI werkt en vrij eenvoudig wint.
Onzin. Dan heb je de ontwikkelingen niet gevolgd. De AI heeft meerdere profielen en je speelt niet telkens tegen dezelfde.Elk profiel heeft zijn eigen playstyle en je weet nooit tegen welke je gaat spelen. Er is dus geen eenvoudige manier van winnen.
Onzin? De AI speelt de vaagste tactieken die in de meta totaal geen plaats hebben. Spelers gaan zich daarop instellen zodat ze niet meer verrast worden door willekeurige tactieken. Daarom winnen ze uiteindelijk, maar dit duurt een aantal games.
Dat is ook niet helemaal fair in mijn ogen: verschillende topspelers hebben verschillende speelstijlen en kennen die ook van elkaar. Zo kunnen ze iets beter inschatten wat de vijand ingame zal gaan doen. Het klinkt dat een beetje raar dat er in dit geval meerdere profielen zijn en je niet weet tegen wie je speelt: alsof je in oorlog bent tegen land A, maar de generaal van dat land uit land B, C tot Z kan komen (en je dus totaal geen inschatting kan maken van je vijand).

Aan de andere kant: mogelijk weet de computer ook niet tegen wie het speelt en kan het die informatie dus niet meenemen. In any case zou ik zeggen dat PvP gaming daardoor niet echt te vergelijken valt met deze vorm van competitie.
Een Nederlandse Starcraft 2 speler, Lowko, had sterk de vermoeden dat hij tegen Alphastar had gespeeld. Korte samenvatting van het filmpje: in de replay van de game zag Lowko dat de tegenstander zich vreemd en mogelijk niet menselijk gedroeg. https://www.youtube.com/watch?v=3HqwCrDBdTE
AI word dan ook nog een probleem als we het niet compassie kunnen aanleren.

Nu lijkt het allemaal nog letterlijk “fun&games”, maar een ai wat elk spel kan spelen en de beste spelers kan verslaan wereldwijd.. tegelijkertijd, als je niet kan inzien waar dat naar toe kan leiden dan weet ik het ook niet meer.
Waar dat heen kan leiden draait geloof ik sinds vandaag in de bioscoop. Skynet is ready!
Compassie is een menselijke emotie. Vergeet ook niet dat jij en ik als mens een opvoeding krijgen waarin waarden worden aangeleerd. Dat zijn echter waarden die de mens bepaald heeft als samenleving om met elkaar om te gaan. Die waarden verschillen ook nog wel tussen landen en continenten.

Ga je terug naar extreme situaties, lees oorlog dat zal een groot deel van die mens in overlevingsmode schakelen. Veel van wat we dan aangeleerd hebben zetten we dan overboord.

Het begint al met de simpele vraag je moet uitwijken, rij je 1 mens overhoop naar links, 5 naar rechts of jezelf rechtdoor. Als de mens links een briljant wetenschapper is heeft die dan meer waarde dan de 5 anderen.

Zodra overheden zich met ai gaan bemoeien en dat ook defensie dan weet je eigenlijk dat het ook verkeerd gaan aflopen omdat ze hun eigen machtsagenda hebben. Aan de andere kant geloof ik ook niet in de industrie, die heeft ook een eigen agenda. Als facebook nu al politieke manipulatie niet wil stoppen voor eigen gewin, dan zullen er altijd bedrijven zijn die winst willen halen uit ai waarbij emotie, lees compassie ondergeschikt is aan winst.
Deze AI kan werkelijk helemaal niets buiten dit trucje. Wat dat ding geleerd heeft is werkelijk niets meer dan een trucje, niet meer dan een 'try to walk' learning AI met miljoenen en miljoenen generaties.

Dit systeem kan geen 2v2, ding kan geen 3v3, ding kan geen 'variaties' (wat namelijk de reden was waarom hij verloor in de live match), dit is een game waar de eenvoud van bediening de complexiteit van de game is.

[Reactie gewijzigd door SinergyX op 24 juli 2024 06:34]

AlphaStar is zeker erg indrukwekkend maar dit is een misleidend artikel.

Alphastar cheats:
  • De EPM (effectieve acties per minuut) lag in januari VEEL te hoog en nu nog steeds veel te hoog. Nu ligt de EPM van Alphastar nog steeds veel hoger dan menselijk. APM is acties per minuut dit is ook misclicks en spam wat meestal 50%-90% van de APM is en EPM is wat daadwerkelijk zin heeft dus geen spam en misclicks. De EPM van Alphastar is ongeveer drie keer zo hoog als menselijk (300 vs 100). De EPM is de daadwerkelijke maatstaaf voor wat menselijk is
  • Het speelde in januari nog met de map uitgezoomt zodat het alle actie kon zien op 1 scherm. Hierdoor kon het extreem goed micro'en en beslissingen maken zonder prioriteiten te hebben over de plek van de camera op de map. De game die Alphastar live had verloren was ook gelijk de versie waar AlphaStar net zoals een mens maar op 1 plek tegelijk kon kijken met de camera
  • Alleen de Protoss A.I. kan gezien worden als indrukwekkend vanuit het strategische oogpunt. De andere races speelt Alphastar puur vanuit de mechanics en micro

[Reactie gewijzigd door Legion op 24 juli 2024 06:34]

Op dit item kan niet meer gereageerd worden.