Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Ai scoort beter dan professionals bij Texas hold’em-poker met zes spelers

Amerikaanse wetenschappers en een onderzoeksteam van Facebook hebben Pluribus ontwikkeld, een kunstmatige intelligentie die beter presteert dan professionele spelers bij no-limit Texas hold’em-poker met zes spelers.

De wetenschappers van de Carnegie Mellon-universiteit in Pittsburgh en Facebook AI Research evalueerden Pluribus bij twee testscenario's. Bij het ene scenario speelde een enkele versie van de kunstmatige intelligentie tegen vijf spelers, bij de andere nam een enkele speler het op tegen vijf agents, die overigens individueel speelden. Het ging om professionele spelers die elk meer dan een miljoen dollar gewonnen hebben met het spel. In totaal werden tijdens de test 10.000 hands gedurende twaalf dagen gespeeld.

De prestaties werden gemeten in milli big blinds per game, oftewel mbb/game. Dit meet hoeveel big blinds gemiddeld per duizend rondes gewonnen zijn. Een big blind is het geld dat de tweede speler in de pot stopt na de small blind van de eerste speler. In de variant waarin Pluribus tegen vijf spelers pokerde behaalde hij een gemiddelde van 48mbb/game, wat volgens de onderzoekers een erg hoge score is, vooral bij spelen tegen professionele spelers.

Prestaties van Pluribus in het '5 humans + 1 AI'-experiment

De prestaties waren bovendien consequent hoog gedurende de tienduizend gespeelde hands, wat de suggestie wekt dat de menselijke tegenstanders moeite hadden zwaktes in de strategie van de ai te vinden. Voor het scenario met vijf bots tegen een enkele professionele speler won Pluribus bij de tienduizend hands met een gemiddelde van 32mbb/game.

Bij Texas Hold'em kiezen spelers vijf kaarten uit twee kaarten in de hand en vijf open kaarten om goede combinaties te maken. Poker is al jaren een onderzoeksterrein voor kunstmatige intelligentie vanwege het element van verborgen informatie bij het ontwikkelen van strategieën. Tot nu toe bleven de vorderingen vooral beperkt tot de pokervariant met twee spelers.

De onderzoekers trainden Pluribus met behulp van het Monte Carlo counterfactual regret minimization-algoritme. Cfr is een iteratief algoritme dat leert door willekeurig potjes te spelen en gaandeweg beter wordt door eerdere versies van zichzelf te verslaan. De Monte Carlo-variant analyseert daarvoor samples van acties in het spelverloop in plaats van bij iedere iteratie de gehele 'spelboom' te doorlopen. Het algoritme kan simuleren wat er gebeurd zou zijn als andere handelingen gekozen waren en de strategie aanpassen op basis van de mate van 'spijt' die het heeft dat die route niet bewandeld was.

De blauwdruk van de strategie waar de werking van Pluribus op berust is in acht dagen berekend op een server met 64 cores en met minder dan 512GB ram. De onderzoekers hadden een uitgebreidere basisstrategie kunnen ontwikkelen voor hogere prestaties, maar ze streven ernaar dat een gecomprimeerde vorm van de blauwdruk op een systeem met maximaal 128GB ram kan draaien tijdens het spelen.

Het onderzoeksteam zegt tegen Technology Review dat het Pluribus niet vrij gaat geven, omdat de ai misbruikt kan worden om online pokerdiensten op te lichten. De techniek kan gebruikt worden voor ai-onderzoek bij andere multiplayergames, maar kan op termijn ook in de praktijk toegepast worden, onder andere om autonoom rijdende auto's te verbeteren en voor defensiedoeleinden. De onderzoekers publiceren hun werk onder de noemer Superhuman AI for multiplayer poker in Science.

Door Olaf van Miltenburg

Nieuwscoördinator

12-07-2019 • 11:48

83 Linkedin Google+

Submitter: Cyber Shadow

Reacties (83)

Wijzig sortering
Dit is een interessante ontwikkeling. Jaren terug waren er ook al 6max bots maar die speelden turbo sit and go's, wat tot pure wiskunde is terug te herleiden. Cashgames, met name 6max, zijn vele malen complexer en psychologischer. Ik heb hier een hand uit mijn eigen database waarvan ik me afvraag of de bot hier op dezelfde manier max. value zou halen.

Context: SB heeft een aantal handen hiervoor een grote pot verloren en we hebben een read dat hij wel eens op tilt kan zijn. SB is nu de shortstack aan tafel. CO is een solide speler. Hij heeft een tight range en speelt verder vrij ABC-poker. Hij heeft soms moeite met wegleggen van goede handen.

UTG 86bb
MP 112bb
CO 120bb
BTN (Hero) 127bb
SB 14bb
BB 181bb

Hero has: As Ad

Pre Flop: fold, fold, CO raises 4bb, Hero calls 4bb, SB raises 14bb (all in), fold, CO calls 10bb, Hero raises 27bb, CO raises 45bb, Hero raises 127bb (all in), CO calls (all in)

Flop (43bb (212bb)): Qh 2d 4d

Turn (43bb (212bb)): 9s

River (43bb (212bb)): 7s

SB shows Qd Th, Hero shows As Ad, CO mucks. Hero wins 255bb

###################

Deze spot komt zelden voor in het echt. Echter zag ik (een mens) hier, dat ik CO kon trappen door de verwachte dynamiek van SB te gebruiken. Bijna iedere andere spot met azen zou hier een standaard pre flop re-raise (3bet) zijn tegen CO (niet altijd tegen zijn individuele range, maar dat is een ander topic). Door de eerste raise slechts te callen en vervolgens over de top te komen nadat SB all in is gegaan, creëer ik een situatie waarin ik maximaal value haal omdat ik in vele ogen ook nog eens weak over kom met mijn hand.

Ik vraag me echt sterk af of een bot hiertoe in staat is. En dit is nog maar 1 van duizenden voorbeelden.
Solide speler die 4bb opent op CO, haha? Overigens is dit idd wel redelijke spot om te flatten pre. 90% gwn 3bet voor value tho, vooral omdat jullie wat dieper zitten.
Ik snap ook wel dat een AI dit beter kan. Een AI is veel beter in het scannen van de tegenstanders op typische gedragingen zoals het inschatten van risico's, bluffen etc. Terwijl de menselijke spelers geen enkel houvast hebben omdat de AI gezichtsuitdrukkingen ontbreekt.

Het probleem is dat poker een heel sterk menselijk aspect heeft maar ook een keihard aspect van kansberekening. In die laatste heeft een AI per definitie een 100% score. Terwijl het menselijk aspect ontbreekt dus die hele wisselwerking met de tegenspelers niet tegen de AI gebruikt kan worden terwijl die er wel voordeel uit kan halen tegen de tegenstanders.

Op zich interessant hoor maar de uitkomst vind ik niet bepaald onverwacht of een ode aan hoe goed AI aan het worden is.
Iemand hier die voldoende kennis van algoritmes heeft om uit de kunnen leggen hoe de volgende twee zaken te rijmen zijn?

1. "De onderzoekers trainden Pluribus met behulp van het Monte Carlo counterfactual regret minimization-algoritme."

2. "Het onderzoeksteam zegt tegen Technology Review dat het Pluribus niet vrij gaat geven"

"met behulp van" - zijn er nog andere factore, of is het combineren van dit algoritme met de regels van Texas Hold'em in principe genoeg om dit zelf ook op te zetten (als je nog een systeempje met meer dan 64 cores en 512GB RAM ergens hebt liggen?)

Voer voor wat interessante discussies met m'n collega's van Game Integrity/Bot Specialists bij de koffie automaat.
Het stuk dat Monte Carlo counterfactual regret minimization is niet wat dit vernieuwend maakt, dat is in begin 2000 geïntroduceerd. Dit is al jarenlang hetgeen wat AI pokerbots gebruiken. Dit wordt in dit artikel wel duidelijk genoemd, maar zo zijn er al heel veel bots gemaakt, die het afleggen in deze setting (6-handed no-limit). Het is een uitbreiding of aanpassing van Libratus, de pokerbot die eerder besproken is hier op Tweakers, van dezelfde auteur. Libratus won heads-up poker, Pluribus is gemaakt voor 6-max games. In essentie gebruiken ze dezelfde strategie (ook met CFR, maar toch werkt Libratus niet in een 6-max game en Pluribus wel!). De stap van heads-up naar 6-max is groot, aangezien bij heads-up jouw acties direct invloed hebben op één tegenspeler en andersom. Bij meerdere tegenstanders is dit niet te herleiden en zijn er veel meer factoren in het spel.

Wat Pluribus goed laat werken is de complete chain van het beginnen op nul, verkennen van mogelijkheden, abstraheren van beschikbare en niet-beschikbare informatie tot het maken van een uiteindelijke goede beslissing (om op de lange termijn een positieve expected value te hebben).

Ook al weet je de methodiek die er in deze chain is toegepast, is het erg lastig om dit zomaar na te bouwen zonder verdere informatie. Dit komt omdat er veel parameters bepaald/geschat/geoptimaliseerd moeten worden om het doel te bereiken, moet je weten hoe de lagen met elkaar samen werken en hoe de uiteindelijke beslissing tot stand komt. Je zult een algoritme altijd nog moeten aanpassen naargelang het doel; "There is no free lunch". Het is dus niet even knip en plak werk, en hoppa: je eerste pokerbot is klaar die on par is met deze doorbraak.

Pokerbots willen op de long-run winnen, net als de online pokeraars die ervan proberen te leven. Groot volume aan handen spelen, veel tafels tegelijk en de winst binnen schrapen (geen hit and run). Op die manier kan de variatie en variantie opgevangen worden die komt kijken bij het pokerspel. De factor geluk wordt op deze manier beperkt.
of is het combineren van dit algoritme met de regels van Texas Hold'em in principe genoeg om dit zelf ook op te zetten
Overigens worden er geen regels van Texas Hold'em gebruikt in de chain. De bot weet bijvoorbeeld niet dat een straat hoger is dan three of a kind, of dat een full house beter is dan een flush. Dit leert de bot door veel te spelen en rewards te krijgen voor goede uitkomsten (reïnforcement learning). Wel is er ingeprogrammeerd dat verschillende handen die dichtbij elkaar liggen bij elkaar geclusterd worden. Zo ziet hij een straat met 10 hoog als eenzelfde hand als een straat van 9 hoog. De pokerbot krijgt alle mogelijkheden per beurt voorgeschoteld (vaak; check, bet, fold) en in het geval van betten of raisen moet hij ook nog bepalen hoeveel hij inzet. Dit wordt beperkt op afgerondde getallen. Dit is meer het abstraheren van informatie, dan echt regels van het spel inprogrammeren.

Deze facebook blogpost verschaft meer informatie en is misschien wat leesbaarder dan het paper.

[Reactie gewijzigd door Reynouts op 12 juli 2019 20:29]

Ik ben geen expert, maar wat ze misschien bedoelen is dat ze het gecreerde model zelf niet vrijgeven. Niet alleen het algoritme maar ook wat je al aanhaalt de vele rekenkracht en tijd die het nodig heeft zijn waardevol en blijkbaar ook vanwege eventueel misbruik.

[Reactie gewijzigd door daellat op 12 juli 2019 13:23]

Valt wel mee vind ik. Acht dagen runnen op 64 cores met veel geheugen is te vertalen naar 64 dagen op een "gewone" octacoreprocessor. Natuurlijk ben je er dan niet want "even" een neuraal netwerkje programmeren voor poker is er niet bij, daar komt veel meer bij kijken. Toch is dit al voldoende informatie voor de ervaren ontwikkelaars op AI gebied. Gezien de hoeveelheid winst gaat het binnenkort wel gebeuren dan wel is het al gebeurd.
Dat er nu poker bots zijn is een feit.
Dat er nu poker bots zijn met bovengemiddelde AI durf ik wel te geloven.
Dat er poker bots zullen komen met AI die in de buurt komt van dit monster weet ik absoluut zeker.
Ik vraag me af of deze AI ``gewoon'' Game Theory Optimal Poker heeft geleerd en hoe de AI zich aanpast aan de speelstijl van de andere spelers. Ik kan me voorstellen dat de AI wel exploits zou moeten hebben als hij alleen geleerd heeft tegen eerdere versies van zichzelf te spelen, aangezien die maar één speelstijl zullen hebben. Als dat laatste niet het geval is, dan zit hier een hele interessante techniek achter, lijkt me.
Het lijkt mij dat de ai werd getraind door alle handen van een speler te analyseren,
de ai kan de winnende handen onthouden en als positieve feedback opnemen,
en de verliezende handen als negatieve feedback. Met genoeg potjes valt inderdaad
de factor geluk deels weg.
En dan iedere speler zijn/haar stijl apart opslaan in een apart neuraal netwerk.
Bij de handen van dit artikel kan de ai vervolgens met een digitale dobbelsteen
gooien en een van zijn neural nets kiezen.
Speelt de ai misschien tegen dezelfde(!?) spelers? Dan kan het ook *hun* lekken uitbuiten.
Vraag me wel af hoe de ai presteert tegen mensen als durrrr, of Chinese zakenmensen.

[edit : woord ingevoegd dat was vergeten ]

[Reactie gewijzigd door mistige op 13 juli 2019 09:53]

Het lijkt mij dat de ai werd getraind door alle handen van een speler te analyseren
Er staat vrij duidelijk dat dat niet is wat er is gedaan. De ai is getraind door tegen eerdere versies van zichzelf te spelen.
Heel veel menselijke potjes bestuderen en een neural net bouwen?
Ik weet niet precies wat je met je vraag bedoelt, maar dat is in ieder geval niet wat de onderzoekers hier hebben gedaan. Volgens het artikel:
De onderzoekers trainden Pluribus met behulp van het Monte Carlo counterfactual regret minimization-algoritme. Cfr is een iteratief algoritme dat leert door willekeurig potjes te spelen en gaandeweg beter wordt door eerdere versies van zichzelf te verslaan.
Ik heb even snel het paper opgezocht dat volgens mij Cfr introduceert en daar schrijft men dat het bedoeld is om Nash equilibria (NE) te vinden. Dan zal het dus inderdaad tegen zichzelf spelen. Als dat het geval is en het bijvoorbeeld een (bijna) NE strategie speelt, dan kun je inderdaad niet veel winnen tegen de AI, maar als de AI echt veel wil winnen zal het zich moeten aanpassen op de strategieën van de andere spelers. Lang niet iedereen speelt in de buurt van een NE strategie.

Mijn conclusie (tldr): het zou goed kunnen dat deze AI goed presteert tegen professionele spelers, maar in een groot toernooi zijn er waarschijnlijk menselijke spelers die een betere kans hebben om te winnen.

[Reactie gewijzigd door hoeksmarp op 12 juli 2019 13:06]

Je mag een toernooi ook niet vergelijken met een cashgame waar je winst/verlies gaat meten over x aantal handen, dit is een totaal andere dynamiek... Een toernooi is een mijnenveld waar 1 foute beslissing einde spel betekent.
Nee, deze AI heeft niet "gewoon" GTOP geleerd. Door random variaties aan te brengen in de speelstijl van de "tegenstander" kun je allerlei verschillende tactieken trainen. Ja, de techniek hierachter is inderdaad heel interessant.
Nu ik het allemaal voor mezelf nog eens nagegaan ben, denk ik eigenlijk dat het dat wel is. Wat overigens niet minder interessant is, want ik zou niet weten hoe je GTO zou berekenen zonder machine learning algorithme. Als de AI namelijk GTO (of iets dicht daarbij) speelt, dan kun je er per definitie niet van winnen (op de lange termijn). Dus, pro of niet, je wint er niet van. Wat het wel betekent is dat de AI misschien niet zijn winst maximaliseert tegen zwakke spelers. Dus pro's verdienen wellicht meer als ze in een casino zouden spelen.
Lol exploits? Hoe zie je dat voor je? Dat ie de kaarten van de tegenspelers kent? Dat lijkt me zeer onwaarschijnlijk
Lol exploits? Hoe zie je dat voor je? Dat ie de kaarten van de tegenspelers kent? Dat lijkt me zeer onwaarschijnlijk
Lol, nee. Dat je zijn strategie tegen hem kunt gebruiken, omdat hij alleen tegen zichzelf heeft leren spelen. Maar als hij (dicht bij) GTO speelt, dan kun je er per definitie niet van winnen (op lange termijn).
Volgens mij word er nergens vermeld dat de AI gewonnen heeft, alleen dat hij beter was. Daar zit nog wel een verschil in vind ik, vooral bij een spel zoals poker, waar ook geluk aan te pas komt.
Als een mens poker speelt heb je het element van bluf, inschatten over de ander echt betere kaarten heeft dan jou. Lichaamstaal, houding, kleine dingen die iemand verraden als hij bluft.

Een AI bekijkt poker statistisch en speelt dus zonder emotie. misschien kan ai bluffen, probleem is echter dat een mensen dan moet gokken of ai bluft. Je hebt bij ai geen lichaamstaal, houding emotie. De bluf van ai zal dan ook gecalculeerd zijn op basis van eerdere info.

Uiteindelijk zal computer altijd beter zijn als je emotie weghaalt uit een spel. Die emotie maakt poker wat het nu is.
Klopt, maar als je pokert op de computer zie je sowieso geen lichaamstaal, houding emotie van je medespelers. En het meeste poker wordt nog altijd online gespeeld...
Van een computer zul je online daarom ook altijd verliezen op de langere termijn.
Toch zullen veel menselijke spelers een bepaalde stijl van spelen hebben. Tenzij menselijke spelers vaak van tactiek wisselen zijn ze niets meer of minder dan een pinautomaat voor een goede AI.
Als een mens poker speelt heb je het element van bluf, inschatten over de ander echt betere kaarten heeft dan jou. Lichaamstaal, houding, kleine dingen die iemand verraden als hij bluft.
dat valt natuurlijk voor een groot stuk weg bij online spelen. Hoewel het perfect denkbaar is dat een AI merkt dat er bv. een grotere kans op bluffen is als de speler milliseconden langer wacht met inzetten of iets dergelijks
Een AI bekijkt poker statistisch en speelt dus zonder emotie.
Voor een zuiver statistische benadering heb je geen AI nodig, dat kan elke huis-tuin-keukencomputer namelijk al.
De statistiek van poker is helemaal niet zo moeilijk en wordt zelfs gewoon in beeld getoond tijdens verslaggeving van een event.
De winst staat er toch gewoon? 40mbb/ game, dus 4bb/100 handen wat idd hoog is bij de hogere limieten...

Nu zijn 10k handen niet al te veel (qua tijd in het echt natuurlijk wel, maar voor de geluksfactor niet, online is dit echt een minimaal aantal)

Vraag me ook af hoe dit over echt grote aantallen zal gaan aangezien de echt goede spelers patronen gaan herkennen en misbruiken
Vraag me ook af hoe dit over echt grote aantallen zal gaan aangezien de echt goede spelers patronen gaan herkennen en misbruiken
je moet niet per sé tegen de beste spelers spelen om de hoogste winst te halen, integendeel zelfs ;) niets houdt je tegen om je bot op een andere table te laten spelen als de gemiddelde pot daar hoger ligt
Je speelt juist liever tegen slechtere spelers natuurlijk, maar het zegt wel iets over de poker-kwaliteiten van de bot, anders is het vooral een goede tafel-selectie bot ;)
Die bot heeft misschien wel minder dan 64 cores en 512 GB RAM nodig.
Als je een poker bot kan leren in de basis het spel te beheersen en juist te leren of een tegenstander slimme of domme zetten maakt zou je inderdaad een bot kunnen hebben die goed is in de 'slechte' tafels te vinden en zo daadwerkelijk veel geld kan verdienen.
Vraag me ook af hoe dit over echt grote aantallen zal gaan aangezien de echt goede spelers patronen gaan herkennen en misbruiken
Op BNR (Radio) ging het er juist over dat het grootste voordeel van de speelstijl van deze AI is dat deze zich niet vasthoudt aan een vast speelpatroon. Waar mensen natuurlijk lastig omschakelen in speelstijl en je dus individuele spelers kunt gaan herkennen, kan deze AI juist telkens wat anders doen.
(Alhoewel dat natuurlijk ook weer te herkennen valt: een speler die opvallend veel verschillende tactieken toepast.)

In ieder geval lijkt dit het begin van het einde van online-speeldiensten; binnen nu en een paar jaar is voor steeds minder geld een bot te kopen die 'even met jou meekijkt' als je online aan het spelen bent en jou van adviezen voorziet.
Aantonen dat de AI beter is is dus relevanter dan winnen. Een chimpansee kan met vaak genoeg proberen en voldoende geluk ook winnen met minimaal besef wat er werkelijk gebeurd.
'vaak genoeg proberen' en 'voldoende geluk' zijn tegenstellingen. Alleen als je geloofd dat geluk geen factor is die absoluut random is kan je die twee stellingen combineren.

'Geluk' bestaat alleen bij een beperkt aantal pogingen.
Geluk is inderdaad de kans dat iets onwaarschijnlijks toch voorkomt. In de statistiek bestaat geluk natuurlijk niet.
Inderdaad, dat en AI heeft natuurlijk geen emotie en kent/herkent geen bluf. Zal derhalve mathematisch sowieso beter spelen dan een mens
kent/herkent geen bluf. Zal derhalve mathematisch sowieso beter spelen dan een mens
Wel omdat bluffen en bluffen herkennen strategieën zijn om je winstkansen te verhogen, zal een AI die dat niet gebruikt juist verliezen! Overigens kon deze AI wel bluffen.
"Overigens kon deze AI wel bluffen."
Niet, want hij had tijdens het inzetten al de winnende hand, hij polariseerde zijn inzet tot een bluf óf een winnende hand.
Niet, want hij had tijdens het inzetten al de winnende hand
De AI wist niet dat hij de winnende hand had, vanuit zijn perspectief was het een zeer middelmatige hand. Het was dus gewoon een bluf waarmee hij mogelijk wint. Uiteraard houdt ie rekening met het feit dat ie uiteindelijk wel gecalled gaat worden en dat hij verslagen is. Dat zet ie af tegen de keren dat hij gecalled wordt door een mindere hand of dat de tegenpartij fold, en dat bepaalt uiteindelijk ook de hoogte van de raise.

[Reactie gewijzigd door .oisyn op 12 juli 2019 14:08]

"De AI wist niet dat hij de winnende hand had, vanuit zijn perspectief was het een zeer middelmatige hand"
Niet met zekerheid, nee... maar een bluf bij mij is totaal geen hand hebben en de ander tot folden dwingen. AI had top pair en goeie kicker, ik kan dat echt geen bluf noemen, niet eens een semibluf op een set.
maar een bluf bij mij is totaal geen hand hebben en de ander tot folden dwingen
Prima dat je je eigen mening hebt, maar de consensus in de pokerwereld is dat dit gewoon een bluf heet. Wanneer heb je geen hand? Elke hand is natuurlijk een hand.
AI had top pair en goeie kicker
Ah, misschien hebben we het over een verschillende hand. Ik refereerde naar de laatste gespeelde hand, waarbij de AI een A7s heeft, een middle plair flopt en uiteindelijk zijn tegenstander met AJo wegbluft terwijl er 2 overcards en straightkansen op tafel liggen. Hij representeert heel wat meer dan hij daadwerkelijk heeft - en dat heet dus bluffen.

[Reactie gewijzigd door .oisyn op 12 juli 2019 14:17]

Ah, misschien hebben we het over een verschillende hand. Ik refereerde naar de laatste gespeelde hand, waarbij de AI een A7s heeft, een middle plair flopt en uiteindelijk zijn tegenstander met AJo wegbluft terwijl er 2 overcards en straightkansen op tafel liggen.
Nee, het is de 2e hand met QJ waar een Q geflopped wordt. Hij wacht 2 straten om de ander te trappen, en zet op de river 40% o.i.d. in... daarmee polariseert zijn inzet tot een bluf óf de winnende hand.
Nee
Hoezo "nee"? Kunnen we het eens zijn dat we het over verschillende handen hadden? :). Ik ben het met je eens dat bij de QTs je het amper een bluf kunt noemen.

[Reactie gewijzigd door .oisyn op 12 juli 2019 14:20]

Hoezo "nee"?
Geestig :-) Ik bedoelde inderdaad ja, we hadden het over verschillende handjes. :-)
De AI zal best bluffen en blufs proberen te callen, anders is het moeilijk winstgevend spelen in Texas Holdem. Dus hij kent/herkent zeker wel blufs.

Holdem is geen puur mathematisch spel. Vanaf een bepaald niveau (even vanuit gaande dat de mensen die 1m+ hebben gewonnen dat niveau hebben) is het meer game theory bovenop dat mathematische component.
Een AI gaat inderdaad anders om met bluffen. De AI begrijpt heel goed dat de inzet van een speler een relatie heeft met de getoonde en ongetoonde kaarten. Als een speler hoog inzet betekent dat niet dat de speler goede kaarten heeft en ook dat begrijpt een AI.
Het voordeel van een AI is dat wij mensen vaak een mate van voorspelbaarheid hebben ook al proberen we dat te vermijden. Een AI zou net iets beter in staat moeten zijn om die voorspelbaarheid in te schatten dan een mens.

Bij een offline tournament wordt het lastiger omdat wij mensen toch wel erg goed zijn in het lezen, verbergen en faken van tells.
"Volgens mij word er nergens vermeld dat de AI gewonnen heeft"
Het gaat er niet om dat AI gewonnen heeft, maar dat AI er menselijke strategieën op nahoudt, het is wat om in de cut-off te callen met middle-suited-connectors, het tweede filmpje laat ook grootse dingen zien, een val zetten en die twee straten doortrekken vereist moed/inzicht, de meesten mensen gaan hun hand na eerste keer al gelijk verdedigen met het idee dat er misschien wel een aas of koning kan vallen, AI rekent fijntjes de statistieken door...
Wat is winnen bij poker? Juist, zorgen voor dat je iedereen aan tafel blut naar huis stuurt.

Dus het aantal handen winnen is niet het belangrijkste, maar het aantal geld afhandig maken, dat is belangrijk.
Hoe je er komt, door te winnen/verliezen/bluffen maakt niet uit.
Zou dat element niet vervallen als je maar genoeg handen speelt?
dan krijg je de "law of big numbers"

wat betekend dat hoe vaker je wint hoe vaker je blijft winnen.

dit filmpje geeft goed aan hoe het werkt "op basis van het spel wie is het"
https://www.youtube.com/watch?v=FRlbNOno5VA&t
dan krijg je de "law of big numbers"
wat betekend dat hoe vaker je wint hoe vaker je blijft winnen.
Is het niet net het omgekeerde? Hoe vaker je speelt, hoe groter de kans dat de statistisch berekende waarde benaderd wordt.
Procentueel wint diegene alleen het minste van allemaal.
10.000 hands gedurende twaalf dagen is echt te weinig om iets zinnigs over te zeggen. Er zijn onlinespelers die 10 000 handen per dag spelen (meerdere tafels tegelijkertijd). De luckfactor wordt steeds minder hoe hoger het aantal gespeelde handen. Ben benieuwd wat eruit komt na 100 000 handen.
10.000 handen per dag lijkt mij vrij onwaarschijnlijk. Als je rekent dat je per dag 15 uur zou pokeren, wat echt heel veel is, dan heb je 900 minuten. Dat betekent dat je dus meer dan 10 handen per minuut moet spelen, of één hand per 5 à 6 seconden om aan 10.000 handen te geraken. Lijkt mij dat dit niet haalbaar is, omdat je nog tijd nodig hebt om de situatie in te schatten (kaarten op tafel, etc.), tenzij het je bedoeling is zoveel mogelijk te verliezen...
10.000 handen per dag lijkt mij vrij onwaarschijnlijk. Als je rekent dat je per dag 15 uur zou pokeren, wat echt heel veel is, dan heb je 900 minuten. Dat betekent dat je dus meer dan 10 handen per minuut moet spelen, of één hand per 5 à 6 seconden om aan 10.000 handen te geraken. Lijkt mij dat dit niet haalbaar is, omdat je nog tijd nodig hebt om de situatie in te schatten (kaarten op tafel, etc.), tenzij het je bedoeling is zoveel mogelijk te verliezen...
Online wordt vaak door één persoon op meerdere tafels tegelijkertijd gespeeld. Met zo'n 400 handen per uur per tafel en laten we zeggen 5 tafels is al 2000 per uur.
Online wordt vaak door één persoon op meerdere tafels tegelijkertijd gespeeld. Met zo'n 400 handen per uur per tafel en laten we zeggen 5 tafels is al 2000 per uur.
Je snapt het niet. 2000 handen per uur is elke 1,8 seconden een hand, of meer dan 33 handen per minuut. Dat haalt niemand.
Volgens mij snap jij het niet of heb je nog nooit online gespeeld. Wanneer je fold heb je ook een hand gespeeld. Zoek maar eens op youtube, staan genoeg videos van mensen die bijvoorbeeld 20 tafels tegelijkertijd spelen.
Best leuk hoor dat er staat dat ze profs genomen hebben die meer dan een miljoen gewonnen hebben maar ze hebben die miljoenen offline gewonnen en in vaak toernooien. Toernooien versus Cash is wel een groot verschil.
Ze hebben niet de beste ONLINE cash spelers tegenover de AI gezet en dan had ik wel graag willen zien wat dan de resultaten zouden zijn. Online spelers zijn veel meer gewend om hun beslissingen te maken op basis van wiskunde i.p.v. gevoel.
Ik heb helemaal geen verstand van poker, maar ik lees dat de AI tegen spelers heeft gespeeld die miljoenen hebben verdiend. Ik ga er dan van uit dat deze speler tot de top behoren in deze specifieke arena. Dan is het toch een enorme prestatie als de AI wint?
Het is dan een open deur om te stellen dat dit niet zo bijzonder is omdat er (kennelijk) ook nog Cash-spelers zijn die een niveau hoger spelen.

Er worden op dit moment testen uitgevoerd met autonome race-auto's en met autonome motoren op circuits. Je kunt waarschijnlijk nog jaren blijven roepen: Best leuk hoor, maar waarom racen ze niet tegen Max Verstappen of Valentino Rossi?".
Het zijn allemaal van die goedkope open deuren. We zien hier een stap in een vreselijk interessante ontwikkeling die nog maar net begonnen is en geen einde zal kennen. Om dan elke stap af te doen als "best leuk" omdat er ergens nog een tegenstander te vinden is die het beter doet...
Het moment dat een speler niet met echt geld speelt, zoals zeker het geval is in deze setup, wordt er anders gespeeld. Dus eigenlijk is de uitkomst al scheef voordat er is begonnen wanneer je deze uitkomst doortrekt naar online pokeren. Er staat immers geen geld op het spel dus wordt er anders gepeeld. ( bewust of onbewust )
omdat de ai misbruikt kan worden om online pokerdiensten op te lichten
De vraag is dus in hoeverre er nog geen andere ai bots zijn ontwikkeld die dit al wel kunnen, maar nog niet ontdekt zijn….
ik denk dat de online casino's al enorm veel inzetten op AI om hun klanten (en dus zichzelf) te beschermen, maar daar zal waarschijnlijk ook weer op geanticipeerd worden door bots niet al te sterk te maken. Het zal gewoon een kwestie van AI vs AI worden en het kat/muis spelletje gaat gewoon digitaal verder waar cardcounters en dergelijke zijn opgehouden
Uiteindelijk ga je dus naar een slotautomaat-model toe bij Online Pokeren en dat lijkt me een slechte zaak. Ik win pas wanner PartyPoker dat wilt.
dat kan helaas al zo zijn, tenzij je effectief weet en ziet wie er nog aan de tafel zit, maar dat zal dan weer een brug te ver zijn
Blijkbaar doet bluffen dus helemaal niets. Of de computer bluft.
Hij leert juist hoe hij kan winnen door een combi van bluffen, callen, folden etc. Voor puur mathematisch heb je geen AI nodig en zal je niet winnen.
''Het onderzoeksteam zegt tegen Technology Review dat het Pluribus niet vrij gaat geven, omdat de ai misbruikt kan worden om online pokerdiensten op te lichten.''

Maar de technologie is er wel. Is het onredelijk om te verwachten dat zulke technologie in laten we zeggen de komende 10 jaar beschikbaar komt voor mensen die minder moeite hebben met vals spelen, vooral als er erg grote bedragen tegen over staan? Of gaat dit een AI vs AI worden waarbij AI gebruikt gaat worden om AI te detecteren zoals DARPA AI gebruikt in hun tool om deepfakes op te sporen?
[quote]
Maar de technologie is er wel. Is het onredelijk om te verwachten dat zulke technologie in laten we zeggen de komende 10 jaar beschikbaar komt voor mensen die minder moeite hebben met vals spelen, vooral als er erg grote bedragen tegen over staan?
[quote]
Daar zou ik wel van uitgaan. Zo'n beetje alle ontwikkelingen in IT-land zijn na een paar jaar voor een appel en een ei te krijgen voor iedere consument. Het is een kwestie van tijd voor iedereen de benodigde hardware kan betalen. Dan heb je ook nog wat wetenschappers nodig om de software te schrijven maar dat is ook nog wel te overzien.
Toen ik 10 jaar geleden studeerde had ik klasgenoten die online pokerde met assistentie van zelf geschreven software. Ik durf niet te zeggen hoe goed die software was, maar blijkbaar goed genoeg om niet direct al je geld kwijt te zijn. Ik neem aan dat de studenten van nu precies hetzelfde doen maar dan met betere software.
Of gaat dit een AI vs AI worden waarbij AI gebruikt gaat worden om AI te detecteren zoals DARPA AI gebruikt in hun tool om deepfakes op te sporen?
Ja, voor anti-cheat technologie wordt er steeds meer gebruik gemaakt van AI, het is een echte wapenwedloop.


Om te kunnen reageren moet je ingelogd zijn


OnePlus 7 Pro (8GB intern) Nintendo Switch Lite LG OLED C9 Google Pixel 3a XL FIFA 19 Samsung Galaxy S10 Sony PlayStation 5 Wetenschap

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank, Intermediair en Independer de Persgroep Online Services B.V.
Alle rechten voorbehouden © 1998 - 2019 Hosting door True