• Hu lhe ‘ratkaistu’ / GTO Pokerista turinaa Science:ssä

    Home Forums Pokeritieto Pokeriuutiskeskustelua Hu lhe ‘ratkaistu’ / GTO Pokerista turinaa Science:ssä

    Viewing 15 posts - 1 through 15 (of 21 total)
    • Author
      Posts
    • #37671
      astraalicowboy
      Participant
      #917666
      wunderbra
      Member

      Itse juttuun törmäsin Marginal Revolution blogissa:

      http://marginalrevolution.com/marginalrevolution/2015/01/have-game-theorists-plus-computers-cracked-the-game-of-poker.html

      ja sen mukaan kyseessä siis TX limit huppi eli oman ymmärrykseni mukaan jo aiemminkin “tarpeeksi” läpipelattu pokerivariaatio.

      Mikä itseäni jutussa kiinnosti on se, että tuo niiden algoritmi perustuu itseoppimiseen eli johonkin mitä nuo propellihatut kutsuvat “counterfactual regret” algoritmiksi. Tämä ymmärtääkseni on jotain mitä ihmistieteissä kutsutaan yritykseksi ja erehdykseksi eli kone painaa ensin nappeja sattumanvaraisesti ja muuttaa sitten käytöstään minimoidakseen virheitä.

      Olen elänyt ymmärryksessä, että näissä boteissa on yleensä lähdetty jonkinlaisen ennalta ratkotun pelipuun pohjalta ja sitten seurattu kussakin risteyksessä ennalta laadittua karttaa. Jos kone kykenee rakentamaan tämän optimaalisen pelipuun itse, luulisi että tekoäly kepittää samalla periaatteella kaikki eteen tulevat pokerivariantit aiempaa ymmärretyn vauhdikkaammin.

      Sitten on tietysti sekin suurehko mahdollisuus, että tässä koko jutussa ei ole mitään uutta saati ihmeellistä ja että tuo juttu nyt vain sattui osumaan silmiini.

      http://www.nature.com/news/game-theorists-crack-poker-1.16683#b1

      #917669
      alisoko
      Participant

      @wunderbra wrote:

      Olen elänyt ymmärryksessä, että näissä boteissa on yleensä lähdetty jonkinlaisen ennalta ratkotun pelipuun pohjalta ja sitten seurattu kussakin risteyksessä ennalta laadittua karttaa. Jos kone kykenee rakentamaan tämän optimaalisen pelipuun itse, luulisi että tekoäly kepittää samalla periaatteella kaikki eteen tulevat pokerivariantit aiempaa ymmärretyn vauhdikkaammin.

      Mitä eroa näet “ennalta laaditulla” ja “kone rakentaa itse”? Kovin hyvää ennalta laadittua strategiaa ei varmaan kynällä ja paperilla pyörittelemällä saa, joten ainoaksi vaihtoehdoiksi jäänee että “kone” rakentaa sen.

      Counterfactual regret minimization on juurikin algoritmi jolla lasketaan (approksimoidaan) optimaalinen strategia eli se ennalta laadittu kartta. Sen algoritmin sisällä karkeasti “kone pelaa itseään vastaan” ja muuttelee käytöstä kuten kuvasit. Pointti ei siis ole että kone esim. pelaisi ihmisvihua vastaan ja siitä reaaliajassa oppisi lisää yrityksen ja erehdyksen.

      #917670
      KunChipitKarkaavat
      Participant

      Jos Monte Carlo integrointi on tuttua, counterfactual regret tekee tietyssä mielessä samaa, mutta stationaarijakauma on GTO-pelipuu integrandin sijaan. Ko simulaatiossa pelataan enemmän jakoja muutamassa sekunnissa kuin pokerstarssilla ovat kaikki ihmispelaajat pelanneet tähän mennessä

      Vaikka tuo koskee tässä vaiheessa vain limit hu tx, tällaiset uutiset tappavat nettipokerin randomien osalta, jotka lukevat uutisia. Ei vain Nature vaan ihan tuulari BBC uutisia. Mm ao linkki on levinnyt mun duunipaikalla tänään kommentein “pokeria ei kannata pelata netissä”. Kommentoijat toki melko ummikkoj

      http://m.bbc.com/news/science-environment-30718558

      Pistän myös pääni pantiksi, että ko tutkijat approksimovat vastaavaa short handed pot limit peleihin ja kokeilevat niitä netissä

      #917671
      AllEars
      Participant

      Enemmän tai vähemmän ainakin 7-8 vuotta sitten…

      #917672
      wunderbra
      Member

      Kiitoksia selvennyksistä.

      “Mitä eroa näet “ennalta laaditulla” ja “kone rakentaa itse”? Kovin hyvää ennalta laadittua strategiaa ei varmaan kynällä ja paperilla pyörittelemällä saa, joten ainoaksi vaihtoehdoiksi jäänee että “kone” rakentaa sen.”

      Näin tietysti.

      Tästä algoritmistä tarkemmin kiinnostuneiden kannattanee seurata 2+2 ketjua, johon tuo tutkijaryhmäkin osallistuu:

      http://forumserver.twoplustwo.com/29/news-views-gossip/computers-conquer-texas-holdem-poker-first-time-1502189/

      Jonka ensimmäisestä postauksesta nämä perustiedot:

      “Cliffs:
      Limit-holdem only for now
      New algorithm with a different “regret minimization technique” to select the best strategy at each step of the game
      Reduced temporal averaging of algorithm to most recent hands vs all hands, which reduces computation and memory required
      Used compression to reduced data set required to *just* 11 terabytes for counterfactual data and 6 terabytes for main strategy
      Uses 200 computer nodes each consisting of 24 2.1Ghz AMD cores, 32GB of ram, and 1TB disk
      Algorithm confirms that some basic tenants of optimal play hold up, including the advantage of position and aggression/raising, whereas some tenants were contradicted, like always bet-capping streets with the nuts and overly selective starting hand requirements out-of-position”

      Itselleni perustuularina jännin detalji on se, että GTO:ssa ei koskaan capata pre (en ole kyllä limit huppia vuosiin pelannut eli saattaa olla hyvinkin peruskauraa asiansa osaaville).

      Bottia vastaan pääsee pelaamaan:

      http://poker.srv.ualberta.ca/

      ja yksi kehittäjistä on ilmeisesti Suomesta eli tässä olisi Teerenpeleille tilausta.

      #917676
      Pek
      Participant

      No mistä tän artikkelin pääsee lukemaan.

      #917678
      thunder
      Member

      PDF tutkimukseen: https://pdf.yt/d/qv-O9AwQuV1Kjb04 Artikkeli tosin ei mene varsinaisesti erityisen syvällä yksityiskohtiin, vaan antaa ainoastaan yleiskuvan. Algoritmi itsessään, tai sen perusmuoto, on se sama mitä on käytetty viimeiset 10v alan tutkimuksessa tms. Nyt vaan tehokkaammin/älykkäämmin.

      Eikä ollut ratkaistu 7-8 vuotta sitten. “Ratkaisun” määritelmä tässä tapauksessa: “We define a game to be essentially solved if a lifetime of play is unable to statistically differentiate it from being solved at 95% confidence.”. Rajan laskettiin olevan n. 0.1bb/100 reilulla 60 miljoonalla kädellä. Eli siis vastustaja joka pelaa optimaalisesti tuota kyseistä bottia vastaan voittaa maksimissaan tuon 0.1bb/100.

      Edit: Bottia vastaan pitäisi pystyä pelaamaan osoitteessa: http://poker.srv.ualberta.ca/ Tuntuu tosin olevan jumissa tällä hetkellä

      #917679
      Pek
      Participant

      http://poker.srv.ualberta.ca/preflop

      Miten tuota oikein luetaan. Tarkottaa tuo kun BET,RAISE kohdan totaali sininen sitä että jos botti ensin avaa sb:stä ja sitä korotetaan niin se maksaa 100% käsistä??? Tää olis kyllä hyvin yllättävää…

      #917680
      hauturi
      Participant

      Yhdistin samaa asiaa käsittelevät threadit yhdeksi.

      #917681
      Pek
      Participant

      Eli siis vastustaja joka pelaa optimaalisesti tuota kyseistä bottia vastaan voittaa maksimissaan tuon 0.1bb/100.

      Eikö tää ratkasusta puhuminen oo sitten vähän ennen aikasta?

      Miettikää esim. kuka tahansa grindaaja pelaa 3k kättä/päivä. Olettaen että winrate on 0.1bb/100 niin se tekee jo 3bb/päivä mikä on 100/200 aika hyvin rahaa. Botti konkurssissa hyvin äkkiä.

      Mielestäni tuosta ratkasusta ois järkevää puhua sitten kun se peli on oikeesti ratkastu tai ainakin niin hyvin että millään järkevillä panoksilla ei pysty bottia vastaan tekemään mitään järkevää tuottoa missään järkevässä ajassa.

      #917682
      thunder
      Member

      @Pek wrote:

      Mielestäni tuosta ratkasusta ois järkevää puhua sitten kun se peli on oikeesti ratkastu tai ainakin niin hyvin että millään järkevillä panoksilla ei pysty bottia vastaan tekemään mitään järkevää tuottoa missään järkevässä ajassa.

      En usko, että pokeria tullaan “koskaan”, tai ainakaan hyvin pitkään aikaan ratkaisemaan täysin 100%. Ei ainakaan näillä nykyisillä iteratiivisilla algoritmeillä. Rajaa tosin voidaan saada varmasti alemmaksi, mutta mikä on sitten tarpeeksi matala?

      Edit: ja tuo 0.1bb on siis rajana myös sellainen, että ei voida tilastollisesti erottaa tuolla 60M käsimäärällä & 95% varmuudella kummalla pelaajalla on etu. Siis botti ei välttämättä häviä sitä 0.1bb/100, joskin se on mahdollista.

      #917684
      Pek
      Participant

      mutta mikä on sitten tarpeeks matala?

      Tuo 0.1bb/100 on ainakin liian korkea, koska uskoisin, että tässä maailmassa on pokeriammattilaisiakin, jokta tienaa rakebäkkien kanssa tuon 0.1bb/100 ja saavat vielä leipää ostettua.

      Jonkun järkevän rajan voisi laskea esim siten, että bottia vastaan ei voi biitata inflaatiota vaikka pelaisi max-strategialla.
      Eli otetaanpa esimerkiksi 0.5/1 yksikön peli. Järkevä määrä käsiä vuodessa olis ehkä n. 1000k. Repäistään tästä hatusta 1k yksikön bankrolli ja vähintään 5% tuottotavoite. Eli vuodessa tarvittaisiin voittoa n. 50 yksikköä. Mikä tarkoittaa, että winraten pitäisi olla 50/1000k = 0.005bb/100 kättä.

      Eli siinä on mun ehdotus tarpeeksi matalaksi rajaksi.

      #917685
      Pek
      Participant

      @thunder wrote:

      Edit: ja tuo 0.1bb on siis rajana myös sellainen, että ei voida tilastollisesti erottaa tuolla 60M käsimäärällä & 95% varmuudella kummalla pelaajalla on etu. Siis botti ei välttämättä häviä sitä 0.1bb/100, joskin se on mahdollista.

      Jaah onpas fixussakin sitten yllättävän paljon varianssia. Ehkä mä oon sit vaan kujalla.

      #917686
      NoTells
      Participant

      @Pek wrote:

      …uskoisin, että tässä maailmassa on pokeriammattilaisiakin, jokta tienaa rakebäkkien kanssa tuon 0.1bb/100 ja saavat vielä leipää ostettua.

      Väitän ettei varmasti ole.

    Viewing 15 posts - 1 through 15 (of 21 total)
    • You must be logged in to reply to this topic.