• KCK2.0: Chippejä tuijottavat miehet

    Home Forums Muu keskustelu Pokeripäiväkirjat KCK2.0: Chippejä tuijottavat miehet

    Viewing 15 posts - 316 through 330 (of 442 total)
    • Author
      Posts
    • #938734
      KunChipitKarkaavat
      Participant

      “What is the right direction?”

      Katselin tässä jokunen päivä sitten muutamia vuosia sitten julkaistun vuosia kadoksissa olleen Steve Jobsin haastattelun “Steve Jobs – lost tapes”. Se oli mielestäni aivan timantti haastattelu ja sain siitä kuvan, että Jobs on oikeasti ollut aivan helvetin poikkeuksellisen lahjakas yksilö kuten aikaisemmin on voinut jo päätellä epäsuorista lähteistä. Jonkin sortin renesanssiyksilö sektorilla teknologia-käyttäjäsisältö/kokemus. Hauskoja anekdootteja ja referenssejä voi vetää myös korporatismiin ja siihen, miten se tappaa talossa ja puutarhassa. Ehkä jotta tuosta haastattelusta voi saada halleluja-kiksejä, pitää olla tietyntyyppistä koulutusta ja kokemusta vyön alla, mutta tsekatkaa, jos on Netflix. Aika lailla dokkarin lopussa haastattelija kysyi Jobsilta “What is the right direction?”, johon Jobs vastaa lyhyen tauon jälkeen “Ultimately it comes down to taste. It comes down to taste.”

      Brain vs AI matsi edelleen käynnissä. Katsoin eilen jonkinlaista tilannekatsausta netistä. Ilmeisesti ihmisprot olivat vähän kaventaneet tekoälyn etumatkaa. Tämä on jossain määrin odotettavissa, koska alkuun AI on tabula rasa proille, joilla ei ole käytössä matsissa ilmeisesti HEMiä. Jossain näin sellaisen heebon kuin Doug Polk (jonkin sortin NL HU jeesus) kommentteja matsista, mistä mieleen jäi se, että Doug sanoi jotain siitä, että ilman HEMiä ihmisen on lähes mahdotonta sanoa jostain turnin actionista tekeekö vihu sitä 14% ajasta vai 10%. Kuitenkin tämä tieto 4% erosta on totaalisen ratkaiseva sen suhteen, voittaako vihun vai ja kuinka adjustoidaan peliä vihua vs turn pelissä. Olen samaa mieltä, että subjektiivisesti jos yrittää pitää mielessä statistiikkaa 10% vs 14% ilman kynää ja paperia puihin menee. Se, mikä tässä kuitenkin erityisesti pelottaa on se, että toi kommentti aika hyvin konkretisoi sen perseraiskauksen, jonka kohteeksi luomupelaajat tänä päivänä netissä joutuvat eivätkä välttämättä edes tiedä, mikä ydinohjus heihin osui ja miksi.

      Mulla oli suunnitelma käydä pelaamassa käkkyä ekana päivänä freezeoutissa. Tämä suunnitelma meni semihyvin. Menin CHlle toteamaan, että eka turnaus on netissä ja pelit vain alakerrassa ja siellä joku satelliitti ennen kuin käkyt aukeavat. En jäänyt venaamaan ja näin tuli freezeout käkkyä melkein tultua pelattuakin. Seurasin jälkeenpäin mm Akin blogikirjoituksesta, että vuodenpelaajat valittiin ja nämä rouhineet miglun vähintään kaikki. On mielenkiintoinen kysymys, kuka seuraavista miglun rouhineista pelaajista on pokerimielessä “paras” / “vuoden pelaajin”

      Pelaaja A: Pelaa one dropin tai vastaavan turnauksen ja luukuttaa miljoonan voiton. Muuten ei pelaa juurikaan.
      Pelaaja B: Pelaa netissä käkkyä suhteellisen pienellä volalla ja hurjalla työn voitolla päätyy miljoonan kirjaukseen vuoden lopussa
      Pelaaja C: Pelaa netissä, mutta vähemmän kuin B, mutta kovempia pelejä ja on jatkuvasti balanssipäätösten edessä ilman suoraviivaisia bumhunttaussurvaisuja ja elää enemmän top notch edgellä ja vihujen pään sisällä

      Elinkeinomielessä pelaaja B on paras ja oletettavasti pelaa taloustermein “tehokkaalla rintamalla pokeria”. Pelaaja A:lla on maksivolat, koska tunnetusti turnauksessa on volat tapissa ja stokastisessa mielessä hän ei ole todistettavasti paras riittävällä luottamustasolla. Pelaaja C taas on pelannut vähemmän kuin B ja samaan aikaan isommalla riskillä, mutta voittanut about samat. Teknisesti ottaen C on ottanut turhaa riskiä volaa vastaan ja on siten pelannut “ei tehokkaalla rintamalla”. Kuitenkin pitäisi ottaa huomioon urheilutermein, että C on pelannut mestaruusliigassa ja B on rouhinut voluumilla I divaria. Se, onko B vai C parempi voitaisiin redusoida matemaattiseksi laskuksi, mutta pelkästään tällaisella intuitiivisella karakterisoinnilla sanoisin, että C on viihdyttävämpi ja parempi pelaaja, mutta pelaaja B on ammattimaisempi.

      #938740
      mongeron
      Participant

      Täytyy tähän väliin todeta että odotan aina postauksiasi ja nautin niiden lukemisesta.

      – mongeron

      #938744
      KunChipitKarkaavat
      Participant

      @mongeron wrote:

      Täytyy tähän väliin todeta että odotan aina postauksiasi ja nautin niiden lukemisesta.

      Kiitos! Ei kannata kuitenkaan pidättää hengitystä odotellessa. Sen verran on verkkainen päivitysväli.

      Tarkistin äsken Brain vs AI tilanteen ja nyt on taas suunta kääntynyt. Noin puolet käsistä pelattu ja AI on voitolla konsistentisti jokaista prota vastaan. Tämän hetken ka statistiikka on, että AI biittaa 10bb / 100 kättä kohti ihmispelaajat.

      Yksi pelaajista sanoi

      “The bot gets better and better every day. It’s like a tougher version of us.”

      Varmaan kiva tulla joka päivä takaisin pelaamaan 8 tuntia, kun tietää, että kone on käy väsymättömästi läpi pelattuja käsiä ja on aina seuraavana päivänä astetta ikävämpi vihu. Nyt myös eroa alkaa olemaan sen verran paljon, että myöskin toivo sen 200 kilon saamisesta on kauempana.

      Saa nähdä missä määrin skaban jälkeen massamedia noteeraa tuloksen, jos AIn voitto on selvä ja kiistaton. Massamedian uutisointi olisi ilman muuta tappio nettipokerille. Hyviä puolia, jos hakee tämän jälkeen pokeri ei enää kiinnosta kovimpia koneoppimistutkijoita. Joku saattaisi luulla, että tämän jälkeen kehitettäisiin omaha bottia. En usko, että,ainakaan yliopistoissa. Fokus tulee olemaan geneerisessä epätäydellisen tiedon pelien oppimisessa. Toki omaha on yksi tällainen erikoistapaus. Tavallaan olettaisin, että pokerin kannalta seuraava edes jossain määrin riittävän mielenkiintoinen tutkimisongelma olisi kehittää botti, joka saa syötteenä mielivaltaisen pokeripelin säännöt ja sen jälkeen pelaa ko peliä paremmin kuin yksikään ihminen

      #938747
      koira
      Participant

      Hyvä blogi!

      Ottelusta tuli sellainen mieleen, että jos ottelu on rajallinen, niin olisiko mahdollista pelata aluksi itselleen epäedullisesti ja “opettaa” botti väärään strategiaan ja lopussa (ehkä 1/5 jäljellä tms) ruveta pelaamaan opetaamaansa strategiaa vastaan mahdollisimman tehokkaasti? Oletuksena siis että botti optimoi itsensä juuri näitä vihuja ja heidän pelikirjaansa vastaan.

      =D

      – koira

      #938742
      KunChipitKarkaavat
      Participant

      @koira wrote:

      Hyvä blogi!

      Ottelusta tuli sellainen mieleen, että jos ottelu on rajallinen, niin olisiko mahdollista pelata aluksi itselleen epäedullisesti ja “opettaa” botti väärään strategiaan ja lopussa (ehkä 1/5 jäljellä tms) ruveta pelaamaan opetaamaansa strategiaa vastaan mahdollisimman tehokkaasti? Oletuksena siis että botti optimoi itsensä juuri näitä vihuja ja heidän pelikirjaansa vastaan.

      =D

      – koira

      En usko, että toimisi, vaikka en tiedä yksityiskohtia. Oletan, että a priori AI pelaa kuitenkin vähintään suurimman osan ohmispopulaatiosta biittaava ABC + selected moves pokeria. Huomattavaa tässä, että kyseessä HU eikä multiway, mutta ko algoritmia voi sinänsä soveltaa myös pokerin ulkopuolelle esim bisnes ja sotatilanteisiin

      Chou said he and the other pros have shared notes and tips each day, looking for weaknesses they can each exploit.
      “The first couple of days, we had high hopes,” Chou said. “But every time we find a weakness, it learns from us and the weakness disappears the next day.”
      The change from day to day is not unexpected, Sandholm said. Each night after poker play ends, the Pittsburgh Supercomputing Center’s Bridges computer performs computations to sharpen the AI’s strategy. During the day’s game play, Bridges is used to compute end-game strategies for each hand.

      #938765

      @koira wrote:

      Hyvä blogi!

      Ottelusta tuli sellainen mieleen, että jos ottelu on rajallinen, niin olisiko mahdollista pelata aluksi itselleen epäedullisesti ja “opettaa” botti väärään strategiaan ja lopussa (ehkä 1/5 jäljellä tms) ruveta pelaamaan opetaamaansa strategiaa vastaan mahdollisimman tehokkaasti? Oletuksena siis että botti optimoi itsensä juuri näitä vihuja ja heidän pelikirjaansa vastaan.

      =D

      – koira

      Huono on botti jos noin helposti onnistuisi – mahdollista tietenkin vähän vastaavasti parempaakin bottia vastaan kun käsiä pelataan kuitenkin melko vähän – 4/5 käsistä paskasti ja kaikki+ takaisin 1/5 aikana onnistuu kuitenkin lähinnä jouluna ja unissaan.

      #938770
      kalapaistos
      Participant

      @mongeron wrote:

      Täytyy tähän väliin todeta että odotan aina postauksiasi ja nautin niiden lukemisesta.

      – mongeron

      +1

      #938802
      KunChipitKarkaavat
      Participant

      Nyt AI vs Brain matsista on pelattu jo yli 2/3 käsistä. AI on pitänyt johtoa ja kasvattanutkin. Totaalina noin 80 biniä voitolla vs prot tosin bini tässä matsissa on oikeasti 200bb eli noin 40 deep biniä perässä. Ei periaatteessa mahdotonta, että prot onnistuisivat kutistamaan eron sektorille “ei tilastollisesti merkittävä tulos”, mutta epätodennäköistä

      Sipilän hallituksen säätöä seuratessa on tullut mieleen, että poliitiikoilla olisi hyvä olla AI, kun tuunataan uusia lakeja. Järjestelmälle annetaan syötteenä speksi siitä, miten maailma toimii ja sen jälkeen omat poliittiset reunaehdot ja tavoitteet ja AI sylkee ulos optimoidun lainsäädännön, joka olisi esimerkiksi optimoitu veronkiertoa vs ja ottaa huomioon markkinatalousmekanismit jne

      http://www.theverge.com/2017/1/25/14358246/ai-poker-tournament-cmu-libratus-vs-human-losing

      So far the AI’s main advantage is its ability to remain unpredictable. While the pros appreciate the way Libratus is playing, they don’t believe there are many tricks they can pick up from the system. “There are a lot of things I see Libratus do that I really like. However, they are really only possible because they are mixed and randomized by the reasoning of a computer,” says Les. “Its balanced dispersion of hand ranges into different actions is not really feasible for the human mind to imitate correctly.”

      Libratus has also been over-betting frequently, wagering far more to win a hand than is currently up for grabs in the pot. “If you have $200 in the middle and $20,000 in your stack, you can bet that,” says Doug Polk, a poker pro who bested a previous AI built by CMU in 2015. “But humans don’t really like that. It feels like you’re risking a lot of money to win so little. The computer doesn’t have that psychology. It just looks at the best play.”

      Hardiksesta speksiä

      http://www.gizmodo.com.au/2017/01/why-it-matters-that-human-poker-pros-are-getting-trounced-by-an-ai/

      The Libratus-Bridges collaboration is fuelled by tremendous computing power (Bridges has access to 15 million core hours of computation and 2.5 petabytes of data) and the wondrous, adaptive powers of machine learning. Libratus is obviously going to alter its behaviour over time, learning from its opponents and its own successes and mistakes. At a qualitative level, Libratus won’t be the same AI going into the tournament as it will be going out. It’s also worth pointing out that the human players have been sharing notes and tips with each other, hunting for any weaknesses in the machine’s gameplay.

      #938835
      KunChipitKarkaavat
      Participant

      Nyt se on lähes varmaa

      Kohta on 100k kättä pelattu ja tekoäly on kasvattanut voittoratea tasolta 10-11bb / 100 kättä tasolle 12.5bb / 100 kättä.

      Mitä tämä tarkoittaa? Se tarkoittaa perseraiskausta. Se tarkoittaa sitä, että nettipokeri tulee kuolemaan nopeammin kuin otaksuin. Se tarkoittaa myös pidemmällä aikavälillä muutoksia live-pelaamisen järjestelyihin, jotta tekoälyllä ei voisi fuskata.

      Olen mielenkiinnolla seurannut tätä tapahtumaa, koska minulla on itseasiassa taustaa tekoälyn/koneoppimisen alalta noin 15-20 vuoden takaa. Nettipokerin kuolemisen nopeuden kannalta suuri vaikutus on sillä, minkä verran tuularimediat kiinnostuvat asiasta. Tähän mennessä asiasta eivät ole uutisoineet kuin marginaali, nörtti ja pokerimediat. Suomalaisista edes vähän tuularimaisista lehdistä asian on noteerannut vain Tekniikan maailma. Tämä on vastoin samaisen median uutisointia, kun tietokone voitti ihmisen ensin shakissa ja myöhemmin gossa. Nämä edelliset pelit ovat niin sanottuja täydellisen informaation pelejä kun taas pokerissa on epävarman tiedon käsittelymenetelmät relevantteja ja koneoppimisen kannalta pelipuun evaluoimiseen tulee erilaisia periaatteita kuin täydellisen infformaation peleissä. Tätä ei toki tuularimedian toimittajat voi keskimäärin kovin hyvin ymmärtää, joten heille voi antaa anteeksi. Uskon myös, että on pokeriammattilaisten edun mukaista, jos tämä asia vaiettaisiin kuoliaaksi, jotta lisävuosia nettipokeriin saataisiin muutamia.

      Jos haetaan hyviä puolia tästä niin toistaiseksi Libratuksen tasoinen Doug Polkey & Phil Ivey smoothieta tekevän koneen ei ole toistaiseksi todettu pärjäävän kuin hupissa. Multi way on sinänsä teknisesti samaan tapaan mallinnettavissa Libratuksen käyttämillä algoritmeilla, mutta laskennan aikavaatimus kasvaa. Tosin AIn voi biasoida hakeutuvan aggressiivisesti HU eristyksiin, joissa se pärjää postflop paremmin kuin Doyle Brunson koko kokemuksellaan muutaman syvälaskentaiteraation jälkeen. Kolmas tekijä, joka tulee ottaa huomioon on, että edelleen vaikka ollaankin nyt pelattu vain teksua menetelmä on laajennettavissa kaikkiin pokerivariantteihin, mutta näissäkin kompleksisuus vaihtelee. Neljänneksi nyt käytössä on superlaskentakapasiteetti, joka antaa hieman lisäajan toivoa ennen kuin jokaisessa baaripelissä joku yrittää kusettaa AppStoresta ladattavalla ihmisen biittaavalla geneerisellä pokeribotilla. Tosin joudun heti toteamaan, että teknisen laskennan kasvunnopeuskapasiteetti jatkaa vielä eksponentiaalista kasvuaan, joten tästäkään ei ole kovin pitkäaikaista suojaa. Tämän lisäksi koneoppimistutkijat miettivät myös algoritmista kompleksisuutta ja ovat valitettavan hyviä keksimään approksimointialgoritmeja, jotka toimivat kertaluokkia nopeammin kuin ideaalilaskenta.

      Mitä tilalle? Pitäisi alkaa pohtimaan erittäin monimutkaisia takaisinkytkentäpokerivariantteja, jotta saataisiin yhtään merkittävää lisäsuojaikaa tekoälyä vastaan sikäli mikäli halutaan pelata rahasta. Tällaisen omituisen kvanttipokerin haaste tulisi olemaan se, että se olisi myös ihmisaivoille erittäin vaikea ja sen jälkeen ei todellakaan puhuttaisi yksinkertaisten ihmisten yksinkertaisesta pelistä vaan regu edgen hakemiselle olisi vaatimuksena kaunis mieli tyyppinen renesanssinero.

      Edit: Piti oikein alkaa miettimään ja hahmottelemaan AI turvallista pokeria, jota tuossa lopussa epäselvästi selitin. Ensimmäinen vaihtoehto olisi N-pokeripakan satunnainen N-paikkainen propositiologiikkalausepokeri. Teen yksinkertaisen esimerkin kautta selvennyksen tapaukselle N=2 jolloin lauseessa on vain yksi propositiologiikkaoperaattori. Olkoon se vaikka XOR. Pakka ykkösellä pelataan NL holdemia ja pakka kakkosella NL holdemia ja oletetaan HU. Pelaajat ovat A ja B. Propositiolause peliin on P1 XOR P2. Nyt Propositio Pi saa arvon nolla vain jos pelaaja A voittaa pakalla i pelattavan jaon ja muuten arvon yksi. Pelaaja A voittaa molemmissa alipeleissä betsatut rahat, jos pelin kokonaislauseen totuusarvo on 1 ja muuten B voittaa. An pitää siis pyrkiä häviämään toisessa ja voittamaan toisessa voittaakseen molemmat. Bn taas pitää hävitä tai voittaa molemmat ollakseen voitokas. Nyt on huomattava, että mahdollisen epäsymmetrian johdosta on pelattava molemmin päin jaot, jotta ei synny biasta. Yleisessä tapauksessa generoidaan propositiolause satunnaisesti Nlle pakalle ja samaan tapaam koko lauseen totuusarvo määrittää voittajan. Tämä ei tosin olisi kvanttitietokoneturvallinen ja myös ihmiselle aivan tavattoman vaikea. Tätä voitaisiin vaikeuttaa edelleen generoimalla satunnaisia predikaattilogiikkalauseita, joissa olisi esimerkiksi eksistentiaalikvanttoreita. Tämä olisi ihmiselle jo lähes käytännön mahdoton, mutta hupipelaajat pääsisivät oikeasti flippaamaan ketä tahansa vastaan, koska edgeä ei ole vaikeuden takia

      Edit II:

      Redditissä avattu Q&A pelaajille. Mm nyt ihmiset kokeilevat out of the boxia esim avaavat buttonilta 6bb avauksia. Kuulemma ainoa selitys ei ole volan maksimointi ja munkituksella tasoittaminen vaan strateginen botin sekoittaminen

      https://www.reddit.com/r/IAmA/comments/5qi3i9/we_are_professional_poker_players_currently/

      Edit III:

      How excited are you guys to go crush some regular human opponents after trying to grind it out against Skynet? More seriously: how has your strategy improved from facing an opponent like Libratus? Are you gonna start overbetting more frequently you think?

      Jason: Once you face Libratus, there’s nothing worse any human could ever do to you. Every human is going to seem like a walk in the park.

      Jason + Dong: We are definitely going to start overbetting more frequently. It takes a lot of studying to figure out the right way to do it though. The moment you’re somewhat imbalanced there (bluffing too much, or bluffing too little) then you’re making a huge mistake.

      Edit IV: tutkijoilta kommentti koskien metodologiaa

      Libratus bot uses a custom variant of Monte Carlo Counterfactual Regret Minimization, with a form of Regret-Based Pruning mixed in.

      Edit V:

      Do you think the bot has come in with a preloaded close to GTO strategy, or do you think it’s adjusted it’s play as the game’s progressed?

      Dong: I believe it’s the latter. I don’t think it’s a perfect GTO strategy. I think it’s trying to accomplish a strategy that’s closest to optimal versus us in particular. There are a lot of things that have been happening… For example, Libratus never used to value bet for 3 streets (bet, bet, bet) in any action. But now I see that more often, and it’s because we’ve all been calling down on the wider side. It’s just a hunch… only the creators know.

      Noam: We’ll tell them all the details after the competition.

      #938879
      KunChipitKarkaavat
      Participant

      Counterfactual regret minimization (CFRM)

      Olen tässä viikonlopun ratoksi selvitellyt harrastuneisuuttani, että mitäs helvettiä nämä Sandholmin joukot ovat todennäköisesti tehneet. Hieman työlästä, kun en ole ollut akatemiassa yli 15 vuoteen ja näiden juttujen eräitä algoritmisia perusteita on keksitty 2005-2007.

      Tämän hetkinen arvaukseni on, että he approksimoivat Nashia, mutta samaan aikaan mittaavat vihulle regret mittaa siitä suunnasta, kuinka paljon vihu poikkeaa stokastisesti arvioidusta eksploimattomuuden strategiasta. Otsikon mukaisella menetelmällä ilmeisesti voidaan eräissä tapauksissa arvioida stokastisesti simuloimalla Nashia. Viime vuosien tutkimusartikkelit ovat hieman raskaita, jos ei ole seurannut kehitystä. Yksi väikkäri aiheesta, jossa review osuus, joka auttaa hahmottamaan nykytilaa tässä

      http://poker.cs.ualberta.ca/publications/gibson.phd.pdf

      Tämän lisäksi löysin erään alkuperäiskirjoittajan hyvän selvennyksen aiheesta, jonka jopa voi ymmärtää, jos on jotain taustaa tietojenkäsittelystä tai peliteorian konsepteista. Tässä se tulee (löytyy quorasta)

      CFR is a self-play algorithm: it learns to play a game by repeatedly playing against itself. The program starts off with a strategy that is uniformly random, where it will play every action at every decision point with an equal probability. It then simulates playing games against itself. After every game, it revisits its decisions, and finds ways to improve its strategy. It repeats this process for billions of games, improving its strategy each time. As it plays, it gets closer and closer towards an optimal strategy for the game: a strategy that can do no worse than tie against any opponent.

      The way it improves over time is by summing the total amount of regret it has for each action at each decision point, where regret means: how much better would I have done over all the games so far if I had just always played this one action at this decision, instead of choosing whatever mixture over actions that my strategy said I should use? Positive regret means that we would have done better if we had taken that action more often. Negative regret means that we would have done better by not taking that action at all. After each game that the program plays against itself, it computes and adds in the new regret values for all of its decisions it just made. It then recomputes its strategy so that it takes actions with probabilities proportional to their positive regret. If an action would have been good in the past, then it will choose it more often in the future.

      It repeats this process for billions of games. So you have this long sequence of strategies that it was using on each game. Counter-intuitively, that sequence of strategies does not necessarily converge to anything useful (although it sometimes does so in practice, now, with the new CFR+ algorithm we describe in the Science paper). However, in a two-player zero-sum game, if you compute the average strategy over those billions of strategies in the sequence, then that average strategy will converge towards a Nash equilibrium for the game. After it’s finished learning how to play by playing against itself, it doesn’t have to change any further: it just uses that average strategy against any human or computer opponent it faces.

      A Nash equilibrium is a set of strategies, one for each player in the game. If the game is two-player and zero-sum, and if the players alternate positions to even out the advantage of playing in each position (as in poker games), then a Nash equilibrium has a useful theoretical property: it can do no worse than tie, on expectation, against any other opponent strategy. In a game such as poker, that “on expectation” is important: due to the luck in the game from the cards being randomly dealt, there is no guarantee that a Nash equilibrium (or any strategy!) will win every single hand. However, if you average over a large set of hands, or compute the expectation exactly, then it cannot to any worse than tie against anyone.

      If the opponent also plays a Nash equilibrium strategy then they will tie; if the opponent carefully considers the Nash equilibrium strategy and computes a perfect counter-strategy then they will also tie. If the opponent makes mistakes, however, then they can lose value, allowing the Nash equilibrium strategy to win. In other words, a Nash equilibrium just plays perfect defence: it doesn’t try to learn about or exploit the opponent’s flaws, and instead just wins when the opponent makes mistakes. This is on purpose, since attempting to find and exploit an opponent’s mistakes usually makes it possible for an even smarter opponent to exploit your new strategy. There’s a tradeoff between playing defence and offence.

      Since a Nash equilibrium is an unbeatable strategy for this type of game, it is considered to be an optimal strategy, and “solving” a game is equivalent to computing a Nash equilibrium. In this sense, “solve” is a technical term, meant in exactly the same sense that one might “solve for X” in a mathematical equation.

      As I mentioned earlier, with CFR, the average strategy that it is computing converges towards a Nash equilibrium. A strategy’s “exploitability” is the maximum amount that a perfect counter-strategy could win on expectation against a strategy. A Nash equilibrium has an exploitability of zero, since it cannot be beaten by anyone on expectation, and having a lower exploitability is good. When you run CFR, the average strategy’s exploitability converges towards zero, driving its worst-case loss lower and lower. Note that this is a pessimistic way to measure how good your strategy is: our best poker programs started beating the world’s best human players in heads-up limit hold’em in 2008, even though our programs at that time were still massively exploitable by this worst-case measure.

      In our January 2015 Science paper, we’ve announced that we’ve produced a strategy that has essentially weakly solved the game. That means that we have computed a strategy with such a low exploitability (0.000986 big blinds per game) that it would take more than a human lifetime of play, using the perfect counter-strategy, for anyone to have 95% statistical confidence that they were actually winning against it. So it’s not an exactly perfect strategy, but it is so close to perfect that the game is essentially solved, as it’s now outside of any human’s ability to beat it for a statistically meaningful amount by playing games against it.

      #938880
      handiquack
      Participant

      Kiitos superhyvästä sisällöstä (erityisesti viimeiset kaksi postausta huikeita) ja muutenkin laatublogista!

      #938886
      KunChipitKarkaavat
      Participant
      #938908
      KunChipitKarkaavat
      Participant

      Noin 5k kättä jäljellä ja ihmispelaajien dollarimääräinen tappio kasvaa konsistentisti noin 10-12bb / 100 kättä funktiona

      https://www.pokertube.com/poker-news/poker-gossip-opinion/libratus-ai-crushes-pros-for-1-5-million

      #938923
      KunChipitKarkaavat
      Participant

      Epilogi ihmiskunnalle

      Ihmisten lopullinen monttu oli sitten 1.7 miljoonaa taalaa 50/100 blindeilla 120k kädessä. Näin ollen montutusnopeudeksi tuli vähän yli 14 blindia sataa kättä kohti. Tämä on niin paljon, että ei jäänyt lapsenlapsille jossiteltavaa tällä kertaa. Todennäköisyys, että ihmiset vain runnasivat paskasti ja ovat oikeasti parempia on luokkaa kahden täsmäkortin ohiveto. Kyllähän näitä täsmätäsmä ohivetojakin toisaalta tapahtuu, mutta ei kyllä se oli tässä

      7 päivää tyyppiset lehdet eivät ole vielä uutisoineet, mutta tässä poimintoja muista

      http://www.pokerlistings.com/libratus-poker-ai-smokes-humans-for-1-76m-is-this-the-end-42839

      https://www.bloomberg.com/news/articles/2017-01-31/inside-the-20-year-quest-to-build-computers-that-play-poker

      http://www.theverge.com/2017/1/31/14451616/ai-libratus-beat-humans-poker-cmu-tournament

      https://www.engadget.com/2017/01/31/libratus-the-poker-playing-ai-destroyed-its-four-human-rivals/

      https://www.wired.com/2017/01/mystery-ai-just-crushed-best-human-players-poker/

      Yo julkaisut ovat vielä nörtti/koulutetun skenen sivuja, mutta mediat tyyliin iltis, hesari, fox news ja cnn seurannevat jossain muodossa kohta perässä.

      Vielä ei tarvitse pistää pystyyn RIP “Nettipokeri” kiveä, mutta ei se kaukana ole ajallisesti. Jos pitäisi arvata 2-4 vuoden päästä nettipokeri on totaalisesti AI-bottien battlefield, jossa satunnainen ihminen syödään elävältä.

      Libratuksen algoritmia ajettiin miljoonien dollarien supertietokoneessa. Valitettavasti Mooren lain mukaan ei mene pitkään, että kyseinen laskentateho on läppäreissä ja siitä menee hetki, niin se on kännyköissä – tai jopa vähän pidemmän ajan päästä ihmiseen istutettavassa sirussa (jolloin sivumennen sanoen saattaa kuolla live-pokeri) – esimerkiksi tietokoneen näyttö/käyttöliittymä voidaan heijastaa silmän sisältä verkkokalvolle terminator hengessä. Toisaalta nettipokerin top 1%-3% fieldin biittamiseen ei edes tarvita Libratusta vaan sen approksimaatio riittää – ei ole pakko biitata heti top 20 pelaajia kuten tässä tehtiin. Noam Brown, joka on pääkoodaaja Libratukselle todennäköisesti osaisi koodata middle stakes nettipokerin kaikissa varianteissa pärjäävän AI neuvonantajan (ottamatta kantaa siihen, onko hän tai muut CMUn / MITn kasvatit jo näin tehneet). Noamilla on ainakin ulkoisesti totuudenpalvojan eli tutkijan vaatetus, jonka eikä silmissä siinnä suoraan maallinen hyvä netissä olevien gif-kuvien tasolla 🙂

      Lopetan tämän keissin seuraamisraportoinnin ja kommentoinnin tähän.

      Loppuun vielä Tuomas Sandholmin luento muutaman vuoden takaa, jossa periaattellisella tasolla käydään läpi niitä asioita, jotka mahdollistavat sen, että tietokone voittaa ihmisen epätäydellisen tiedon kilpailutilanteissa. Huomattavaa tässä, että voidaan hyräillä sentään mielessä Porilaisten marssia, koska Tuomas Sandholm on kuten nimi paljastanee natiivisuomalainen, joka on johtanut CMUssa yli vuosikymmenen labraa, jossa on tutkittu epätäydellisen informaation pelien tekoälyä

      #938924
      hauturi
      Participant
    Viewing 15 posts - 316 through 330 (of 442 total)
    • You must be logged in to reply to this topic.