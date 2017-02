Računalnik premagal človeka v pokru. So spletnemu pokru počasi leta šteta?

13. februar 2017 ob 06:35

Ljubljana - MMC RTV SLO

Umetna inteligenca je premagala štiri vrhunske igralce pokra. Zmagala je sicer v enostavnejši inačici te igre, a zavojevanje ostalih je le le vprašanje časa. Vprašanje je tudi, kaj se bo zgodilo s spletnim pokrom, če bodo tam ljudje izgubljali proti računalnikom.

Računalniki so kot obdelovalci informacij potrebovali dolgo časa, da so v igrah začeli konkurirati ljudem. Enostavne, denimo križce in krožce, so resda zlomili že v drugi polovici prejšnjega stoletja, a do kompleksnejših, kot je šah, so bila potrebna dolga desetletja. Pa tudi po šahu je bil premor kar dolg.

Le v zadnjih nekaj letih pa smo priča pravemu plazu, mali revoluciji. V računalništvo so uspešno prišle simulacije nevronskih omrežij, torej računalniki, ki strojno ali programsko poskušajo posnemati vzorec delovanja možganov. Izgleda, da so inženirji s tem zadeli v polno, saj so začele ena za drugo padati še najtežje miselne igre. Tiste, ki so veljale za trdnjavo človeštva.

Ko je lani Googlov AlphaGo premagal prvaka Leeja Sedola v izjemno kompleksni igri GO, zmaga ni bila velika le zato, ker je niso pričakovali. Dosežek je bil poseben, ker se je računalnik igre priučil sam.

Strategije na nepopolnih informacijah

Zdaj je padel še poker (v enostavnejši različici). Tudi v tem primeru je računalnik samouk. Pomembno je dejstvo, da se je izvežbal v igri, kjer so informacije nepopolne. Pri šahu ali goju igralci vidijo celotno igralno polje in figure, pri pokru pa je skritost kart bistvena. V takšnem okolju ni dovolj podatkov, da bi zanesljivo naračunali najboljšo odločitev.

Ljudje se v svojih življenjih s tem redno srečujemo in enkrat bolje, drugič slabše rešujemo s pomočjo intuicije. Očitno nepopolnost za digitalno pamet ni več prepreka. Uči se tako hitro in neutrudno, da prej ali slej dospe do opcij, ki so kljub pomankljivi informacijski podlagi najprimernejše.



Zmagovalni Libratus

Program Libratus ameriške univerze Carnegie Mellon je v okviru turnirja BrainsVsAI 20 dni igral proti štirim visokorangiranim igralcem pokra Heads-Up No-Limit Texas Hold'em in jih vse premagal. Zelo prepričljivo, je za MMC komentiral Luka "LukaSteel" Kovač, poker profesionalec, znan tudi po članstvu v sloviti ekipi PokerStars Online Pro. Libratus je namreč dobil 14 t. i. big blindov na 100 iger, kar je izjemen rezultat.

Z Libratusom so se pomerili Dong Kim, Jason Les, Jimmy Chou in Daniel McAulay. En izmed njih je top 5 igralec te vrste pokra, ostali so nekje top 20, tako da bi nedvomno lahko dobili tudi tri še boljše tekmovalce. Toda Kovač je prepričan, da bi zmagovalec ostal nespremenjen tudi s smetano smetane.

Libratus je imel na koncu za 1,7 milijona dolarjev več žetonov. Prednost pa ni bila posledica sreče, temveč znanja, so sporočili s Carnegie Mellon. Faktor naključja so premagovali z več orodji, denimo z velikostjo vzorca: opravili so kar 120.000 iger.

Manjši hendikep za možgane

Kovač je poudaril, da so organizatorji dogodka šli računalniku nekoliko na roko. Morda zato, da bi računalnik nekoliko uravnotežili z nasprotnimi možgani, saj je do zdaj vedno izgubljal. Na zadnjem takšnem tekmovanju leta 2015 je program Claudico, prav tako ustvarjen na univerzi Carnegie Mellon in svetovni prvak med programi, izgubil. Tudi letošnji Libratus je imel precej težav. Včasih je za posamezno potezo mlel tudi minuto ali dve, kar je zelo počasi, je poudaril sogovornik. Pri spletnem pokru so igralci navadno omejeni na deset do petnajst sekund. Nadalje se je po vsaki odigrani roki stanje žetonov vrnilo na začetek, kar je zmanjšalo kompleksnost. V "pravi" igri se stanje ne resetira.

Predvsem pa je Libratusu na roko šla neutrudnost. Računalniku se sposobnosti skozi ure in dneve niso krnile, igralcem pač. Kot so poudarili v videoposnetku po dogodku, človek lahko deluje pri polni, najboljši zmogljivosti le omejeno število ur na dan. Pa če ugotovi, da mu ne gre in da je padel v psihološki začaran krog, lahko vedno vzame odmor ali pa preneha in bitke nadaljuje drugi dan. Tukaj ni bilo premorov. 11 ur na dan so nenehno igrali, kar je nedvomno vplivalo na ostrino misli.

"Če igraš proti človeku in izgubiš, se lahko ustaviš. Lahko si vzameš odmor. Tukaj pa smo se morali vsak dan znova prikazati in 11 ur kasirati udarec za udarcem. Z vidika čustev je to precej drugačna izkušnja, še posebej, če nisi ravno vajen pogosto izgubljati," je v videu povedal Jason Les. A v isti sapi je poudaril, da utrujenost na koncu ni bila ključna - ni pomenila razlike med zmago in porazom.

Manj kompleksna inačica pokra

"Olajševalna okoliščina", če ji lahko tako rečemo, je bila tudi izbira inačice pokra. Vprašanje je, kako bi se Libratus izkazal v kakšnem drugem Texas Hold'em tipu, kjer je lahko pri mizi tudi devet igralcev. Heads-Up No-Limit se igra ena na ena, kar zelo zmanjša količino možnih kombinacij. "Če dodaš samo še enega, je to že igra treh, kar sicer ne ravno potencira števila dogodkov, ga pa zelo poveča," je pojasnil LukaSteel. Z vsakim dodatnim igralcem ali faktorjem bi kompleksnost hitro zrasla do točke, ki bi jo Libratus le stežka premlel. "Če bi imeli igro devetih igralcev, bi lahko vse bilo popolnoma drugače. In če bi dodajali še druge parametre, kot je denimo različno stanje žetonov, denarne nagrade glede na pozicijo, pa nagrade za izločenega igralca itd. bi se drevo odločanja tako zelo razvejilo, da niti superračunalniki tega ne bi mogli več obdelati," je ponazoril.

Kar pa ne pomeni, da druge različice pokra ne bodo padle. Dovolj "neosvojljivih trdnjav" človeštva smo že videli pasti. Le vprašanje let je, kdaj bodo padla še preostale. "Poker je pač igra matematike in računalniki so boljši v računanju," je povedal Kovač.

Če smo natančni, je računalnik eno drugo inačico pokra že zavojeval. Na Univerzi v Alberti so ustvarili bota Cepheusa, ki je naumil skoraj popoln način igranja Heads-Up Limit Texas Hold'em, dosežek pa objavili v reviji Science. Kdor želi, se lahko s Cepheusom pomeri tukaj.

Videti vzorce v nepreglednem morju

Libratusu ni bilo treba ustvariti popolne igre, torej situacije, v katerem je nepremagljiv oziroma kjer lahko nasprotnik doseže največ neodločeno (remi). Človek je namreč v vsakem primeru slabši. Le skozi analizo zares velikih številk oziroma ogromnih baz podatkov se je moral dokopati do vzorcev, ki zagotavljajo čim višjo verjetnost zmage. Vzorcev, ki jih človek s svojimi omejitvami ne more. Tudi Googlov AlphaGo je podobno storil za igro go.

Oba sta se do nepremagljivih veščin prebila z učenjem. Libratusa programerji niso preprogramirali, kaj mora storiti v določenih situacijah. Le seznanili so ga z osnovnimi pravili in ga pustili, da je skozi tisoče milijard iger, ki jih odigral sam proti sebi, ugotovil, katere strategije so najprimernejše. Libratus je samouk, ki mu ni para med možgani - in mu nikoli več ne bo.

Za svet pokra je pomembno dejstvo, da Libratus pred soočenjem ni imel dostopa do predhodnih iger svojih nasprotnikov. Tako ni mogel vnaprej vedeti, kako so ravnali v določenih situacijah. Njihove igralne osebnosti je spoznaval zgolj skozi igro, tako, kot je četvorka spoznavala njega. Prvo polovico soočenja, torej do 60.000 odigranih partijah, je bila človeška stran še vedno v rahli prednosti, a zatem so začeli vse huje izgubljati. Obe strani sta druga drugo opazovali, analizirali in se prilagajalali. Očitno je Libratus to počel precej učinkoviteje.

Očitno se je Libratus naučil učinkovito blefirati, torej pretvarjati se, da ima precej boljše karte. "Tale bot ne samo blefira. Jebeno blefira. Gangster do poda," je komentiral Jimmy Chou.

Odpravljanje lastnih šibkosti

Na Carnegie Mellon so poudarili, da Libratusa niso zastavili tako, da bi iskal šibkosti pri nasprotnikih; nanje se ni osredinjal. Vsak večer po končanih soočenjih je analiziral lastne šibke točke, iskal napake v svojem ravnanju in jih odpravljal. Naslednji dan se je vrnil močnejši. Tako so mu igralci spočetka še lahko nastavljali pasti in bili pri tem dokaj uspešni, a po polovici iger jim je streliva očitno začelo zmanjkovati. Vse bolj so se soočali s trdnim računskim zidom.

Tudi rešitve, s katerimi je Libratus prihajal na dan, so marsikaterega strokovnjaka pripravile do praskanja po glavi. "Vprašanje je, če smo skozi vsa ta leta preučevanja pokra sploh prišli do pravih taktik. Ko sem spremljal te dvoboje, je Libratus vlekel neke ... ne bom rekel čudne poteze, ampak silno nenavadne, zanimive, kakršnih nismo vajeni. Marsikdo se zdaj sprašuje, če je strategija, ki trenutno velja za najboljšo, sploh pravilna. Če nas je računalnik tako premagal, očitno ni," je komentiral slovenski pokeraš.

Srednje zmogljiv superračunalnik

Poudariti je treba, da je Libratus program - in ne računalnik. Deloval je na superračunalniku Bridges, izdelanem na Pittsburgh Supercomputing Center. Bridges je 7.250-krat hitrejši od dobrega, sodobnega prenosnika; in se ponaša z 274 terabajti pomnilka, kar je primerljivo z nekje 17.500 prenosniki. Obenem ta superračunalnik ni ravno najzmogljivejši na svetu, do smetane bi moral svojo računsko moč tudi postoteriti. Prej omenjeni AlphaGo je denimo deloval na Googlovih nepredstavljivih strežniških farmah.

To pomeni dvoje.

Prvič, Bridges ni niti približno najbolj zmogljiv računalnik in potencial programov, kakršen je Libratus, sploh še ni do konca izkoriščen.

Kdo bo še igral, če je računalnik boljši

Drugič, ni za pričakovati, da se bodo na spletu zdaj pojavila poplava Libratusovih klonov in od človeških igralcev pobirala denar. Bridges denimo stane približbo 10 milijonov dolarjev in tudi največje kriminalne združbe ne bodo šle postavljati svojih. Spletni poker za zdaj ostaja kraj, kjer lahko igralci v dobri veri testirajo svoje sposobnosti in brusijo znanje, je poudaril Kovač. "Ne pričakujem nekih pretresljivih dogodkov, večina ne ravno dela panike," je izjavil.

Kar pa spet ne pomeni, da doba vse zmogljivejših botov, torej računalniških programov, ki sami igrajo spletni poker, ne prihaja. "Boti že ta trenutek obstajajo, ne zatiskajmo si oči," je povedal. Večinoma delujejo na običajnih osebnih računalnikih in niso ravno napredni, posledično tudi ne posebej zmogljivi. Največ se jih najde v igrah z zelo nizkimi stavami, na t. i. mikrolimitih, kjer zaslužijo kvečjemu nekaj dolarjev na dan. Poleg tega se ponudniki spletnega pokra borijo proti njim in jih odstranjujejo. Tudi ob pomoči skupnosti igralcev, ki nelojalno konkurenco redno prijavlja - če jih kot take pravilno prepozna. Kovač, tudi administrator ene takšne slovenske skupnosti (PokerPro), priporoča uporabo bolje obiskanih, višje rangiranih ponudnikov, saj so tam načeloma v boju proti botom najbolj uspešni.

Ko bo bot premagal povprečnega igralca

Toda motivacija je denar, tega se v pokru obrača veliko in ni dvoma, da bodo avtorji botov posegali po vse boljši strojni opremi in programju. Tudi uporaba samoučečih je vprašanje časa. "Še največji problem bo, ko bodo ti boti premagali povprečneže. Mene botov ni strah, ampak za prihodnost to ni dobro. Nekateri iščejo celo načine, kako jih uvesti v živi poker, denimo s projekcijami na očala ozaljšane resničnosti," je izjavil.

Napovedal je, da bodo vse ostale, tudi najzahtevnejše inačice pokra pod pritiskom umetne inteligence "padle" nekje v roku desetih let. A poudaril: ta trenutek in še nekaj let v svetu spletnega pokra ni pričakovati posebnih težav zaradi botov.

Ostala področja

Za človeštvo je še pomembnejše vprašanje, kdaj bo UI od možganov učinkovitejši pri reševanju ostalih problemov. Poslovne odločitve, zdravstvene diagnoze, iskanje zdravil ... vse to in še več so področja, kjer bo samučeča umetna pamet nekoč verjetno presegla skupke nevronov. Nedvomno bo to pripeljalo do velikih sprememb v družbi; kakšnih, si lahko danes poskušajo predstavljati futurologi, dejansko stanje bo razkrila le prihodnost. Za zdaj izkušnja iz šaha kaže, da človeška pamet kljub vsemu ne bo redundantna. Na turnirjih, ki jih je vpeljal znani šahist Gari Kasparov, je kombinacija človeka in umetne pameti praviloma premagala drugo stran, ki jo je predstavljal zgolj računalnik ali zgolj človek. Iz tega je mogoče sklepati, da bo UI v prihodnosti prinesel neslutene koristi državam, podjetjem ali posameznikom, ki jo bodo uporabljala; in daleč zadaj bodo ostali tisti, ki si je bodo odpovedali. Povedano drugače: kdor ne bo vstopil na vlak umetne inteligence, bo v večnem, vse večjem zaostanku.

Poker v Sloveniji

Kovač je za konec opozoril na težave, ki jih pokru v Sloveniji povzroča zakonodaja. "V Sloveniji je status pokra na najnižji možni točki." Zaradi priprave nove zakonodaje na področju iger na srečo so se nekatere največje tuje strani julija lani povsem umaknile iz države. Tako se spletnega pokra ne da igrati na nekaj najpomembnejših platformah. V Sloveniji zdaj na poteze vladajočih čakajo že več kot pol leta v "zamrznjenem" stanju, medtem ko so na Češkem težave razrešili v roku enega meseca, je bil kritičen Kovač. "Marsikateri pokeraš v Sloveniji je zdaj na prisilnem dopustu," je povedal CoreySteel. Tudi on. Kljub temu, da se je uspel uvrstiti v elitno ekipo PokerStars Pro, od "famoznega 4. julija" ni več.

Aljoša Masten