Come fa un computer a bluffare a poker (e vincere 1,7 milioni)
Qual è la tecnologia che anima Libratus: come ha fatto a vincere e perché gli uomini sono ancora meglio

Libratus ha vinto una 'estenuante' (non per lui) gara di poker, durata 20 giorni, a no-limit Texas Hold'em contro quattro dei più forti giocatori del mondo. Se ormai la capacità dei sistemi di intelligenza artificiale (AI) di superare contendenti umani è un dato assodato (tra i più recenti successi c'è la famosa vittoria di AlphaGo, sviluppato da Google DeepMind, contro il campione mondiale di GO), finora era limitata a giochi in cui tutte le informazioni necessarie per compiere una scelta sono sempre presenti al giocatore.
Negli altri giochi il computer si limita al calcolo, a Poker no
Nella dama, così come negli scacchi e in GO, 'i pezzi' sono tutti presenti sul tavolo e il compito, seppur arduo, si 'limita' al calcolo di tutte le possibili alternative dell'avversario e alle relative contromosse. Nel poker invece le informazioni che un giocatore possiede sono solo parziali: conosce infatti solo la propria mano e, come nel caso del Texas Hold'em, le carte in comune con gli altri giocatori presenti sul tavolo, ma nulla sa della mano dei propri avversari.
Scegliere una strategia di gioco richiede quindi un complesso calcolo che deve necessariamente tenere conto anche delle parziali informazioni date dalle puntate degli altri giocatori (non sempre corrispondenti al reale 'valore' delle loro mani) e di una valutazione dello 'storico' della partita, da cui dedurre lo stile di gioco degli avversari.
Un precedente tentativo (con il sistema di AI chiamato Claudico) aveva ottenuto discreti risultati, ma solo con Libratus (“bilanciato”, in latino), sviluppato dagli scienziati del Carnagie Mellon, l'AI è riuscita a battere l'uomo in modo netto.
La tecnologia che c'è dietro Libratus
Libratus si basa su una versione modificata di potenti algoritmi di “counterfactual regrets minimization” (CGR), che permettono di valutare le possibili mosse alternative ad ogni momento del gioco, calcolarne i risultati attesi, e prendere una decisione il cui esito sarà poi a sua volta valutato (positivamente o negativamente) e comparato con il piano strategico attuato fino a quel momento dal sistema. La potenza di questi algoritmi sta:
- da un lato, nel poter valutare contemporaneamente diverse strategie (come avveniva per i sistemi di AI classica impiegati al gioco degli scacchi);
- dall'altro, nel poter imparare non solo dai propri errori, ma delle mosse positive non fatte: quello che tali algoritmi cercano di fare è infatti minimizzare il numero dei 'rimpianti' (i 'regrets', appunto).
Anche per i super computer attuali, però, il numero di possibili giocate alternative nei diversi stadi del Texas Hold'em è estremamente alto (10^160, probabilmente più del numero di atomi nell'universo) e valutare tutte le diverse giocate renderebbe impossibile una normale partita. Per questo il nuovo algoritmo CGR sviluppato per Libratus non si limita a ragionare su una versione 'limitata' del gioco come avveniva per i precedenti algoritmi (che per questo risultavano, a loro volta, non ottimali), ma elimina attivamente durante il gioco alcuni 'rami' della ricerca così da concentrarsi su quelli più pertinenti (e promettenti) per la partita in corso.
La grande novità è che Libratus sa adattarsi alle strategie degli avversari
Fin qui potrebbe sembrare che questi nuovi sistemi siano semplicemente una versione più sofisticata degli algoritmi di AI classica, capaci di una grande potenza di calcolo ma, potenzialmente, prevedibili. Quello che invece stupisce è il fatto che un sistema come Libratus (in questo simile anche a sistemi come AlphaGo) sia in grado di adattarsi continuamente alle strategie dei propri avversari, da un lato prevedendole e dall'altro modificando la propria se gli altri giocatori sono riusciti ad individuarla. Non solo: Libratus, sorprendendo i suoi stessi creatori, ha imparato a bluffare.
Proprio questa caratteristica ha riscontrato grande interesse da parte dei non addetti ai lavori, ma benché molto interessante, merita di essere 'ridimensionata'.
Cosa intendiamo quando diciamo che "un computer bluffa"
Per bluffare si intende, nel poker, il cercare di ingannare l'avversario convincendolo di avere una mano diversa da quella realmente posseduta, attraverso puntate e rilanci che sarebbero inadeguati (più alti o più bassi) rispetto al reale valore della propria mano. Il bluff è, quindi, un inganno, ed in questo senso lo pensiamo come una caratteristica tutta umana che necessità di particolari capacità, emotive da un lato e di “mind reading” dall'altro. Per questo, l'idea di un sistema di AI che, autonomamente, impara a bluffare potrebbe far pensare che la macchina abbia sviluppato delle proprietà che vadano ben oltre le sue enormi capacità di calcolo.
In verità dal punto di vista di Libratus (ma in teoria così dovrebbe essere anche dal punto di vista umano) il bluffare, o meglio il fare puntate “strane” rispetto alle proprie carte, risulta essere solo un'altra possibile strategia, un'altra possibile mossa da poter usare in un gioco dove i partecipanti non possiedono tutte le informazioni necessarie per valutare completamente lo stato della mano attuale.
Il Texas Hold'em è un gioco basato essenzialmente sulle probabilità di combinazione tra le proprie carte, quelle attualmente presenti sul tavolo, e quelle che potrebbero uscire dal mazzo. Calcolare queste probabilità non è semplice ma i migliori giocatori di poker riescono a farlo rapidamente e con una grande precisione: non è quindi sorprendente che un computer con una impressionante capacità di calcolo riesca a farlo. Il bluffare è una componente aggiuntiva che, in determinate situazioni, è in grado di far “sballare” il conteggio di quelle probabilità. E Libratus ha imparato ad attuarla così come ha imparato altre strategie di gioco.
Libratus apprende continuamente. E alla sera studia
Per farlo, oltre alle regole del Texas Hold'em, il sistema di AI è stato sottoposto a giocare (letteralmente) trilioni di partite: inizialmente Libratus giocava a caso, ma piano piano ha imparato dai propri errori e dalle proprie vittorie e si è costruito una strategia vincente di gioco. O meglio, ha imparato ad adattarsi a diversi momenti del gioco, utilizzando differenti strategie a seconda della situazione attuale e del comportamento del proprio avversario.
In particolare, la grande potenza di Libratus sta nella capacità di apprendere continuamente nuove strategie durante le partite. E nel mettersi a studiare. A fine giornata, mentre i suoi avversari umani dovevano sottostare alle proprie necessità fisiologiche (cenare, dormire, etc.), Libratus veniva collegato a Bridges, il supercomputer situato nella sede di Pittsburg, e studiava la giornata appena passata (rigiocando le partite, valutando ogni possibile mossa alternativa, etc.) per migliorare la strategia da attuare il giorno successivo.
Ma le macchine rispetto all'uomo hanno ancora troppi difetti
Tutto questo ha portato ad una nuova vittoria delle macchine sull'uomo. Ma, ancora una volta, la motivazione sembra essere strettamente collegata agli enormi sviluppi degli ultimi anni nella potenza di calcolo. Certo, gli algoritmi di AI sono estremamente più sofisticati, in grado di fare elaborate previsioni e, soprattutto, di apprendere ed adattarsi dinamicamente agli eventi. Però, per ottenere questi risultati sorprendenti, le macchine hanno ancora bisogno di lunghi periodi di apprendimento. Non solo nella quantità del tempo impiegato (Libratus ha sviluppato le proprie abilità in un totale di 15 milioni di “ore-processore”), ma anche nella quantità di esempi utilizzati per imparare. Esempi che aumentano esponenzialmente considerando la capacità dei sistemi di apprendere anche attraverso tutte le possibili alternative, anche se non avvenute realmente.
La forza (ineguagliabile) della mente umana è la capacità di astrazione
Quello che ancora distingue gli esseri umani dalle macchine è l'enorme potenza di astrazione e categorizzazione, anche sulla base di pochissimi esempi. Toumas Sandholm, uno degli ideatori di Libratus, parlando della sfida tra professionisti del poker e il precendente sistema di AI, Claudicus, ha detto di essere rimasto impressionato dalla capacità di adattamento dei giocatori umani, in grado di “imparare molto rapidamente da un limitato numero di mani”.
Proprio questa caratteristica è quello che rende gli uomini estremamente versatili ed adattivi: se Libratus è in grado di giocare perfettamente a Texas Hold'em e di sfruttare queste sue doti anche per alcune altri impieghi (si parla già di negoziazione, scelte strategiche, etc.) i suoi sfidanti umani, seppur sconfitti, riescono a compiere ogni altra sorta di attività, fisica ed intellettiva. Tutto questo grazie sia alle potenzialità del cervello biologico che a quasi 3 milioni di anni di evoluzione. Certo, se il gap uomo-macchina fosse solo quello “temporale”, l'incredibile sviluppo tecnologico degli ultimi anni sarà in grado di colmarlo rapidamente nel prossimo futuro. Ma, dati alla mano, non possiamo essere sicuri che la questione risieda esclusivamente nella quantità di ore di apprendimento (o negli anni di evoluzione).
di Vieri Giuliano Santucci