Outro

Como a IA aprendeu a blefar e vencer humanos no pôquer

A IA não apenas derrotou os campeões de xadrez, Go e Jeopardy, mas agora derrotou alguns dos melhores jogadores de pôquer do mundo. E, ao contrário do xadrez ou do Go, jogar pôquer envolve informações desconhecidas, como blefar.

Crédito: Getty Images

Que tal um bom jogo de xadrez?

A lista de derrotas recentes em que humanos foram derrotados por máquinas é bem conhecida: o campeão de xadrez Garry Kasparov perdendo para o Deep Blue da IBM, o mago do Jeopardy Ken Jennings sendo derrotado por Watson da IBM e o campeão de Go Lee Sodol perdendo para o AlphaGo do Google.

Também podemos adicionar pôquer à lista de superioridade de IA .

O jogador profissional de pôquer Jason Les jogando contra Libratus, um programa de IA.

Uma competição recente de vinte dias entre os campeões do pôquer (heads-up no-limit Texas hold'em, 120.000 mãos no total) eLibratus, um programa de IA criado por professores da Carnegie Mellow UniversityTuomas Sandholm e Noam Brown, tiveram a IA saindo por cima. Isso é particularmente surpreendente porque, ao contrário de jogos como xadrez e Go, onde a informação é direta e conhecida ('Jogos de Informação Perfeitos'), o pôquer envolve uma grande quantidade de informações ocultas ('Jogos de Informação Imperfeitos') e a característica aparentemente humana do blefe . Acontece que a IA pode aprender a arte de blefar.

Este ano, Libratus se tornou a primeira IA a derrotar os campeões de pôquer no pôquer heads-up no-limit Texas Hold'em.

'Não era apenas uma questão de descobrir uma estratégia versus um oponente estático, acabou mudando sua estratégia com o passar do tempo.' - Jason Les, jogador profissional de pôquer

Por que o pôquer é tão difícil para a IA dominar?

A IA se beneficia ao descobrir uma estratégia baseada em regras e informações conhecidas, e o pôquer inclui muitas informações ocultas. Ao contrário de um tabuleiro de xadrez que exibe as peças de xadrez de seu oponente, a mão de seu oponente no pôquer está oculta. O pôquer tem uma quantidade quase infinita de situações possíveis - 10 elevado à 160ª potência para ser exato. Isso é maior do que o número de átomos do universo.

O Libratus tem uma grande capacidade de computador funcionando, conectado ao Pittsburgh Supercomputer Center. Em vez de aprender a melhor maneira de jogar pôquer - o que seria relevante para um Jogo de Informação Perfeito como xadrez, damas ou Go - Libratus aprendeu as regras do pôquer e depois aprendeu por meio de suas interações com os jogadores humanos. A IA recebeu uma função de recompensa para ganhar o máximo de dinheiro possível e, em seguida, foi instruída a otimizar a função de recompensa. (O co-criador do Libratus, Professor Noam Brown da Carnegie Mellon, explica como a IA foi programada em um Diário de Engenharia de Software podcast )

O Libratus foi construído resolvendo primeiro uma abstração do jogo por meio de uma nova variante de Monte Carlo CFR que mostra ações de arrependimento negativo com menos frequência. Libratus aplicou a solução de subjogos aninhados ao atingir a terceira rodada de apostas e em resposta a todas as apostas subsequentes do oponente. Isso permitiu que o Libratus evitasse a abstração de informações durante o jogo e aproveitasse a capacidade de exploração muito menor da solução de subjogos aninhados em resposta às ações do oponente fora da árvore Resolução de subjogos seguros e aninhados para jogos com informações imperfeitas , Noam Brown e Tuomas Sandholm

Em outras palavras, Libratus aprendeu as falhas sutis no jogo dos campeões de pôquer e começou a capitalizá-las. Enquanto o evento humanos versus Libratus foi faturado como Cérebros Versus Inteligência Artificial , pode ser melhor pensar como Cérebros humanos versus cérebros de IA .

AI pode vencer os campeões de pôquer. E daí?

Ao contrário de dominar um conjunto de regras - o que o Deep Blue da IBM fez pelo xadrez e o AlphaGo do Google fez pelo Go - o sucesso do Libratus pode indicar um futuro potencial onde a IA auxilia os humanos em tarefas que envolvem negociação e outras situações em que os fatos disponíveis são incompletos.

“É um marco realmente crítico no desenvolvimento de IAs que podem resolver problemas do mundo real com informações incompletas, que são aquelas que precisamos resolver para o avanço da sociedade - não apenas o pôquer.” - Nick Nystrom, diretor sênior de pesquisa do Pittsburgh Supercomputer Center (falando com o Engadget)

Semelhante a como o Watson da IBM passou de um truque caro no Jeopardy para auxiliar nas decisões de negócios, o campeão de pôquer de hoje pode ser o motor de negócios de amanhã.