Adicione “Diplomacia” à lista de jogos que a IA pode jogar tão bem quanto os humanos

Os sistemas de aprendizado de máquina estão limpando o chão com seus adversários humanos há mais de uma década (sério, aquela primeira vitória do Watson Jeopardy foi em 2011), embora os tipos de jogos em que eles se destacam sejam bastante limitados. Geralmente jogos de tabuleiro ou videogames competitivos usando um campo de jogo limitado, movimentos sequenciais e pelo menos um oponente claramente definido, qualquer jogo que exija cálculos é uma vantagem para eles. A diplomacia, no entanto, requer muito pouco cálculo, em vez disso, exige que os jogadores negociem diretamente com seus oponentes e façam as respectivas jogadas simultaneamente – coisas que os sistemas modernos de ML geralmente não são projetados para fazer. Mas isso não impediu que os pesquisadores da Meta projetassem um agente de IA capaz de negociar posições políticas globais tão bem quanto qualquer embaixador da ONU.

Diplomacy foi lançado pela primeira vez em 1959 e funciona como uma versão mais polida do RISK, onde entre dois e sete jogadores assumem o papel de uma potência européia e tentam vencer o jogo conquistando os territórios de seus oponentes. Ao contrário do RISK, onde o resultado dos conflitos é decidido por um simples lance de dados, a Diplomacia exige que os jogadores negociem entre si primeiro – estabelecendo alianças, traições, todas essas coisas boas – antes que qualquer coisa aconteça. o mundo move suas peças simultaneamente durante o próxima fase do jogo. As habilidades de ler e manipular os oponentes, convencer os jogadores a formar alianças e planejar estratégias complexas, navegar em parcerias complicadas e saber quando trocar de lado são todas uma parte importante do jogo – e todas elas. habilidades que normalmente faltam nos sistemas de aprendizado de máquina .

Na quarta-feira, os pesquisadores da Meta AI anunciaram que superaram essas deficiências de aprendizado de máquina com o CICERO, a primeira IA a mostrar desempenho em nível humano na diplomacia. A equipe treinou Cícero em 2,7 bilhões de parâmetros em 50.000 rodadas no webDiplomacy.net, uma versão online do jogo, onde ele ficou em segundo lugar (de 19 participantes) em um torneio de 5 jogos da liga, enquanto dobrava o aumento da pontuação média de adversários.

O agente de IA provou ser tão hábil “em usar a linguagem natural para negociar com as pessoas na diplomacia que muitas vezes preferiam trabalhar com o CICERO a outros participantes humanos”, observou a equipe Meta em um comunicado à imprensa na quarta-feira. “A diplomacia é um jogo de pessoas e não de peças. Se um agente não conseguir reconhecer que alguém provavelmente está blefando ou que outro jogador consideraria um determinado movimento agressivo, ele rapidamente perderá o jogo. Se ele não falar como uma pessoa real – mostrando empatia, construindo relacionamentos e falando com conhecimento sobre o jogo – ele não encontrará outros jogadores dispostos a trabalhar com ele.”

Gol Cícero

Essencialmente, Cicero combina a mentalidade estratégica de Pluribot ou AlphaGO com os recursos de processamento de linguagem natural (NLP) de BlenderBot ou GPT-3. O agente é até capaz de prever. “Cícero pode deduzir, por exemplo, que mais tarde no jogo ele vai precisar do apoio de um determinado jogador, e então traçar estratégias para ganhar o favor dessa pessoa – e até mesmo reconhecer os riscos e oportunidades que esse jogador vê do seu ponto de vista particular. ”, observou a equipe de pesquisa.

O agente não treina por meio de um esquema padrão de aprendizado por reforço, como fazem os sistemas semelhantes. A equipe Meta explica que isso levaria a um desempenho abaixo do ideal porque “confiar apenas no aprendizado supervisionado para escolher ações com base em diálogos anteriores resulta em um agente relativamente fraco e altamente explorável”.

Em vez disso, Cicero usa “um algoritmo de planejamento iterativo que equilibra consistência de diálogo com racionalidade”. Ele primeiro preverá as jogadas de seus oponentes com base no que aconteceu durante a rodada de negociação, bem como a jogada que ele acha que seus oponentes pensarão que ele fará antes de “melhorar iterativamente essas previsões, tentando escolher novas políticas que tenham um valor esperado mais alto, dado o outras políticas previstas pelos jogadores, enquanto tenta manter as novas previsões próximas das previsões originais da política.” Fácil, certo?

O sistema ainda não é infalível, porque o agente às vezes se torna muito inteligente e se vê jogar a si mesmo adotando posições negociais contraditórias. No entanto, seu desempenho nesses primeiros julgamentos é superior ao de muitos políticos humanos. A Meta planeja continuar desenvolvendo o sistema para “servir como uma caixa de areia segura para o avanço da pesquisa de interação humano-IA”.