AI ‘Cícero’ de Meta superou os humanos na diplomacia sem revelar sua verdadeira identidade

Desde que o sistema de inteligência artificial Deep Blue da IBM derrotou o campeão mundial de xadrez Garry Kasparov em seu próprio jogo em 1997, a humanidade observou tristemente, ano após ano, como nossos subordinados baseados em código nos derrotam cada vez mais. complicado Jogos. Há um porém. Enquanto os bots de IA se destacam cada vez mais em manobrar os humanos em partidas individuais de tabuleiro e videogame, os sistemas geralmente se saem muito pior quando solicitados a colaborar com outros humanos para realizar uma tarefa comum. Meta pesquisadores acham que sua nova IA “Cicero” pode ter algo a dizer sobre isso.

Pela primeira vez, de acordo com um novo estudo compartilhado com o Gizmodo pela equipe Basic AI Research Diplomacy da Meta, os pesquisadores treinaram uma IA para alcançar “desempenho de nível humano” no jogo de tabuleiro de estratégia. Diplomacia. O novo agente de IA, nomeado em homenagem ao estadista e estudioso clássico que testemunhou a queda da República Romana, foi capaz de se comunicar e criar estratégias de forma eficaz com outros jogadores humanos, planejar os melhores métodos para a vitória e, em alguns casos, até mesmo se passar por humano. Agora, os pesquisadores afirmam que o Cícero, que cumpriu suas tarefas combinando modelos de diálogo e raciocínio estratégico, é um “benchmark” para o treinamento de agentes multi-IA.

Nos últimos vinte anos, uma variedade cada vez mais impressionante de sistemas de IA de várias empresas derrotou jogadores humanos em tudo, desde xadrez até jogos mais modernos como Starcraft. Embora diferentes em conteúdo, todos esses jogos compartilham uma semelhança fundamental: são todos de soma zero, o vencedor leva toda a competição.

Diplomacia é diferente. Dentro Diplomacia, sete jogadores competem para controlar a maioria dos centros de abastecimento. Os jogadores estão constantemente interagindo uns com os outros, e cada rodada começa com uma série de negociações pré-rodada. Crucialmente, Diplomacia os jogadores podem tentar enganar os outros e também podem pensar que a IA está mentindo. Os pesquisadores disseram Diplomacia é particularmente difícil porque requer construir confiança com os outros, “num ambiente que encoraja os jogadores a não confiar em ninguém”. Em outras palavras, para uma IA “ganhar” em Diplomacia ele deve entender efetivamente as regras do jogo, mas também entender fundamentalmente as interações humanas, enganos e cooperação, e saber como encadear frases sem parecer uma máquina de lavar louça com defeito.

Cícero mais ou menos fez isso. Meta diz que Cícero mais que dobrou a pontuação média de jogadores humanos em 40 anônimos online Diplomacia jogos e classificado entre os 10% melhores jogadores que jogaram mais de um jogo. Cícero chegou a ficar em primeiro lugar em um torneio de oito partidas envolvendo 21 participantes. Em cada estágio do jogo, Cícero modelou como outros jogadores concorrentes provavelmente agiriam com base no desempenho do jogo e nas conversas de texto.

Os pesquisadores conduziram seu experimento de estudo em 19 de agosto e 13 de outubro de 2022 em 40 jogos online anônimos weDiplomacy.net totalizando 72 horas de jogo. Os pesquisadores dizem que não viram nenhuma mensagem no jogo sugerindo que os jogadores humanos pensaram que estavam jogando contra uma IA. Cícero aparentemente “passou por um jogador humano” em 40 partidas de Diplomacia com 82 jogadores únicos. Em um exemplo destacado no estudo, Cícero mudou com sucesso a mente de um jogador humano ao criar um movimento mutuamente benéfico.

Cícero foi treinado em boa parte do anterior Diplomacia dados a fim de prepará-lo para se comunicar corretamente com outros jogadores. Pesquisadores dizem que a IA foi treinada em um conjunto de dados anônimo de 125.261 Diplomacia jogos, cerca de 40.000 dos quais continham diálogo. No total, esse conjunto de dados continha mais de 12 milhões de mensagens trocadas entre jogadores humanos.

Cícero não era perfeito, no entanto. O diálogo da IA ​​limitava-se principalmente às ações em seu turno atual, e Cícero não era bom em modelar como seu diálogo com um jogador poderia afetar as relações com os outros a longo prazo. Ele também ocasionalmente enviava mensagens contendo “erros de aterramento” ou outras que contradiziam seus próprios planos. (Deve-se notar que os humanos costumam cometer os mesmos erros). No entanto, apesar dessas ressalvas, os pesquisadores disseram que Cícero deveria ocupar seu lugar no hall da fama dos jogos de tabuleiro de IA por causa de sua capacidade única de cooperar com humanos.

Embora este seja apenas um estudo de um jogo de tabuleiro, as novas descobertas da Meta sinalizam uma lente potencialmente nova e menos apocalíptica para ver os sucessos incrementais da IA. Em vez de sentir medo de sistemas de IA que gradualmente superam os humanos em jogos que antes prezamos, Cícero sugere um futuro em que humanos e IAs podem potencialmente trabalhar lado a lado como parceiros ou, pelo menos, conhecidos mútuos, para resolver problemas. .