Na teoria dos jogos, generalistas às vezes vencem sobre especialistas

Pesquisadores mostram que, em jogos com informação imperfeita, redes neurais treinadas com métodos de policy gradient superam algoritmos tradicionais baseados em teoria dos jogos em várias configurações de dois jogadores zero-sum.
O estudo propõe um benchmark para avaliar diferentes algoritmos no treinamento de agentes em jogos com informação oculta, em vez de apresentar uma nova estratégia vencedora.
Em cinco jogos testados, incluindo variantes de Tic-Tac-Toe e Hex com informação imperfeita, as redes treinadas por policy gradient tiveram menor exploitability e venceram nas disputas diretas.
Exploitability mede o desempenho contra um adversário que conhece o comportamento do jogador em qualquer mão possível; zero indica jogo perfeito.
O software de benchmarking é disponibilizado gratuitamente e pode ser executado em um laptop comum, bastando adicionar uma linha de código ao conjunto OpenSpiel.

Em um estudo apresentado em abril no Rio de Janeiro, pesquisadores do MIT mostraram que algoritmos de aprendizado de máquina podem superar abordagens tradicionais em jogos de informações incompletas, com pares de oponentes em competição zero-sum. A pesquisa foca em treinar redes neurais para lidar com cenários onde pouco se sabe sobre o adversário.

A equipe envolveu Sobhan Mohammadpour e Gabriele Farina, ambos do MIT, além de colaboradores de UT Austin, UC Berkeley, CMU e NYU. O trabalho questiona a superioridade de algoritmos de teoria de jogos em favor de métodos de política gradiente em ambientes com múltiplos agentes.

O estudo também propõe um benchmark para avaliar diferentes algoritmos, em vez de apresentar uma nova técnica que supere as demais. A meta é oferecer um ambiente de teste padronizado para medir desempenho de redes neurais em tarefas com informações ocultas.

O que foi estudado

Cinco jogos com informações imperfeitas foram usados para os experimentos: duas versões de Phantom Tic-Tac-Toe, duas variantes de Hex e Liar’s Dice. Os pesquisadores enfrentaram grandes desafios para medir o explorability em cenários com até bilhões de estados possíveis.

A análise com redes treinadas via políticas gradiente mostrou explotabilidade menor (desempenho melhor) que redes treinadas com algoritmos baseados em teoria de jogos. Em confrontos diretos, as redes com políticas gradientes também se destacaram.

Implicações e uso

Os autores destacam que a abordagem de benchmark pode ser aplicada a diversas interações estratégicas com múltiplos agentes, não apenas jogos reais. A ferramenta está disponível de forma aberta para uso em computadores comuns, com uma integração simples ao OpenSpiel.

Especialistas externos veem otimismo nos resultados, que sugerem modernizar ferramentas clássicas de resolução de problemas estratégicos. A pesquisa reforça a importância de avaliação rigorosa de algoritmos em ambientes com informações parciais.

Fontes: estudo do MIT, apresentado em conferência internacional, com colaboração de universidades e institutos de pesquisa.

Converse com o Telinha

Na teoria dos jogos, generalistas às vezes vencem sobre especialistas

O que foi estudado

Implicações e uso

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Converse com o Telinha

Na teoria dos jogos, generalistas às vezes vencem sobre especialistas

O que foi estudado

Implicações e uso

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Fique por dentro das notícias do Khai Dreams