Em Alta Copa do Mundo NotíciasFutebol_POLÍTICA_Brasileconomia

Converse com o Telinha

Telinha
Oi! Posso responder perguntas apenas com base nesta matéria. O que você quer saber?

Na teoria dos jogos, generalistas às vezes vencem sobre especialistas

Algoritmos de gradiente de política podem superar técnicas de teoria de jogos em jogos de informação imperfeita, mostram pesquisadores do MIT

New research has helped to provide an even-handed way of appraising different algorithms that can teach agents — i.e., neural networks — how to compete in imperfect-information games.
0:00
Carregando...
0:00
  • Pesquisadores mostram que, em jogos com informação imperfeita, redes neurais treinadas com métodos de policy gradient superam algoritmos tradicionais baseados em teoria dos jogos em várias configurações de dois jogadores zero-sum.
  • O estudo propõe um benchmark para avaliar diferentes algoritmos no treinamento de agentes em jogos com informação oculta, em vez de apresentar uma nova estratégia vencedora.
  • Em cinco jogos testados, incluindo variantes de Tic-Tac-Toe e Hex com informação imperfeita, as redes treinadas por policy gradient tiveram menor exploitability e venceram nas disputas diretas.
  • Exploitability mede o desempenho contra um adversário que conhece o comportamento do jogador em qualquer mão possível; zero indica jogo perfeito.
  • O software de benchmarking é disponibilizado gratuitamente e pode ser executado em um laptop comum, bastando adicionar uma linha de código ao conjunto OpenSpiel.

Em um estudo apresentado em abril no Rio de Janeiro, pesquisadores do MIT mostraram que algoritmos de aprendizado de máquina podem superar abordagens tradicionais em jogos de informações incompletas, com pares de oponentes em competição zero-sum. A pesquisa foca em treinar redes neurais para lidar com cenários onde pouco se sabe sobre o adversário.

A equipe envolveu Sobhan Mohammadpour e Gabriele Farina, ambos do MIT, além de colaboradores de UT Austin, UC Berkeley, CMU e NYU. O trabalho questiona a superioridade de algoritmos de teoria de jogos em favor de métodos de política gradiente em ambientes com múltiplos agentes.

O estudo também propõe um benchmark para avaliar diferentes algoritmos, em vez de apresentar uma nova técnica que supere as demais. A meta é oferecer um ambiente de teste padronizado para medir desempenho de redes neurais em tarefas com informações ocultas.

O que foi estudado

Cinco jogos com informações imperfeitas foram usados para os experimentos: duas versões de Phantom Tic-Tac-Toe, duas variantes de Hex e Liar’s Dice. Os pesquisadores enfrentaram grandes desafios para medir o explorability em cenários com até bilhões de estados possíveis.

A análise com redes treinadas via políticas gradiente mostrou explotabilidade menor (desempenho melhor) que redes treinadas com algoritmos baseados em teoria de jogos. Em confrontos diretos, as redes com políticas gradientes também se destacaram.

Implicações e uso

Os autores destacam que a abordagem de benchmark pode ser aplicada a diversas interações estratégicas com múltiplos agentes, não apenas jogos reais. A ferramenta está disponível de forma aberta para uso em computadores comuns, com uma integração simples ao OpenSpiel.

Especialistas externos veem otimismo nos resultados, que sugerem modernizar ferramentas clássicas de resolução de problemas estratégicos. A pesquisa reforça a importância de avaliação rigorosa de algoritmos em ambientes com informações parciais.

Fontes: estudo do MIT, apresentado em conferência internacional, com colaboração de universidades e institutos de pesquisa.

Comentários 0

Entre na conversa da comunidade

Os comentários não representam a opinião do Portal Tela; a responsabilidade é do autor da mensagem. Conecte-se para comentar

Veja Mais