- Pesquisadores do MIT CSAIL e da SEAS da Harvard criaram o modo Collaborative Battleship para avaliar como LMs perguntam e respondem, usando perguntas em linguagem natural.
- Primeiro, coletaram respostas de mais de quarenta pessoas para formar o conjunto de dados BattleshipQA, para comparar com modelos como GPT-5 e Llama 4 Scout.
- Sem treinamento prévio, LMs grandes tendem a vencer humanos em menos turnos, mas modelos menores podem ter desempenho inferior, a menos que usem estratégias de inferência de Monte Carlo para formular perguntas mais informativas.
- O modelo Llama 4 Scout, inicialmente com baixo desempenho, alcançou oitenta e dois por cento de vitórias contra humanos após refinamentos, e ficou próximo ou acima de modelos de ponta a custo de cerca de um por cento do GPT-5.
- Transformar perguntas em código que verifique as respostas aumentou a acurácia em média quinze por cento, e o estudo também testou em jogos como Quem é o Personagem? com melhorias expressivas.
O MIT, em conjunto com a Escola de Engenharia da Harvard, testa agentes de IA usando o jogo Battleship para entender como eles perguntam e aprendem. O objetivo é reduzir custos e melhorar a eficiência de modelos em ambientes incertos.
Os pesquisadores criaram o formato Collaborative Battleship, em que um capitão faz perguntas e o spotter responde. Começaram com mais de 40 participantes humanos para mapear perguntas e respostas, gerando o conjunto de dados BattleshipQA.
Em seguida, validaram modelos de linguagem de diferentes portes. Mesmo sem treinamento prévio, LMs avançados completaram o jogo com menos turnos que humanos, enquanto modelos menores mostraram desempenho inferior. O desafio principal é formular boas perguntas.
A melhoria veio ao aplicar uma estratégia de inferência de Monte Carlo, que pondera opções com base na probabilidade de acerto a cada resposta. Com isso, modelos menores alcançaram vitórias expressivas sobre jogadores humanos, reduzindo a diferença de desempenho.
O destaque ficou com o Llama 4 Scout, que sem refinamentos vencia humanos em 8% das partidas. Com aperfeiçoamento da estratégia, o índice de vitórias subiu para 82%, superando também modelos de ponta a custo muito menor.
Além disso, a equipe reduziu a lacuna na precisão das respostas. Ao transformar perguntas em código que verifica as soluções, a precisão aumentou em média 15%. Em consequência, modelos como GPT-4o-mini tiveram ganho próximo de 30% no desempenho.
“O estudo mostra que perguntar bem depende de prever o mundo e simular hipóteses”, afirma Gabriel Grand, da CSAIL. A equipe também usou Python para converter perguntas em comandos que guiam o spotter e melhorar explicitações das verificações.
Os pesquisadores estendem o experimento para além de Battleship, aplicando a técnica a jogos como Guess Who? e avaliando a performance de modelos grandes e pequenos. GPT-4o atingiu 90% de acerto; GPT-5 manteve o papel de spotter para aumentar a precisão.
Segundo os autores, ainda há espaço para aperfeiçoamento, especialmente na resolução de perguntas complexas. O objetivo é ampliar os testes para cenários mais desafiadores, com maior espaço de opções e decisões mais estratégicas para os agentes.
Entre na conversa da comunidade