- Estudos da MIT mostram que plataformas de ranking de LLMs são sensíveis a pequenas mudanças de dados, podendo alterar quais modelos ficam no topo.
- Remover uma fração minúscula de votos das interações dos usuários já pode mudar o ranking de LLMs para tarefas como codificação ou compreensão visual.
- Pesquisa desenvolveu método rápido para testar plataformas e identificar votos influentes, permitindo que usuários examinem e removam dados problemáticos.
- Em alguns casos, dois votos removidos entre mais de cinquenta mil já alteraram o modelo líder; em outro ranking mais robusto, 83 de 2.575 avaliações foram suficientes para inverter os modelos no top.
- Sugestões para fortalecer rankings incluem obter feedback mais detalhado, medir confiança nos votos e, se possível, usar mediadores humanos para avaliar respostas crowdsourced.
Um estudo da MIT revela que plataformas que classificam os LLMs mais recentes podem ser pouco confiáveis. Pequenas mudanças em dados crowdsourced podem alterar o ranking e levar a acreditar que um modelo é superior para um uso específico. A pesquisa mostra que remover uma fração minúscula de votos pode reverter a posição dos modelos no topo.
Os pesquisadores desenvolveram um método rápido para testar a robustez dessas plataformas. A técnica identifica quais votos individuais mais influenciam o resultado, permitindo que usuários verifiquem os votos mais relevantes e inspectem seu impacto no ranking.
O estudo analisa plataformas de ranking que, em geral, pedem aos usuários que comparação dois modelos e escolham qual entrega a melhor resposta. Os resultados são coletados para criar listas de desempenho em tarefas como codificação e compreensão visual.
Metodologia e principais achados
Ao aplicar a técnica a plataformas populares, os cientistas observaram que a remoção de apenas dois votos de um conjunto com mais de 57 mil já mudava o modelo líder. Em outra plataforma mais robusta, 83 de 2.575 avaliações precisaram ser descartados para inverter as posições dominantes.
Os autores destacam que muitos votos influentes parecem resultar de erro do usuário, como cliques indevidos ou falta de atenção. Recomendam coletar feedback adicional, como níveis de confiança, para tornar as avaliações mais estáveis.
Implicações e próximos passos
Os pesquisadores defendem estratégias mais rigorosas para avaliar rankings de LLMs e sugerem que mediadores humanos possam ajudar a reduzir ruídos. Embora o estudo não trate de mitigação, aponta caminhos para tornar as plataformas mais robustas diante de dados imperfeitos.
A pesquisa foi conduzida por Tamara Broderick e colegas da EECS da MIT, incluindo Jenny Huang, Yunyi Shen e Dennis Wei da IBM Research. O trabalho será apresentado em uma conferência internacional sobre Representações de Aprendizado. Fontes de apoio incluem órgãos como Office of Naval Research, MIT-IBM Watson AI Lab, NSF, Amazon e CSAIL.
Entre na conversa da comunidade