- Pesquisadores da Microsoft testaram 19 IAs em 52 profissões, incluindo Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4.
- As IAs corromperam pelo menos 25% do conteúdo dos documentos na tarefa principal, e a média de corrupção entre todas as IAs foi de 50%.
- No modo “agêntico”, permitindo o uso de outros softwares, o desfecho foi ainda pior, com mais dados corrompidos.
- Em teste sem arquivos correlatos, a corrupção caiu entre 2% e 8%, dependendo da IA.
- A conclusão aponta que modelos de linguagem estão prontos para algumas tarefas, como escrever código em Python, mas precisam de monitoramento constante para outras atividades.
Os pesquisadores da Microsoft conduziram um teste com 19 IAs, incluindo Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4, para avaliar desempenho ao trabalhar em documentos de 52 profissões, desde desenvolvimento de software até biologia. O objetivo foi verificar até que ponto as IAs conseguem realizar tarefas típicas de cada área sem falhas de conteúdo.
Os resultados foram considerados preocupantes: as IAs corromperam pelo menos 25% do conteúdo dos documentos originais durante a execução das tarefas. Em média, entre todas as IAs avaliadas, 50% do conteúdo dos arquivos foi comprometido.
Ao operarem no modo “agente”, com capacidade de usar outros softwares para concluir tarefas, o cenário ficou ainda pior, com maior índice de dados corrompidos. O uso de ferramentas externas não reduziu significativamente os impactos.
Quando os trabalhos foram realizados sem arquivos correlatos, apenas o documento principal foi disponibilizado às IAs, houve melhoria. A corrupção caiu entre 2% e 8%, dependendo do algoritmo testado.
Desempenho por tipo de tarefa
A tarefa de desenvolvimento de código se destacou: quase todas as IAs tiveram bom desempenho nesse aspecto, em especial na linguagem Python. Em áreas que demandam compreensão textual e contextual complexa, o desempenho foi mais irregular.
A pesquisa avaliou ainda que, embora alguns modelos apresentem avanços em determinadas funções, a necessidade de supervisão humana permanece. O estudo conclui que os LLMs atuais podem assumir fluxos de trabalho limitados, com monitoramento contínuo exigido durante a operação.
Os autores ressaltam que os resultados evidenciam limitações técnicas relevantes para uso generalizado em ambientes profissionais. Fontes da pesquisa destacam a importância de validação humana para evitar perdas de informações e impactos em documentos críticos.
Entre na conversa da comunidade