Um estudo não revisado por pares, realizado por pesquisadores de ETH Zurich, Anthropic e do programa Machine Learning Alignment and Theory Scholars, mostrou que sistemas de IA podem tentar desanonimizar conteúdos publicados online.
O experimento usou agentes de IA que analisam textos em busca de padrões (estilo de escrita, detalhes biográficos, horários de postagem) para cruzar com milhões de contas e gerar uma lista de possíveis identidades.
Em diferentes conjuntos de dados, a abordagem baseada em grandes modelos de linguagem identificou até quarenta e oito por cento das correspondentes com noventa por cento de precisão, frente a técnicas não baseadas em IA, que tiveram desempenho significativamente menor.
O custo dos testes foi inferior a dois mil dólares, com cada perfil analisado custando entre um e quatro dólares, o que reduz barreiras de uso comercial e privado.
Ainda que haja limitações e nem todos os conjuntos de dados apresentem os mesmos resultados, os autores destacam que isso não significa que privacidade está completamente perdida, mas que permanecer anônimo pode exigir precauções mais rigorosas e políticas de fiscalização mais eficientes.

A pesquisa propõe que ferramentas de IA podem facilitar a identificação de contas anônimas. Em estudo recente, pesquisadores sugerem que modelos de linguagem avançados conseguem reidentificar usuários a partir de textos publicados online, ainda que a análise não tenha passado por revisão por pares.

O trabalho, realizado por equipes da ETH Zurich, Anthropic e do Machine Learning Alignment and Theory Scholars program, utiliza um sistema automatizado de IA capaz de vasculhar a web e interagir com informações, simulando um investigador humano para testar a eficácia da reidentificação de dados anonimizados.

Segundo os autores, o sistema supera técnicas computacionais tradicionais na tarefa de deanonymização em larga escala, ao buscar padrões na escrita, detalhes biográficos e horários de postagem para relacionar diferentes contas.

Os testes utilizaram conjuntos de dados públicos, incluindo conteúdos de Hacker News, LinkedIn, entrevistas da Anthropic com cientistas e contas de Reddit divididas em duas partes para teste. Em cada cenário, a abordagem baseada em LLM identificou com até 68% de precisão as contas correspondentes, com 90% de precisão.

Em comparação, métodos não baseados em LLM apresentaram desempenho significativamente menor na mesma tarefa, especialmente quando menos informações estruturadas estavam disponíveis. A eficácia aumentou conforme houve mais dados estruturados para análise.

Em um dos experimentos envolvendo o subreddit r/movies, o sistema ligou contas que mencionaram apenas um filme com precisão de 90% em identificar a correspondência, embora com menor taxa de acerto. Quando os usuários citaram dez ou mais filmes, a taxa de sucesso subiu praticamente à metade dos casos.

Outro teste, com a pesquisa de Anthropic entre cientistas, atingiu identificação de nove de 125 respondentes, cerca de 7% de recall. O método montou perfis a partir de pistas nas respostas e comparou com informações públicas para afinar as hipóteses, incluindo sinais de português britânico e ligações acadêmicas.

Os autores destacam que o desempenho relevante se deu mesmo com textos não estruturados e que a automação completa reduz o tempo de investigação de horas para minutos. Eles alertam que o avanço pode aumentar a capacidade de deanonymization conforme IA evolui e acessa mais dados.

Além disso, os pesquisadores ressaltam que a internet guarda informações indefinidamente. O resultado pode representar riscos reais para jornalistas, dissidentes e ativistas que dependem de pseudônimos, além de facilitar campanhas de marketing altamente segmentadas e golpes personalizados.

Ainda que o estudo tenha potencial, os autores reconhecem limitações e ressaltam que os experimentos ocorreram em ambiente controlado, com dados preparados e anonimizados. Não houve publicação das detalhes técnicos completos nem demonstração pública do sistema.

Para usuários que mantêm anonimato, as medidas básicas continuam relevantes: separar contas, restringir dados pessoais e evitar padrões identificáveis. Já para quem utiliza pseudônimos de forma mais casual, a orientação é refletir sobre o que é publicado publicamente.

Os pesquisadores defendem responsabilidade compartilhada: laboratórios de IA devem acompanhar usos indevidos de suas ferramentas e impor salvaguardas; plataformas podem restringir coleta massiva de dados para dificultar a deanonymization.

Converse com o Telinha

Ferramentas de IA podem desmascarar contas anônimas

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais