- Dados confidenciais do UK Biobank, que guarda registros de 500 mil voluntários, foram publicados online em várias ocasiões, levantando preocupações sobre a proteção de informações de saúde.
- Em um conjunto encontrado pelo Guardian, constavam milhões de diagnósticos hospitalares e datas para mais de 400 mil participantes, incluindo dados que podem permitir reidentificação com informações limitadas.
- O uso de repositórios de código, como o GitHub, levou a vazamentos involuntários quando pesquisadores faziam upload de códigos para análises, mesmo com políticas que proíbem compartilhar dados fora dos sistemas do Biobank.
- A Biobank informou que não houve divulgação de dados identificáveis (nomes, endereços) e que já tomou medidas, incluindo notificações legais para remover conteúdos e treinamento adicional para pesquisadores.
- Especialistas destacaram que a escala e a persistência dos vazamentos mostram tensões entre impulsionar a pesquisa em saúde com dados e proteger a privacidade, mesmo com ações de remoção e controles.
O Guardian revelou que dados confidenciais de saúde do UK Biobank foram expostos online em dezenas de ocasiões. O UK Biobank abriga prontuários de 500 mil voluntários britânicos e sustenta importantes pesquisas sobre câncer, demência e diabetes. Em alguns casos, pesquisadores teriam publicado dados por engano ao compartilhar códigos ou datasets.
Os arquivos não continham nomes ou endereços, mas continham informações sensíveis, como diagnósticos hospitalares e datas associadas. Em um conjunto encontrado pelo Guardian, havia registros de mais de 400 mil participantes. A análise envolveu apenas o mês e o ano de nascimento e um procedimento médico significativo.
Exposição e resposta institucional
Com o consentimento de um voluntário, foi possível reproduzir parte de seu histórico médico a partir de dados adicionais, levantando preocupações sobre privacidade em meio a avanços de IA e cross-reference online. O tema reacende debates sobre o equilíbrio entre pesquisa e proteção de dados.
O UK Biobank afirmou que não havia dados de identificação, como nomes ou endereços, disponíveis para pesquisadores. O CEO Sir Rory Collins destacou que não foram observados casos de reidentificação por terceiros até o momento.
O problema veio à tona após journals e financiadores adotarem exigências de código aberto para análises de grandes conjuntos de dados. Ao fazer o upload de código, pesquisadores também teriam publicado inadvertidamente partes do conjunto de dados na plataforma GitHub.
Medidas, alcance e percepções técnicas
Desde 2024, o UK Biobank restringiu o download direto de dados, impondo treinamentos adicionais e orientações sobre uso seguro. Entre julho e dezembro de 2025, foram emitidas 80 notificações legais ao GitHub para remoção de conteúdos, com resultado parcial.
Alguns arquivos continham apenas IDs de pacientes, enquanto outros eram mais extensos. Em janeiro, um conjunto com diagnósticos e datas para cerca de 413 mil participantes incluía sexo e mês/ano de nascimento, segundo a apuração do Guardian.
Especialistas em dados elogiaram a transparência da instituição em reconhecer riscos, mas ressaltaram que a remoção de identificadores não garante anonimato total. A escalada do problema sugere tensões entre alavancar dados para pesquisa e proteger privacidade.
Pontos de debate e impactos
Profissionais destacam que pessoas já compartilham informações de saúde online, o que, aliado a IA, facilita a reidentificação. A avaliação do Guardian testou cenários de correspondência entre informações fornecidas por voluntários e dados na base, com resultados que geraram preocupação entre especialistas.
Voluntários entrevistados pela imprensa relataram desconforto com a possibilidade de parte de seu histórico médico ser reconstruída sem consentimento. Eles continuam, porém, participando do projeto, ao reconhecerem a importância do trabalho do UK Biobank.
O UK Biobank reiterou que adotou medidas para proteger a privacidade, incluindo buscas proativas no GitHub, contatos diretos com pesquisadores e retirada de conteúdos, com centenas de repositórios removidos. A instituição afirma que muitos continham apenas IDs, não dados clínicos.
Perspectivas futuras
Especialistas destacam a necessidade de reforçar controles de acesso e de dados, bem como de políticas claras de minimização de dados. Embora o UK Biobank tenha mostrado ações para conter o problema, o incidente evidencia o desafio de conciliar pesquisa em grande escala com salvaguardas robustas de privacidade.
Entre na conversa da comunidade