- PDFs são difíceis de interpretar por máquinas, o que dificulta buscas e extração de informações em grandes volumes de documentos.
- Pesquisas recentes envolvem projetos que vão desde visualização e busca de e-mails até mapas interativos de dados contidos em PDFs, com aplicativos voltados a casos como o espólio de Epstein.
- Técnicas de leitura de PDFs combinam várias etapas: segmentação da página (títulos, tabelas, notas de rodapé), modelos especializados para cada elemento e correção por modelos de linguagem com visão computacional (vision-language).
- Mesmo com avanços, OCR ainda falha ao lidar com estruturas editoriais complexas, várias colunas, tabelas e textos redigidos, levando a erros ou conteúdo inventado em alguns casos.
- O formato deve continuar relevante para treinamento de IA, pois PDFs contêm grande volume de conteúdo de alta qualidade, como relatórios governamentais e trabalhos acadêmicos.
O grande desafio da leitura de PDFs por IA ganhou evidência com conjuntos de documentos extensos, como as 20 mil páginas do espólio de Jeffrey Epstein e mais de 3 milhões de PDFs liberados pelo Departamento de Justiça. Mesmo com OCR, o texto fica pouco pesquisável e sem resumo estruturado.
A origem da solução veio de um grupo de pesquisadores e empreendedores. Luke Igel, cofundador da Kino, com apoio de Adit Abraham, criou um ecossistema de apps para tornar o conteúdo dos PDFs mais acessível, buscando transformar mensagens, logs e convites em dados utilizáveis.
Para isso, apelaram a diferentes ferramentas e empresas especializadas. Reducto, comandada por Abraham, desenvolveu métodos para extrair informações mesmo de documentos com redacões, logs de chamadas e variações de qualidade de digitalização. O objetivo era estruturar conteúdos para busca rápida.
Os trabalhos avançaram com a criação de interfaces que simulam buscas em caixas de correio digitais, bem como mapas de voos, listas de compras e perfis de empresas contidos nos PDFs. O objetivo era transformar o conteúdo em dados navegáveis, não apenas texto corrido.
Especialistas destacam que PDFs são difíceis de interpretar para máquinas por preservar a aparência visual e não a organização lógica do texto. A leitura envolve reconhecer cabeçalhos, tabelas, imagens e notas, o que exige sistemas de várias etapas e modelos especializados.
Institutos de pesquisa também trabalham na área. Modelos treinados com milhões de PDFs visam melhorar a detecção de estruturas como tabelas e legendas. Experimentos mostram que a leitura de PDFs permanece desafiadora, mesmo com avanços em plataformas de IA.
No ecossistema, outras equipes exploram fontes como o Common Crawl, que revelou um vasto acervo de PDFs. O uso desses documentos para treinamento de modelos visa ampliar a capacidade de extrair informações com maior precisão. Ainda assim, surgem limitações, como a possibilidade de gerar textos inexistentes ou interpretar mal elementos do documento.
Embora haja progresso, especialistas afirmam que a leitura de PDFs ainda não está plenamente resolvida. A persistência do desafio ocorre especialmente em layouts complexos, com várias camadas de dados, indicações visuais e anotações. O ritmo de melhoria é rápido, porém não uniforme.
A leitura de PDFs continua relevante para setores como engenharia, direito e governança. A produção de padrões que assegurem a consistência do conteúdo e a interoperabilidade entre sistemas permanece essencial, segundo especialistas.
Entre na conversa da comunidade