- MIT e o MIT-IBM Computing Research Lab desenvolveram o ChartNet, um conjunto de dados sintéticos com mais de um milhão de imagens de gráficos, acompanhadas de informações textuais e tabelas numéricas, para treinar modelos de visão e linguagem a interpretar gráficos.
- O método de geração de dados funciona em duas etapas: transformar gráficos existentes em código e, em seguida, ampliar esse código para variar tipo de gráfico, valores, tema e cores.
- O ChartNet busca melhorar tarefas como extração de dados, reconstrução de gráficos, sumarização e resposta a perguntas sobre o gráfico, aumentando a precisão dos modelos.
- Modelos abertos menores treinados com ChartNet superaram modelos comerciais muito maiores em várias métricas de interpretação de gráficos.
- A pesquisa pretende expandir o ChartNet no futuro, com mais complexidade e feedback da comunidade, e contou com financiamento parcial do MIT-IBM Computing Research Lab.
A equipe de pesquisa do MIT desenvolveu o ChartNet, um conjunto de dados sintéticos focado em modelos que combinam visão e linguagem para interpretar gráficos. O objetivo é melhorar a extração de dados, reconstrução de gráficos e sumarização por parte de modelos de IA.
O ChartNet reúne mais de um milhão de imagens de gráficos, cada uma acompanhada do código gerador, descrição textual e uma tabela com os valores numéricos. Também incluem pares pergunta-resposta para treinar a modelagem de respostas a perguntas sobre o gráfico.
Os pesquisadores usaram ChartNet para treinar modelos abertos, como a série Granite Vision da IBM e outras soluções de código aberto. Os resultados mostraram melhoria na precisão em tarefas de reconstrução, extração de dados, sumarização e resposta a perguntas sobre gráficos.
O estudo destaca que, apesar dos avanços em IA, interpretar dados complexos multimodais de gráficos ainda é um desafio para muitos modelos. A geração de dados sintéticos é apresentada como solução para ampliar o treinamento sem depender de grandes volumes de dados reais.
ChartNet foi desenvolvido em duas etapas: transformar gráficos existentes em código e, a partir disso, ampliar o código para variar tipo de gráfico, valores, tema e cores. O processo inclui verificações automáticas de qualidade para garantir imagens precisas e legíveis.
Além disso, o conjunto incorpora uma seleção de pontos de dados anotados por especialistas, ampliando a diversidade de gráficos com garantias de validade. Esses dados podem ser usados para ajustar modelos já existentes para aplicações específicas.
Os autores afirmam que modelos menores, treinados com ChartNet, superaram em desempenho muitos modelos comerciais de maior porte em tarefas de interpretação de gráficos. A pesquisa também aponta potencial de democratização da IA para empresas com orçamento restrito.
O estudo é liderado por Jovana Kondic, estudante de pós-graduação do MIT EECS, com coautorias de membros do MIT, MIT-IBM Computing Research Lab e IBM Research. A pesquisa será apresentada na IEEE Conference on Computer Vision and Pattern Recognition.
ChartNet: impactos e próximos passos
A equipe planeja ampliar ChartNet com dados de maior complexidade e buscar feedback da comunidade científica. O objetivo é manter a compatibilidade com ferramentas de treino de modelos de IA e incentivar o desenvolvimento de soluções mais eficientes.
A pesquisa foi parcialmente financiada pelo MIT-IBM Computing Research Lab. Autores destacam que a abordagem pode favorecer organizações de pequeno porte ao oferecer dados de alta qualidade para treinar modelos abertos.
Entre na conversa da comunidade