Nova abordagem melhora planejamento de tarefas visuais complexas

pesquisadores do MIT desenvolveram um sistema de planejamento visual chamado VLMFP, que usa IA generativa para planejar tarefas de longo prazo, como navegação de robôs.
o método combina dois modelos de visão e linguagem: SimVLM descreve a cena e simula ações; GenVLM transforma essas simulações em arquivos em linguagem de planejamento (PDDL) para um resolvedor formal.
o sistema gera, automaticamente, um conjunto de arquivos que alimentam um software clássico de planejamento, que então produz um plano passo a passo.
a taxa média de sucesso fica em torno de 70%, superior aos melhores métodos de referência, que atingiam cerca de 30%.
o VLMFP demonstrou capacidade de generalizar para problemas novos e diferentes domínios, obtendo bons resultados em tarefas 2D e 3D, incluindo cooperação entre múltiplos robôs, e será apresentado na conferência International Conference on Learning Representations.

MIT apresentou um novo sistema híbrido para planejamento de tarefas visuais complexas. A abordagem, baseada em IA generativa, foca em navegação de robôs e em aumentar a eficiência de equipes de montagem multirobot. Em testes, o método mostrou desempenho aproximadamente duas vezes superior a técnicas existentes.

O modelo utiliza uma visão com linguagem para entender a cena de uma imagem e simular ações até atingir o objetivo. Em seguida, um segundo modelo transforma essas simulações em arquivos de linguagem de definição de domínio (PDDL) para planejamento, refinando a solução.

Os arquivos gerados alimentam um software clássico de planejamento, que computa o plano passo a passo. O sistema alcançou taxa de sucesso média de cerca de 70%, superaindo os baselines, que chegaram a aproximadamente 30%.

O que é o sistema

O método, denominado VLM-guided formal planning (VLMFP), combina duas etapas com modelos de visão e linguagem para transformar problemas visuais em entradas de planejamento formais. A dupla trabalha para converter uma imagem única em simulação e em um plano confiável de longo alcance.

Os pesquisadores utilizaram SimVLM para descrever a cena e simular ações. Um modelo maior, chamado GenVLM, gera arquivos iniciais em PDDL a partir da descrição de SimVLM. Os arquivos são encaminhados a um resolvedor PDDL para obter o plano.

A qualidade do planejamento é verificada com a comparação entre os resultados do resolvedor e a simulação, com refinamento iterativo das especificações em PDDL. O objetivo é reproduzir exatamente uma simulação de ações que leve ao objetivo.

Resultados e aplicações

O sistema demonstrou capacidade de generalizar para problemas novos, úteis em ambientes reais com mudanças rápidas. Em testes, o VLMFP atingiu cerca de 60% de sucesso em seis tarefas planárias 2D e mais de 80% em duas tarefas 3D, incluindo cooperação entre robôs e montagem.

Além disso, o método gerou planos válidos para mais de 50% dos cenários não vistos, superando consideravelmente as técnicas de referência. A equipe destaca que a abordagem combina compreensão de imagens com capacidades de planejamento formais.

Participantes e publicação

O estudo é liderado por Yilun Hao, pesquisadora graduanda da AeroAstro no MIT, e inclui Yongchao Chen, Chuchu Fan, e Yang Zhang, com participação no MIT-IBM Watson AI Lab. O trabalho será apresentado na International Conference on Learning Representations.

Perspectivas e próximos passos

Os autores pretendem ampliar o VLMFP para cenários ainda mais complexos e investigar métodos para reduzir ilusões geradas pelas VLMs. A pesquisa enfatiza a necessidade de ferramentas adequadas para resolver problemas visuais de planejamento de longo alcance. O desenvolvimento recebeu apoio parcial do MIT-IBM Watson AI Lab.