- pesquisadores do MIT desenvolveram um sistema de planejamento visual chamado VLMFP, que usa IA generativa para planejar tarefas de longo prazo, como navegação de robôs.
- o método combina dois modelos de visão e linguagem: SimVLM descreve a cena e simula ações; GenVLM transforma essas simulações em arquivos em linguagem de planejamento (PDDL) para um resolvedor formal.
- o sistema gera, automaticamente, um conjunto de arquivos que alimentam um software clássico de planejamento, que então produz um plano passo a passo.
- a taxa média de sucesso fica em torno de 70%, superior aos melhores métodos de referência, que atingiam cerca de 30%.
- o VLMFP demonstrou capacidade de generalizar para problemas novos e diferentes domínios, obtendo bons resultados em tarefas 2D e 3D, incluindo cooperação entre múltiplos robôs, e será apresentado na conferência International Conference on Learning Representations.
MIT apresentou um novo sistema híbrido para planejamento de tarefas visuais complexas. A abordagem, baseada em IA generativa, foca em navegação de robôs e em aumentar a eficiência de equipes de montagem multirobot. Em testes, o método mostrou desempenho aproximadamente duas vezes superior a técnicas existentes.
O modelo utiliza uma visão com linguagem para entender a cena de uma imagem e simular ações até atingir o objetivo. Em seguida, um segundo modelo transforma essas simulações em arquivos de linguagem de definição de domínio (PDDL) para planejamento, refinando a solução.
Os arquivos gerados alimentam um software clássico de planejamento, que computa o plano passo a passo. O sistema alcançou taxa de sucesso média de cerca de 70%, superaindo os baselines, que chegaram a aproximadamente 30%.
O que é o sistema
O método, denominado VLM-guided formal planning (VLMFP), combina duas etapas com modelos de visão e linguagem para transformar problemas visuais em entradas de planejamento formais. A dupla trabalha para converter uma imagem única em simulação e em um plano confiável de longo alcance.
Os pesquisadores utilizaram SimVLM para descrever a cena e simular ações. Um modelo maior, chamado GenVLM, gera arquivos iniciais em PDDL a partir da descrição de SimVLM. Os arquivos são encaminhados a um resolvedor PDDL para obter o plano.
A qualidade do planejamento é verificada com a comparação entre os resultados do resolvedor e a simulação, com refinamento iterativo das especificações em PDDL. O objetivo é reproduzir exatamente uma simulação de ações que leve ao objetivo.
Resultados e aplicações
O sistema demonstrou capacidade de generalizar para problemas novos, úteis em ambientes reais com mudanças rápidas. Em testes, o VLMFP atingiu cerca de 60% de sucesso em seis tarefas planárias 2D e mais de 80% em duas tarefas 3D, incluindo cooperação entre robôs e montagem.
Além disso, o método gerou planos válidos para mais de 50% dos cenários não vistos, superando consideravelmente as técnicas de referência. A equipe destaca que a abordagem combina compreensão de imagens com capacidades de planejamento formais.
Participantes e publicação
O estudo é liderado por Yilun Hao, pesquisadora graduanda da AeroAstro no MIT, e inclui Yongchao Chen, Chuchu Fan, e Yang Zhang, com participação no MIT-IBM Watson AI Lab. O trabalho será apresentado na International Conference on Learning Representations.
Perspectivas e próximos passos
Os autores pretendem ampliar o VLMFP para cenários ainda mais complexos e investigar métodos para reduzir ilusões geradas pelas VLMs. A pesquisa enfatiza a necessidade de ferramentas adequadas para resolver problemas visuais de planejamento de longo alcance. O desenvolvimento recebeu apoio parcial do MIT-IBM Watson AI Lab.
Entre na conversa da comunidade