Em Alta NotíciasFutebolPolíticaBrasileconomia

Converse com o Telinha

Telinha
Oi! Posso responder perguntas apenas com base nesta matéria. O que você quer saber?

Nova abordagem melhora planejamento de tarefas visuais complexas

Sistema híbrido combina visão‑linguagem e planejamento formal para gerar planos de longo alcance com sucesso de cerca de setenta por cento, mesmo em cenários não vistos

A new AI-driven system generates plans for long-term, complex tasks about twice as well as some existing methods. Researchers evaluated their system by seeing how well it could create plans to accomplish objectives in six 2D grid-worlds, like those shown here.
0:00
Carregando...
0:00
  • pesquisadores do MIT desenvolveram um sistema de planejamento visual chamado VLMFP, que usa IA generativa para planejar tarefas de longo prazo, como navegação de robôs.
  • o método combina dois modelos de visão e linguagem: SimVLM descreve a cena e simula ações; GenVLM transforma essas simulações em arquivos em linguagem de planejamento (PDDL) para um resolvedor formal.
  • o sistema gera, automaticamente, um conjunto de arquivos que alimentam um software clássico de planejamento, que então produz um plano passo a passo.
  • a taxa média de sucesso fica em torno de 70%, superior aos melhores métodos de referência, que atingiam cerca de 30%.
  • o VLMFP demonstrou capacidade de generalizar para problemas novos e diferentes domínios, obtendo bons resultados em tarefas 2D e 3D, incluindo cooperação entre múltiplos robôs, e será apresentado na conferência International Conference on Learning Representations.

MIT apresentou um novo sistema híbrido para planejamento de tarefas visuais complexas. A abordagem, baseada em IA generativa, foca em navegação de robôs e em aumentar a eficiência de equipes de montagem multirobot. Em testes, o método mostrou desempenho aproximadamente duas vezes superior a técnicas existentes.

O modelo utiliza uma visão com linguagem para entender a cena de uma imagem e simular ações até atingir o objetivo. Em seguida, um segundo modelo transforma essas simulações em arquivos de linguagem de definição de domínio (PDDL) para planejamento, refinando a solução.

Os arquivos gerados alimentam um software clássico de planejamento, que computa o plano passo a passo. O sistema alcançou taxa de sucesso média de cerca de 70%, superaindo os baselines, que chegaram a aproximadamente 30%.

O que é o sistema

O método, denominado VLM-guided formal planning (VLMFP), combina duas etapas com modelos de visão e linguagem para transformar problemas visuais em entradas de planejamento formais. A dupla trabalha para converter uma imagem única em simulação e em um plano confiável de longo alcance.

Os pesquisadores utilizaram SimVLM para descrever a cena e simular ações. Um modelo maior, chamado GenVLM, gera arquivos iniciais em PDDL a partir da descrição de SimVLM. Os arquivos são encaminhados a um resolvedor PDDL para obter o plano.

A qualidade do planejamento é verificada com a comparação entre os resultados do resolvedor e a simulação, com refinamento iterativo das especificações em PDDL. O objetivo é reproduzir exatamente uma simulação de ações que leve ao objetivo.

Resultados e aplicações

O sistema demonstrou capacidade de generalizar para problemas novos, úteis em ambientes reais com mudanças rápidas. Em testes, o VLMFP atingiu cerca de 60% de sucesso em seis tarefas planárias 2D e mais de 80% em duas tarefas 3D, incluindo cooperação entre robôs e montagem.

Além disso, o método gerou planos válidos para mais de 50% dos cenários não vistos, superando consideravelmente as técnicas de referência. A equipe destaca que a abordagem combina compreensão de imagens com capacidades de planejamento formais.

Participantes e publicação

O estudo é liderado por Yilun Hao, pesquisadora graduanda da AeroAstro no MIT, e inclui Yongchao Chen, Chuchu Fan, e Yang Zhang, com participação no MIT-IBM Watson AI Lab. O trabalho será apresentado na International Conference on Learning Representations.

Perspectivas e próximos passos

Os autores pretendem ampliar o VLMFP para cenários ainda mais complexos e investigar métodos para reduzir ilusões geradas pelas VLMs. A pesquisa enfatiza a necessidade de ferramentas adequadas para resolver problemas visuais de planejamento de longo alcance. O desenvolvimento recebeu apoio parcial do MIT-IBM Watson AI Lab.

Comentários 0

Entre na conversa da comunidade

Os comentários não representam a opinião do Portal Tela; a responsabilidade é do autor da mensagem. Conecte-se para comentar

Veja Mais