- MIT desenvolveu o framework de memória spatiotemporal DAAAM, permitindo que robôs formem e recordem um modelo detalhado de ambientes grandes.
- O sistema combina representações 3D de mapas com descrições ricas do que o robô vê, para responder a perguntas em linguagem natural com rapidez.
- Para acelerar, o DAAAM agrega objetos próximos e seleciona frames-chave, anotando várias informações em paralelo e reduzindo o tempo de processamento.
- Em testes, o método ficou entre twenty-one por cento e cinquenta e três por cento mais preciso do que técnicas atuais, usando ferramentas para reduzir alucinações.
- Futuramente, os pesquisadores buscam capturar eventos significativos, incluir níveis de confiança nas respostas e ampliar aplicações em manutenção, AR e assistentes de fábrica.
O MIT desenvolveu um framework de memória de longo prazo que permite a robôs formar e lembrar rapidamente um modelo mental detalhado de ambientes grandes e complexos. O método, batizado Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM), combina mapas 3D com descrições ricas do entorno. A ideia é que o robô responda perguntas em linguagem natural sobre o que vê e onde está.
O estudo, apresentado na conferência CVPR, envolve Luca Carlone, Nicolas Gorlo e Lukas Schmid. Carlone destaca que a memória espaciotemporal facilita a interação humano-robô, possibilitando que uma tarefa como buscar um componente seja executada pela voz. Gorlo liderou o trabalho de pesquisa junto a Schmid.
A proposta permite que o robô anote objetos durante a exploração, agrupando informações em regiões do mapa. Em vez de descrever um objeto isolado, o sistema gera descrições que ajudam o robô a entender contextos maiores, como a localização de um objeto dentro de um rack de bicicletas.
Como funciona a memória espaciotemporal
DAAAM associa descrições ricas às percepções do robô durante a navegação. O objetivo é transformar mapas tradicionais em mapas baseados em linguagem. Assim, o robô pode mencionar, por exemplo, que a construção Stata Center no campus tem arquitetura específica ou que uma bicicleta vermelha está com o pneu furado.
Para acelerar, o sistema agrega objetos próximos e seleciona quadros-chave para anotação. Essas imagens proporcionam descrições de vários itens de uma vez, reduzindo o tempo de processamento em aproximadamente 10 vezes. A memória é armazenada de forma organizada para fácil recuperação.
O pipeline utiliza ferramentas de recuperação que reduzem alucinações. Assim, uma pergunta sobre uma escultura vista perto de um prédio pode ser respondida com precisão em segundos. O desempenho foi entre 21% e 53% mais preciso que métodos existentes, conforme o tipo de questão.
Potenciais aplicações e próximos passos
Além da robótica, a abordagem pode beneficiar sistemas de realidade aumentada para detecção de anomalias e orientação de usuários, como caminhantes. A equipe planeja ampliar a memória para capturar eventos significativos no ambiente e incorporar níveis de confiança nas respostas.
Gorlo afirma que o objetivo é criar um agente generalista capaz de executar qualquer tarefa solicitada. O estudo recebeu financiamento parcial da Army Research Laboratory e da Office of Naval Research. Carlone está em sabático como Amazon Scholar; o artigo descreve trabalhos no MIT, sem vínculo com a empresa.
Entre na conversa da comunidade