IA pode indicar onde você deixou suas chaves

MIT desenvolveu o framework de memória spatiotemporal DAAAM, permitindo que robôs formem e recordem um modelo detalhado de ambientes grandes.
O sistema combina representações 3D de mapas com descrições ricas do que o robô vê, para responder a perguntas em linguagem natural com rapidez.
Para acelerar, o DAAAM agrega objetos próximos e seleciona frames-chave, anotando várias informações em paralelo e reduzindo o tempo de processamento.
Em testes, o método ficou entre twenty-one por cento e cinquenta e três por cento mais preciso do que técnicas atuais, usando ferramentas para reduzir alucinações.
Futuramente, os pesquisadores buscam capturar eventos significativos, incluir níveis de confiança nas respostas e ampliar aplicações em manutenção, AR e assistentes de fábrica.

O MIT desenvolveu um framework de memória de longo prazo que permite a robôs formar e lembrar rapidamente um modelo mental detalhado de ambientes grandes e complexos. O método, batizado Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM), combina mapas 3D com descrições ricas do entorno. A ideia é que o robô responda perguntas em linguagem natural sobre o que vê e onde está.

O estudo, apresentado na conferência CVPR, envolve Luca Carlone, Nicolas Gorlo e Lukas Schmid. Carlone destaca que a memória espaciotemporal facilita a interação humano-robô, possibilitando que uma tarefa como buscar um componente seja executada pela voz. Gorlo liderou o trabalho de pesquisa junto a Schmid.

A proposta permite que o robô anote objetos durante a exploração, agrupando informações em regiões do mapa. Em vez de descrever um objeto isolado, o sistema gera descrições que ajudam o robô a entender contextos maiores, como a localização de um objeto dentro de um rack de bicicletas.

Como funciona a memória espaciotemporal

DAAAM associa descrições ricas às percepções do robô durante a navegação. O objetivo é transformar mapas tradicionais em mapas baseados em linguagem. Assim, o robô pode mencionar, por exemplo, que a construção Stata Center no campus tem arquitetura específica ou que uma bicicleta vermelha está com o pneu furado.

Para acelerar, o sistema agrega objetos próximos e seleciona quadros-chave para anotação. Essas imagens proporcionam descrições de vários itens de uma vez, reduzindo o tempo de processamento em aproximadamente 10 vezes. A memória é armazenada de forma organizada para fácil recuperação.

O pipeline utiliza ferramentas de recuperação que reduzem alucinações. Assim, uma pergunta sobre uma escultura vista perto de um prédio pode ser respondida com precisão em segundos. O desempenho foi entre 21% e 53% mais preciso que métodos existentes, conforme o tipo de questão.

Potenciais aplicações e próximos passos

Além da robótica, a abordagem pode beneficiar sistemas de realidade aumentada para detecção de anomalias e orientação de usuários, como caminhantes. A equipe planeja ampliar a memória para capturar eventos significativos no ambiente e incorporar níveis de confiança nas respostas.

Gorlo afirma que o objetivo é criar um agente generalista capaz de executar qualquer tarefa solicitada. O estudo recebeu financiamento parcial da Army Research Laboratory e da Office of Naval Research. Carlone está em sabático como Amazon Scholar; o artigo descreve trabalhos no MIT, sem vínculo com a empresa.

Converse com o Telinha

IA pode indicar onde você deixou suas chaves

Como funciona a memória espaciotemporal

Potenciais aplicações e próximos passos

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Converse com o Telinha

IA pode indicar onde você deixou suas chaves

Como funciona a memória espaciotemporal

Potenciais aplicações e próximos passos

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Fique por dentro das notícias do Khai Dreams