- Google está testando “Beam video agents” com Sophie, uma IA que pode falar várias línguas, enxergar o ambiente e executar funções do Google.
- Sophie não é 3D nem um personagem completo; é um chatbot que responde em blocos de texto, com acenos de cabeça e expressões limitadas.
- O demonstração faz parte da experiência para o Google I/O, incluindo a possibilidade de gerar imagens generativas e ler conteúdos como papel ou celular.
- Foram anunciadas chamadas em grupo no Beam, com áudio posicional e integração com Google Meet; o dispositivo HP Dimension custa 25 mil dólares.
- O uso ainda é experimental, sem data de lançamento definida; o objetivo é explorar aplicações em ambientes de trabalho, lojas e escolas.
O Google mostrou nesta semana, em seus laboratórios de Mountain View, um avanço experimental na interação com IA por meio de vídeo. Chamada Sophie, a agente de IA em teste é apresentada como capaz de ver, falar em múltiplos idiomas e executar tarefas simples de busca e assistência, como mapear locais ou verificar o tempo. A demonstração faz parte de uma linha de pesquisa associada ao Google Beam.
A equipe responsável pelo Beam detalha que Sophie é uma das primeiras tentativas de integrar IA conversacional a uma interface de avatar, com foco na experiência de usuário. O projeto é orientado para explorar como a IA pode atuar como interlocutora em tempo real, mantendo uma presença visual na tela. O demo foi preparado para o público do Google I/O, segundo os organizadores.
O ambiente de teste fica nos laboratórios do Google, em Mountain View. O objetivo é avaliar como uma interface com rosto computacional e linguagem natural pode tornar a comunicação mais fluida em contextos corporativos, educacionais e de atendimento ao público. A empresa ressalva que Sophie ainda opera com um conjunto limitado de funções.
Sophie, por ora, não está em 3D. A agente apresenta limitações de ritmo, entonação e expressões, variando entre uma voz neutra e traços de sotaque, conforme relatado pela equipe de produto. O formato atual utiliza entrada de texto para gerar fala, e uma face com sincronização labial simples, com gestos básicos.
Além do sotaque, os planos da equipe envolvem ampliar a interatividade. Estão em estudo recursos como a criação de imagens geradas por IA, além de manter a capacidade de responder a perguntas rápidas, demonstrar habilidades de navegação e oferecer sugestões em tempo real. A apresentação também incluiu chamadas em grupo na plataforma Beam.
Outra linha de desenvolvimento envolve a integração de chamadas de áudio posicionais, para facilitar quem fala durante a reunião. Os engenheiros afirmam que a função de múltiplos participantes está sendo testada, com a ideia de manter a experiência de conferência similar a um encontro presencial. A colaboração com terceiros, como a Zoom, também está em avaliação.
As demonstrações deixam claro que o projeto ainda está em estágio experimental. A Google não definiu data de lançamento, explicando que o objetivo é entender quem pode se beneficiar dessas tecnologias e em quais cenários. Em testes internos, a Beam já utiliza hardware com várias câmeras para criar projeções volumétricas de usuários.
Durante a visita aos laboratórios, a equipe mostrou equipamentos de apoio, como braços robóticos para testar o rastreamento de cabeça e racks de placas Beam em ciclos de uso contínuo. A equipe também comentou que a representação digital de usuários e da IA reside em redes na nuvem, abrindo possibilidades de integrações com ambientes virtuais.
O convite para revisitar as instalações indica que há espaço para novas demonstrações e aperfeiçoamentos. A companhia afirma que há diversos recursos ainda não exibidos ao público que podem expandir a aplicação de Beam em futuras iniciativas.
Entre na conversa da comunidade