- Mustafa Suleyman, o primeiro CEO de IA da Microsoft, ajustou o foco para a busca pela superinteligência com foco empresarial, após a reorganização de mid‑march.
- A reestruturação uniu equipes de empresa e consumo sob a bandeira Copilot AI; o executivo executivo vice-presidente Jacob Andreou passou a liderar engenharia, crescimento, produto e design.
- A Microsoft lançou MAI-Transcribe-1, novo modelo de transcrição que promete reduzir pela metade o custo com GPU e transcrever reuniões, legendar vídeos e analisar trocas em atendimento ao cliente, em vinte e cinco idiomas.
- O modelo foi treinado com dados humanos e transcrições automatizadas, levando em conta ruídos, áudio de baixa qualidade e fala simultânea, com gravações de salas formais e dados abertos na web.
- Além de MAI-Transcribe-1, a empresa disponibiliza MAI-Voice-1 e MAI-Image-2 no Foundry e no Microsoft AI Playground para uso comercial; o MAI-Transcribe-1 suporta formatos MP3, WAV e FLAC.
A Microsoft está reconfigurando sua estratégia de IA em torno de um objetivo de alto nível: alcançar uma forma de superinteligência voltada para negócios. O movimento acompanha uma reestruturação interna que consolidou equipes de empresa e consumo sob a bandeira Copilot AI, liberando tempo para foco em modelos avançados.
Mustafa Suleyman, recém-designado CEO de IA da companhia, diz que o objetivo é entregar valor concreto para empresas e desenvolvedores, com foco em produtividade e uso prático no dia a dia. A meta envolve evoluir do que hoje se entende por IA avançada para soluções que gerem resultados mensuráveis para clientes corporativos.
Na prática, a estratégia inclui manter Suleyman na visão de longo prazo, enquanto Jacob Andreou comanda as operações de engenharia, produto e design da área unificada. A mudança cria espaço para explorar novos modelos de IA com alcance mais amplo, num cenário de intensa concorrência com outras gigantes do setor.
Na quinta-feira, a Microsoft apresentou MAI-Transcribe-1, um modelo de transcrição que promete reduzir custos de GPU pela metade em comparação com modelos de ponta. A empresa afirma que a ferramenta pode transcrever reuniões, legendar vídeos e analisar chamadas de atendimento em 25 idiomas, mesmo em condições desafiadoras de áudio.
A Microsoft destaca que o MAI-Transcribe-1 oferece desempenho robusto em ambientes com ruído de fundo, áudio de baixa qualidade e falas sobrepostas. O treinamento combinou dados transcritos por humanos e por máquinas, incluídos em gravações de cena controlada e demais situações do cotidiano.
O novo modelo já está disponível no Foundry e no Microsoft AI Playground, ao lado dos modelos MAI-Voice-1 e MAI-Image-2. Segundo a empresa, é a primeira vez que esses modelos ficam amplamente acessíveis para uso comercial, com suporte a arquivos de áudio como MP3, WAV e FLAC.
Suleyman aponta que o desempenho decorre de uma equipe enxuta, de cerca de 10 pessoas, com um ecossistema capaz de gerenciar fornecedores, dados e ciclos de atualização. A estratégia de organização busca manter a agilidade típica de equipes pequenas em áreas de pesquisa e desenvolvimento.
Entre na conversa da comunidade