A Microsoft acaba de disponibilizar três modelos de inteligência artificial desenvolvidos internamente – MAI-Transscribe-1, MAI-Voice-1 e MAI-Image-2 – em sua plataforma Microsoft Foundry. Uma ofensiva deverá permitir competir melhor com a OpenAI e o Google.

Durante anos, a Microsoft construiu seu assistente Copilot e seus serviços conectados em modelos OpenAI, principalmente na família GPT. Esta dependência, assumida durante muito tempo, parece agora ter acabado. Desde agosto de 2025, a divisão de IA da Microsoft (MAI), liderada por Mustafa Suleyman – cofundador da DeepMind e ex-CEO da Inflection – vem desenvolvendo e comercializando seus próprios modelos fundamentais.
Em 1º de abril de 2026, a empresa formalizou a disponibilização de três novas tecnologias internas no Microsoft Foundry, sua plataforma destinada a desenvolvedores de aplicações de IA.
Modelos mais adequados
Estes três modelos – MAI-Transscribe-1 para reconhecimento de voz, MAI-Voice-1 para síntese de fala e MAI-Image-2 para geração de imagens – não são simples protótipos de laboratório. Segundo a Microsoft, eles já alimentam vários produtos de consumo e profissionais, incluindo Copilot, Bing, PowerPoint e Azure Speech. A sua abertura a desenvolvedores externos através do Foundry é um passo adicional na estratégia de capacitação tecnológica da empresa.
MAI-Transscribe-1: reconhecimento de fala a custo reduzido
Primeiro modelo de transcrição desenvolvido inteiramente internamente pela Microsoft, o MAI-Transscribe-1 suporta até 25 idiomas e visa um nível de precisão descrito como empresarial pela marca. Segundo a Microsoft, o custo de uso da GPU seria aproximadamente 50% menor do que alternativas comparáveis no mercado – uma afirmação que ainda precisa ser verificada em condições reais de operação.
Tecnicamente, você deve saber que o modelo é baseado em uma arquitetura que combina um codificador de áudio bidirecional e um decodificador de texto do tipo transformação. Aceita arquivos de áudio nos formatos MP3, WAV e FLAC, com tamanho máximo de 200 MB por arquivo. Em última análise, de acordo com o fabricante, o MAI-Transcribe-1 também deve suportar diarização (identificação do locutor), viés contextual para termos especializados e processamento de streaming em tempo real – recursos que são hoje a força de soluções como o Whisper da OpenAI ou as ferramentas Speech-to-Text do Google. Quando se trata de preço, a Microsoft exibe um preço de US$ 0,36 por hora de áudio transcrito.
Segundo a Microsoft, o MAI-Transcribe-1 já está integrado ao Copilot Voice Mode e à função de ditado do Copilot.
MAI-Voice-1: síntese de voz com velocidade reivindicada
O MAI-Voice-1, modelo de geração de voz da Microsoft, já havia sido apresentado em agosto de 2025 quando foram anunciados os primeiros modelos MAI. Sua principal característica é a capacidade de produzir um minuto inteiro de áudio em menos de um segundo, em uma única GPU. No entanto, vários testes independentes parecem mostrar que se trata de cerca de três a quatro segundos por extracção, o que, no entanto, continua a ser uma velocidade superior à da grande maioria das soluções concorrentes disponíveis no mercado.
O modelo atualmente alimenta os recursos Audio Expressions e Podcast do Copilot, bem como o Copilot Daily. Agora está disponível para desenvolvedores no Foundry a uma taxa relatada de US$ 22 por milhão de caracteres. MAI-Voice-1 enfrenta diretamente ElevenLabs, OpenAI TTS ou Google Text-to-Speech.
MAIO-Imagem-2: geração de imagens chega ao top 3
O terceiro modelo anunciado, MAI-Image-2, é a segunda geração do mecanismo proprietário de criação de imagens da Microsoft. Seu antecessor, MAI-Image-1 — lançado em outubro de 2025 e integrado ao Bing Image Creator e Copilot em novembro — estreou no top 10 do ranking LMArena. Mas o MAI-Image-2 se sai ainda melhor. Com efeito, ainda segundo a Microsoft, o modelo começou em terceiro lugar no ranking Arena.ai para famílias de modelos de imagem, ranking que é, recorde-se, estabelecido por votação humana cega.
O modelo foi projetado para produzir visuais fotorrealistas, com atenção especial à iluminação, texturas e detalhes finos. Segundo a marca, ele foi desenvolvido com seleção criteriosa de dados de treinamento, incluindo práticas amigáveis aos direitos autorais para minimizar preconceitos e repetições visuais. Com o Bing Image Creator, os usuários agora podem escolher entre MAI-Image-2, DALL-E 3 e GPT-4o da OpenAI — uma possibilidade que demonstra a dupla postura da Microsoft, sendo ao mesmo tempo fornecedora de tecnologia própria e plataforma de integração multimodelo.
Apesar de tudo isso, a Microsoft mantém a parceria com a OpenAI, pelo menos até 2032, segundo Suleyman.