A empresa francesa de IA Mistral lançou um modelo de conversão de texto em fala de código aberto chamado Voxtral TTS, projetado para assistentes de IA de voz e aplicativos empresariais, como suporte ao cliente. Este desenvolvimento posiciona a Mistral diretamente contra concorrentes, incluindo ElevenLabs, Deepgram e OpenAI.

Voxtral TTS oferece suporte a nove idiomas: inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe. O modelo visa atender às demandas dos clientes por um modelo de voz flexível adequado para vários dispositivos de ponta, fornecendo uma solução econômica que mantém alto desempenho.

Pierre Stock, vice-presidente de operações científicas da Mistral AI, disse: “Nossos clientes têm pedido um modelo de fala. Então, construímos um modelo de fala de tamanho pequeno que pode caber em um smartwatch, smartphone, laptop ou outros dispositivos de ponta”. Ele enfatizou que, embora o modelo tenha um preço competitivo, ele oferece desempenho de última geração.

O modelo permite a adaptação de vozes customizadas com amostras de menos de cinco segundos. Ele captura características sutis, como sotaques e irregularidades na fala. Além disso, o Voxtral TTS, baseado no Ministral 3B, pode alternar idiomas sem perder a qualidade da voz, tornando-o adequado para tradução e dublagem em tempo real.

As métricas de desempenho do modelo são notáveis. Ele tem um tempo para o primeiro áudio (TTFA) de 90 milissegundos para uma amostra de 10 segundos de 500 caracteres e um fator de tempo real (RTF) de 6x, o que significa que pode renderizar um clipe em aproximadamente 1,6 segundos.

Este lançamento segue a introdução de dois modelos de transcrição pela Mistral no início de 2023, voltados para processamento em lote grande e casos de uso em tempo real de baixa latência. Voxtral TTS faz parte da estratégia da Mistral de fornecer um conjunto abrangente de produtos de voz para empresas.

Stock delineou planos futuros, afirmando: “Planejamos ter uma plataforma ponta a ponta que possa lidar com fluxos multimodais de entrada, incluindo áudio, texto e imagem.” Esta plataforma destina-se a potenciar a informação processada pelos sistemas em que se integra.


Crédito da imagem em destaque