Voxtral tem lançado Novos modelos de entendimento de fala de código aberto, com o objetivo de revolucionar a interação humano-computador, tornando as interfaces de voz mais confiáveis e acessíveis. Esses modelos de última geração, disponíveis em variantes de 24b e 3b sob a licença Apache 2.0, oferecem recursos excepcionais de transcrição e compreensão profunda, abordando as limitações dos sistemas proprietários e de código aberto atuais.
A voxtral preenche a lacuna entre APIs fechadas e de alto custo e alternativas de código aberto menos precisas. Ele fornece precisão de ponta e entendimento semântico nativo a menos da metade do preço de APIs comparáveis. Os modelos suportam áudio de formato longo até 30 minutos para transcrição e 40 minutos para entender, com uma duração de 32 mil token. Eles também incluem perguntas e respostas embutidas e resumo, detecção automática de idiomas para idiomas amplamente utilizados (inglês, espanhol, francês, português, hindi, alemão, holandês, italiano) e chamado de função direta dos comandos de voz.

Nos benchmarks, o Voxtral supera significativamente os principais modelos de código aberto como o Whisper Large-V3 e compete fortemente com o GPT-4O Mini Transcrib e Gemini 2.5 Flash na transcrição da fala e na compreensão do áudio. Por exemplo, o Voxtral Mini Transcribe é mais econômico do que o Openai Whisper, enquanto o Voxtral Small corresponde ao desempenho do Elevenlabs Scribe a um preço mais baixo. Os modelos também mantêm recursos fortes de compreensão de texto a partir de seu pequeno backbone Mistral 3.1.
Os modelos Voxtral estão disponíveis para download local em Hugging Face e via API, com preços a partir de US $ 0,001 por minuto. Os recursos corporativos incluem implantação privada, ajuste fino específico do domínio e recursos avançados de contexto, como identificação de alto-falantes e detecção de emoções. As atualizações futuras incluirão segmentação de alto-falantes, marcas de áudio e registro de data e hora no nível das palavras, melhorando ainda mais sua utilidade.
Source: Lança Mistral Voxtral: modelos de entendimento de fala de código aberto








