Microsoft VALL-E explicado: Uma voz DALL-E

A abordagem da Microsoft para a síntese de texto em fala, o Microsoft VALL-E, foi anunciado em um artigo publicado pela empresa. O modelo de áudio requer apenas um arquivo de áudio de 3 segundos para processar a entrada fornecida.

O Microsoft VALL-E, uma nova abordagem de modelo de linguagem para síntese de conversão de texto em fala (TTS) que utiliza códigos de codec de áudio como representações intermediárias, acaba de ser lançado pela Microsoft. Ele foi pré-treinado em 60.000 horas de dados de fala em inglês e, em seguida, exibiu habilidades de aprendizado no contexto em circunstâncias de disparo zero.

O Microsoft VALL-E pode produzir fala personalizada de alta qualidade com apenas uma gravação registrada de três segundos de um alto-falante oblíquo atuando como um estímulo acústico. Ele faz isso sem a necessidade de engenharia estrutural adicional, recursos acústicos pré-projetados ou ajustes finos. Ele suporta aprendizado contextual e abordagens TTS de disparo zero baseadas em prompt. Parece que o aumento de dados semi-supervisionados para TTS foi subutilizado porque a Microsoft usou uma quantidade significativa de dados semi-supervisionados para construir um sistema TTS generalizado na dimensão do alto-falante.

O que você pode fazer com o Microsoft VALL-E?

De acordo com os pesquisadores, o Microsoft VALL-E é um “modelo de linguagem de codec neural” que foi treinado usando códigos discretos que foram “derivados de um modelo de codec de áudio neural pré-existente”. Foi treinado em 60 mil horas de fala, o que é “centenas de vezes maior que os sistemas existentes”, segundo o comunicado. Esses exemplos são convincentes em contraste com tentativas anteriores que são obviamente robôs, embora a IA já exista há algum tempo e possa imitar realisticamente a fala humana.

O Microsoft VALL-E pode “preservar a emoção e o ambiente auditivo do falante”, de acordo com os pesquisadores do prompt. Embora impressionante, a tecnologia ainda está longe de substituir os dubladores, porque encontrar o tom e a emoção adequados durante uma apresentação é diferente. Mesmo uma versão avançada do Microsoft VALL-E não seria capaz de funcionar tão bem quanto um profissional qualificado, mas as empresas geralmente priorizam a economia em detrimento da qualidade.

Em Demonstração do GitHub da Microsoftvocê pode ouvir algumas das amostras.

Recursos do Microsoft VALL-E

Embora o Microsoft VALL-E seja muito novo, ele já possui muitos recursos.

Síntese da diversidadeObservação: como o Microsoft VALL-E gera tokens discretos usando a técnica baseada em amostragem, sua saída varia para o mesmo texto de entrada. Ele pode, portanto, sintetizar diferentes amostras de fala personalizadas usando uma variedade de sementes aleatórias.

Manutenção de ambiente acústico: O Microsoft VALL-E pode fornecer fala personalizada enquanto mantém o ambiente acústico do prompt do alto-falante. Em comparação com a linha de base, o VALL-E é treinado em um grande conjunto de dados com mais variáveis acústicas. O áudio e as transcrições foram produzidos usando amostras do conjunto de dados de Fisher.

Manutenção da emoção do palestrante: Usando o banco de dados de vozes emocionais como um recurso para, por exemplo, prompts de áudio, o Microsoft VALL-E pode criar fala personalizada enquanto mantém o teor emocional do prompt do locutor. As abordagens tradicionais treinam um modelo correlacionando a fala com a transcrição e um rótulo de emoção em um conjunto de dados TTS emocional supervisionado. O VALL-E pode manter a emoção no prompt mesmo em uma situação de tiro zero.

O Microsoft VALL-E ainda tem problemas com estrutura de modelo, cobertura de dados e robustez de síntese.

Como funciona o Microsoft WALL-E?

A Microsoft usou o LibriLight, uma biblioteca de áudio criada pela Meta, para treinar as habilidades de síntese do VALL-voice E. A maioria das 60.000 horas de fala em inglês são retiradas dos audiolivros de domínio público LibriVox e são faladas por mais de 7.000 pessoas diferentes. A voz na amostra de três segundos deve se parecer muito com uma voz nos dados de treinamento para VALL-E para obter um resultado satisfatório.

A Microsoft oferece dezenas de exemplos de áudio do modelo AI em ação na página de exemplo VALL-E. O “Speaker Prompt”, uma das amostras, são os três segundos de áudio que o VALL-E é instruído a imitar. O “Ground Truth” é um trecho previamente gravado daquele alto-falante que é usado como referência (mais ou menos como o “controle” no experimento). A amostra “VALL-E” é a saída do modelo VALL-E, e a amostra “Baseline” é um exemplo de síntese produzida por uma abordagem tradicional de síntese de texto para fala.

Enquanto o Microsoft VALL-E fez história como o primeiro, mas certamente não o último, grande projeto de IA de 2023, a gigante da tecnologia apoiou financeiramente o OpenAI Point-E, que foi publicado nas últimas semanas de 2022.

Source: Microsoft VALL-E explicado: Uma voz DALL-E