Os cientistas criaram uma nova rede neural, que pode usar IA para cantar a partir de amostras de fala. O algoritmo dos desenvolvedores chineses pode sintetizar uma gravação do canto de uma pessoa com base em uma gravação da fala usual da pessoa, ou executá-lo ao contrário e sintetizar a fala baseada no canto. Um artigo que descreve o desenvolvimento, treinamento e teste de um algoritmo foi Publicados em arXiv.org.
Nos últimos anos, o desenvolvimento de algoritmos de rede neural para síntese de voz, como o WaveNet, permitiu a criação de sistemas que são difíceis de distinguir de pessoas reais. Por exemplo, em 2018, o Google apresentou um assistente de voz para reservar assentos que não só falam de forma realista, mas também inserem sons humanos que tornam a fala verificável, por exemplo, “um”. Como resultado, a empresa também teve que ensinar o algoritmo para avisar no início de uma conversa que não se trata de uma pessoa.
Como no caso de outros algoritmos de rede neural, o sucesso dos sistemas de síntese de voz não está amplamente relacionado à sua arquitetura, mas principalmente à grande quantidade de dados disponíveis para treinamento. A criação de um sistema para sintetizar o canto é uma tarefa aparentemente semelhante, mas na verdade é muito mais complicada devido à quantidade significativamente menor de dados disponíveis.
Muitos desenvolvedores que trabalham em sistemas de criação de cantos recentemente tomaram o caminho de reduzir o volume de amostras de canto para ensinar o algoritmo, e agora um grupo de pesquisadores chineses liderados por Dong Yu da Tencent criou um sistema que pode criar gravações de áudio de canto realistas a partir da fala amostras.
O algoritmo é baseado no desenvolvimento anterior da Tencent, a rede neural DurIAN, projetada para sintetizar videos com um apresentador falante com base no texto. Agora eles colocam uma nova unidade de reconhecimento de fala na frente do DuarIAN, que cria fonemas com base na amostra de áudio.
Os autores treinaram o algoritmo em dois conjuntos de dados proprietários consistindo em uma hora e meia de canto e 28 horas de fala. Após o treinamento, eles testaram o algoritmo em 14 voluntários que avaliaram o realismo do canto sintetizado e a similaridade. Como resultado, um dos testes obteve 3,8 pontos de realismo e 3,65 pontos de semelhança. Os autores Publicados amostras do trabalho da rede neural.