O que é o MusicGen da Meta e como usá-lo?

Com base em prompts de texto, o Meta’s MusicGen pode criar breves novas composições musicais que são opcionalmente alinhadas a uma música existente.

MusicGen é construído em um modelo Transformer, assim como a maioria dos modelos de linguagem usados hoje. MusicGen prevê o próximo segmento de uma peça musical de maneira semelhante a como um modelo de linguagem prevê as seguintes letras em uma frase. Os pesquisadores usam Meta’s EnCodec tokenizador de áudio para dividir os dados de áudio em partes menores. MusicGen é uma abordagem de estágio único rápida e eficaz que executa o processamento de token em paralelo.

Para o treinamento, a tripulação utilizou 20.000 horas de música autorizada. Eles usaram 10.000 áudio de alta qualidade gravações de um conjunto de dados interno, bem como dados de música Shutterstock e Pond5, em particular.

MusicGen: O que é?

Como a maioria dos modelos de linguagem em uso hoje, o MusicGen é construído usando um modelo Transformer. Semelhante a como um modelo de linguagem prevê as letras subsequentes em uma frase, o MusicGen prevê a próxima seção de uma peça musical.

Os dados de áudio são divididos em bits menores usando o tokenizador de áudio EnCodec da Meta pelos pesquisadores. MusicGen é um método de estágio único que processa tokens de forma rápida e eficaz em paralelo.

Juntamente com a eficácia do design e a velocidade de produção, o MusicGen se destaca em sua capacidade de gerenciar textos e sugestões musicais. A música do arquivo de áudio segue o estilo básico estabelecido no texto.

Você não pode mudar exatamente a direção da melodia para ouvi-la, digamos, em outros gêneros musicais. Ele serve apenas como um guia amplo para a geração e não é exatamente replicado na saída.

Apesar do fato de muitos outros modelos executarem geração de texto, sintetização de voz, imagens geradas e até mesmo pequenos filmes, não há muitos exemplos de produção musical de alta qualidade que tenham sido disponibilizados ao público.

MusicGen: Como usar?

Os usuários podem testar MusicGen usando o API de rosto abraçado, mas dependendo de quantos usuários estão usando ao mesmo tempo, pode levar algum tempo para produzir qualquer música. Você pode criar sua própria instância do modelo usando o site Hugging Face para obter resultados muito mais rápidos. Você pode baixar o código e executá-lo você mesmo se tiver o conhecimento e as ferramentas necessárias.

Veja como experimentar a versão online se, como a maioria das pessoas, você quiser:

Lançar um navegador da web.
Visite a página de rosto abraçado.
No canto superior direito, escolha Espaços.
Procurar “MusicGen” na caixa.
Localize aquele que Facebook Publicados.
Na caixa à esquerda, digite seu prompt.
Escolher “Gerar”.

Isso é tudo que você precisa saber!

MusicGen bate MusicLM por um fio de cabelo

Três tamanhos distintos de modelo—300 milhões (300M), 1,5 bilhão (1,5B), e 3,3 bilhões (3.3B) — foram testados pelos autores do estudo. O 1.5 bilhoes O modelo de parâmetro foi considerado o melhor pelos humanos, mas eles descobriram que os modelos maiores geravam sons de maior qualidade. Por outro lado, o 3,3 bilhões modelo de parâmetro executa mais corretamente ao combinar a entrada de texto com a saída de áudio.

MusicGen pontua melhor em medidas objetivas e subjetivas que medem quão bem a música combina com as palavras e quão crível a composição é comparada a outros modelos musicais como Riffusion, Mousai, MusicLM e Noise2Music. Em geral, os modelos são um pouco melhores que o MusicLM do Google.

O código e os modelos foram disponibilizados pela Meta como código aberto no Github, e o uso comercial é permitido. Há uma demonstração em rosto abraçado.

Você sabe o que são Links Compartilhados do ChatGPT?

Source: O que é o MusicGen da Meta e como usá-lo?