À medida que as tecnologias de IA evoluem rapidamente e ultrapassam os limites, o novo projeto da Microsoft, VASA-1, pode transformar fotos em vídeos e adicionar-lhes sons realistas. Sim, você ouviu direito.

Esta tecnologia interessante usa uma foto de retrato e um arquivo de áudio para criar um vídeo de rosto falante com sincronização labial, expressões faciais e movimentos de cabeça realistas.

O poder prometido do VASA-1 levanta algumas preocupações que fizeram a Microsoft hesitar em liberá-lo. Aqui está o que sabemos…

Habilidades e impacto do VASA-1

A característica mais marcante VASA-1 é sua capacidade de produzir animações faciais realistas. Ao contrário dos modelos AI anteriores, o VASA-1 oferece uma aparência mais natural, minimizando erros ao redor da boca. Isso poderia fazer com que vídeos deepfake mais realistas se espalhassem mais amplamente online.

Com a nova tecnologia da Microsoft, resultados realistas e de alta qualidade são possíveis. Os vídeos de demonstração da empresa fornecem exemplos impressionantes que confundem os limites entre a realidade e o conteúdo gerado por IA.

Será interessante ver o que o Sora da OpenAI e o VASA-1 da Microsoft têm reservado para nós nos próximos anos…

A empresa explicou em uma postagem no blog o seguinte:

Nota: todas as imagens de retratos nesta página são identidades virtuais e inexistentes geradas por StyleGAN2 ou DALL·E-3 (exceto Mona Lisa). Estamos explorando a geração de habilidades emocionais visuais para personagens virtuais e interativos que NÃO imitam nenhuma pessoa do mundo real. Esta é apenas uma demonstração de pesquisa e não há planos para lançar quaisquer produtos ou APIs.

Áreas de uso do VASA-1

Os usos do VASA-1 são vastos e podem ultrapassar os limites da criatividade. Por exemplo, pode ser usado para oferecer experiências de jogo aprimoradas. Tornar os personagens do jogo mais realistas com movimentos labiais sincronizados e expressões faciais expressivas pode transformar o mundo dos jogos. Mesmo agora, os personagens dos jogos são incrivelmente otimizados. No entanto, com esta tecnologia, é provável que melhorem ainda mais.

Por outro lado, também poderiam ser criados avatares virtuais personalizados. Os usuários podem fazer a diferença nas redes sociais criando avatares realistas que refletem sua própria aparência. A indústria cinematográfica também poderá ver mudanças surpreendentes. VASA-1 poderia ultrapassar os limites da produção cinematográfica, criando close-ups realistas, expressões faciais e sequências de diálogo naturais.

Como funciona a tecnologia e o futuro

A Microsoft afirma que o VASA-1 oferece uma nova estrutura para a criação de rostos falantes realistas e animação de personagens virtuais. A tecnologia visa alcançar resultados impressionantes usando apenas uma foto de retrato e um arquivo de áudio. No entanto, o uso generalizado desta tecnologia levanta algumas preocupações. Em particular, o potencial de uso indevido de tecnologias como o deepfake leva a Microsoft a ser cautelosa.

Um dos desafios que a Microsoft enfrenta é equilibrar inovação com responsabilidade. Reconhecendo os benefícios potenciais que a tecnologia traz, a empresa adota uma abordagem responsável ao desenvolvimento e tenta informar os utilizadores sobre os perigos potenciais. Desta forma, pretende manter sob controle a difusão de uma tecnologia poderosa como a VASA-1, garantindo a segurança geral da sociedade.

Crédito da imagem em destaque: Microsoft

Source: VASA-1 da Microsoft dando vida às fotos: tudo o que você precisa saber