Meta, a gigante da tecnologia conhecida por moldar o metaverso, revelou recentemente um avanço notável em inteligência artificial: Emu AI, abreviatura de Universo de mídia expressiva.

Este modelo de IA de ponta está preparado para revolucionar o processo de geração de imagens a partir de descrições textuais.

Emu IA
Emu AI tem o potencial de transformar completamente a forma como as imagens são criadas a partir de descrições textuais (Crédito da imagem)

Ajuste de qualidade com Emu AI

No centro da engenhosidade de Emu está uma técnica conhecida como “ajuste de qualidade”. Esta abordagem inovadora aumenta dramaticamenteÉ o apelo visual das imagens produzidas por modelos de texto para imagem de IA. Os resultados não são apenas visualmente impressionantes, mas também notavelmente fiéis ao texto fornecido.

Em seu extenso esforço de pesquisa, a equipe de IA da Meta embarcou em uma jornada que começou com o pré-treinamento de um modelo de difusão latente. Esta fase inicial envolveu um conjunto de dados colossal compreendendo impressionantes 1,1 bilhão de pares de imagem-texto. No entanto, o verdadeiro avanço surgiu durante a fase de ajuste fino, onde o sistema passou por treinamento em uma seleção com curadoria de apenas 2.000 imagens meticulosamente escolhidas e de alta qualidade.

Mesclando tecnologia com experiência humana

Este processo, descrito como encontrar “agulhas fotogênicas em um palheiro” combina tecnologia de ponta com o toque humano indispensável. O conjunto de dados inicial era extenso, capturando bilhões de imagens. No entanto, foi através uma série de filtros automáticos que esse tesouro de imagens foi refinado. Fatores como conteúdo ofensivo, alinhamento imagem-texto, e sobreposição de texto foram examinados. No entanto, as limitações da filtragem automatizada eram aparentes, levando à inclusão crítica de anotadores humanos.

Anotadores, variando de generalistas a especialistas, desempenharam um papel fundamental no processo de seleção. Seus olhos perspicazes garantiram que apenas o crème de la crème – as imagens que transcendiam ‘bom’ alcançar ‘excepcional’ status – fez o corte final. No fim, restaram apenas 2.000 imagens, cada um possuindo um fascínio inegável.

Emu IA
A emu, uma ave conhecida por sua natureza incomum e que chama a atenção, é homenageada com o apelido de Emu AI (Crédito da imagem)

Um apelido de distinção

A escolha de ‘Emu’ como apelido para este modelo inovador é simbólico. É uma homenagem ao emu, um pássaro conhecido por sua natureza distinta e atraente. Esta escolha reflecte a capacidade da Emu de capturar a atenção e se destacar no campo da geração de imagens.

O triunfo da Emu AI sobre o que há de mais moderno

A habilidade do Emu AI vai além do domínio das configurações fotorrealistas, pois se destaca até mesmo em gerando esboços e desenhos animados. Avaliações comparativas com o modelo SDXL1.0 de última geração produziu resultados notáveis. A Emu surgiu como a escolha preferida, com um peso significativo Taxa de preferência de 68,4%para apelo visual no benchmark PartiPrompts, e um ainda mais impressionante Taxa de preferência de 71,3% em seu benchmark Open User Input.

Os pesquisadores da Meta atribuem o desempenho excepcional do Emu não apenas à arquitetura do modelo, mas também, principalmente, ao a qualidade e a diversidade dos dados utilizados para o ajuste fino. Surpreendentemente, o impacto apenas 100 imagens de treinamento de alta qualidade nas capacidades de geração da Emu AI foi substancial. Isto sublinha a potência de um conjunto selecionado de exemplos exemplares no alinhamento da criatividade da IA ​​com a estética humana.

A arte multifacetada da Emu

Uma das características mais louváveis ​​do Emu é a sua versatilidade. Demonstra a capacidade de retratar uma vasta gama de conceitos, variando de retratos para paisagens arrebatadoras e até mesmo arte abstrata. Esta versatilidade posiciona a Emu como uma ferramenta poderosa para artistas, designers, e criadores através de um espectro de disciplinas visuais.

Emu IA
Emu AI marca um passo importante para Meta na criação de IA que transforma ideias sem esforço em conteúdo visualmente cativante (Crédito da imagem)

Pioneirismo no futuro da criatividade baseada em IA

Emu representa um salto significativo para Meta em direção à IA que pode perfeitamente transforme ideias em conteúdo visualmente cativante. Ele serve como uma prova do valor da curadoria meticulosa em conjuntos de dados de aprendizado de máquina. Além disso, proporciona um vislumbre tentador de um futuro onde o texto por si só pode ser suficiente para materializar as nossas visões imaginativas.

A funcionalidade do Emu estará em breve acessível através do chatbot Meta AI, prometendo democratizar a criação de conteúdo visualmente deslumbrante em uma infinidade de aplicativos e dispositivos.

Crédito da imagem em destaque: meta

Source: Emu AI junta-se à corrida GenAI, de forma bastante espetacular