Meta, a gigante da tecnologia conhecida por moldar o metaverso, revelou recentemente um avanço notável em inteligência artificial: Emu AI, abreviatura de Universo de mídia expressiva.
Este modelo de IA de ponta está preparado para revolucionar o processo de geração de imagens a partir de descrições textuais.
Ajuste de qualidade com Emu AI
No centro da engenhosidade de Emu está uma técnica conhecida como “ajuste de qualidade”. Esta abordagem inovadora aumenta dramaticamenteÉ o apelo visual das imagens produzidas por modelos de texto para imagem de IA. Os resultados não são apenas visualmente impressionantes, mas também notavelmente fiéis ao texto fornecido.
Em seu extenso esforço de pesquisa, a equipe de IA da Meta embarcou em uma jornada que começou com o pré-treinamento de um modelo de difusão latente. Esta fase inicial envolveu um conjunto de dados colossal compreendendo impressionantes 1,1 bilhão de pares de imagem-texto. No entanto, o verdadeiro avanço surgiu durante a fase de ajuste fino, onde o sistema passou por treinamento em uma seleção com curadoria de apenas 2.000 imagens meticulosamente escolhidas e de alta qualidade.
Mesclando tecnologia com experiência humana
Este processo, descrito como encontrar “agulhas fotogênicas em um palheiro” combina tecnologia de ponta com o toque humano indispensável. O conjunto de dados inicial era extenso, capturando bilhões de imagens. No entanto, foi através uma série de filtros automáticos que esse tesouro de imagens foi refinado. Fatores como conteúdo ofensivo, alinhamento imagem-texto, e sobreposição de texto foram examinados. No entanto, as limitações da filtragem automatizada eram aparentes, levando à inclusão crítica de anotadores humanos.
Anotadores, variando de generalistas a especialistas, desempenharam um papel fundamental no processo de seleção. Seus olhos perspicazes garantiram que apenas o crème de la crème – as imagens que transcendiam ‘bom’ alcançar ‘excepcional’ status – fez o corte final. No fim, restaram apenas 2.000 imagens, cada um possuindo um fascínio inegável.
Um apelido de distinção
A escolha de ‘Emu’ como apelido para este modelo inovador é simbólico. É uma homenagem ao emu, um pássaro conhecido por sua natureza distinta e atraente. Esta escolha reflecte a capacidade da Emu de capturar a atenção e se destacar no campo da geração de imagens.
O triunfo da Emu AI sobre o que há de mais moderno
A habilidade do Emu AI vai além do domínio das configurações fotorrealistas, pois se destaca até mesmo em gerando esboços e desenhos animados. Avaliações comparativas com o modelo SDXL1.0 de última geração produziu resultados notáveis. A Emu surgiu como a escolha preferida, com um peso significativo Taxa de preferência de 68,4% para apelo visual no benchmark PartiPrompts, e um ainda mais impressionante Taxa de preferência de 71,3% em seu benchmark Open User Input.
Os pesquisadores da Meta atribuem o desempenho excepcional do Emu não apenas à arquitetura do modelo, mas também, principalmente, ao a qualidade e a diversidade dos dados utilizados para o ajuste fino. Surpreendentemente, o impacto apenas 100 imagens de treinamento de alta qualidade nas capacidades de geração da Emu AI foi substancial. Isto sublinha a potência de um conjunto selecionado de exemplos exemplares no alinhamento da criatividade da IA com a estética humana.
A arte multifacetada da Emu
Uma das características mais louváveis do Emu é a sua versatilidade. Demonstra a capacidade de retratar uma vasta gama de conceitos, variando de retratos para paisagens arrebatadoras e até mesmo arte abstrata. Esta versatilidade posiciona a Emu como uma ferramenta poderosa para artistas, designers, e criadores através de um espectro de disciplinas visuais.
Pioneirismo no futuro da criatividade baseada em IA
Emu representa um salto significativo para Meta em direção à IA que pode perfeitamente transforme ideias em conteúdo visualmente cativante. Ele serve como uma prova do valor da curadoria meticulosa em conjuntos de dados de aprendizado de máquina. Além disso, proporciona um vislumbre tentador de um futuro onde o texto por si só pode ser suficiente para materializar as nossas visões imaginativas.
A funcionalidade do Emu estará em breve acessível através do chatbot Meta AI, prometendo democratizar a criação de conteúdo visualmente deslumbrante em uma infinidade de aplicativos e dispositivos.
Crédito da imagem em destaque: meta
Source: Emu AI junta-se à corrida GenAI, de forma bastante espetacular