Como usar o Google Dreambooth AI na difusão estável?

A IA do Google DreamBooth está aqui. Tecnologias recém-lançadas como DALL-E 2 da OpenAI ou StabilityAI’s Stable Diffusion e Midjourney já estão tomando a internet de assalto. Agora é hora de personalizar os resultados. Ainda como? A Universidade de Boston e o Google forneceram as respostas e as detalhamos para você.

DreamBooth tem a capacidade de reconhecer o tópico de uma imagem, desconstruí-lo de seu contexto original e, em seguida, sintetizá-lo com precisão em um novo contexto desejado. Além disso, pode ser usado com os atuais geradores de imagens AI. Saiba mais sobre a imaginação alimentada por IA lendo.

Explicação da IA do Google DreamBooth

O Google lançou o DreamBooth, um novo modelo de difusão de texto para imagem. O Google DreamBooth AI pode criar uma ampla variedade de imagens do tópico escolhido pelo usuário em várias condições usando um prompt textual como instrução.

DreamBooth, um método revolucionário para modificar modelos de texto para imagem altamente pré-treinados, foi criado por uma equipe de pesquisa da Universidade de Boston e do Google. No geral, a ideia é bastante simples: eles querem expandir o dicionário de visão de linguagem de modo que IDs de token raros sejam conectados a um tópico específico que o usuário deseja criar.

Principais recursos do Google DreamBooth AI:

Com 3-5 fotografias, o DreamBooth AI pode aprimorar um modelo de texto para imagem.
Usando o DreamBooth AI, imagens fotorrealistas completamente originais do assunto podem ser produzidas.
Além disso, o DreamBooth AI é capaz de produzir imagens de um assunto de várias perspectivas.

O principal objetivo do modelo é fornecer aos usuários as ferramentas necessárias para criar representações fotorrealistas das instâncias de seu assunto escolhido e conectá-las ao modelo de difusão de texto para imagem. Como resultado, esse método parece ser eficaz para resumir questões em uma variedade de circunstâncias.

O DreamBooth do Google adota uma abordagem um pouco diferente de outras ferramentas de conversão de texto em imagem lançadas recentemente, como DALL-E 2, Difusão Estávele Meio da jornada permitindo aos usuários mais controle sobre a imagem do tópico e, em seguida, controlando o modelo de difusão usando entradas baseadas em texto.

DreamBooth também pode mostrar o tópico de vários ângulos de câmera com apenas algumas fotos de entrada. A inteligência artificial (IA) pode prever as qualidades do sujeito e sintetizá-las na navegação guiada por texto, mesmo que as fotos de entrada não forneçam dados sobre o tema de diferentes pontos de vista.

Este modelo também pode sintetizar as fotografias para criar outros ambientes, acessórios ou mudanças de cor com o uso de dicas de linguagem. Com esses recursos, o DreamBooth Google AI oferece aos usuários ainda mais personalização e liberdade criativa.

O artigo do DreamBooth “DreamBooth: ajuste fino de modelos de difusão de texto para imagem para geração orientada por assunto” afirma que eles fornecem uma nova questão e abordagem:

A geração orientada pelo assunto é uma questão recente.

Dadas algumas imagens tiradas às pressas do assunto, o objetivo é criar novas representações do assunto em várias configurações, preservando a alta fidelidade às suas principais características visuais.

Aplicativos do Google DreamBooth AI

Os principais aplicativos de IA do Google DreamBooth são os seguintes:

Recontextualização
Interpretações de arte
Manipulação de expressão
Síntese de visualização de romance
Acessórios
Modificação de propriedade

Você está preparado para se separar do PhotoShop? Vamos examiná-los mais de perto usando as imagens instrutivas criadas por Nathaniel Ruiz e a equipe do DreamBooth.

Recontextualização

Ao alimentar uma frase incluindo o identificador exclusivo e o substantivo da classe para o modelo treinado, o DreamBooth AI pode criar imagens exclusivas para uma determinada instância de assunto. Em vez de modificar o plano de fundo, o DreamBooth AI pode produzir o assunto em posturas, articulações e estrutura de cena inovadoras e inéditas. sombras e reflexos realistas, bem como a interação do sujeito com objetos adjacentes. Isso mostra que sua estratégia oferece mais do que apenas extrapolar ou recuperar informações pertinentes.

Interpretações de arte

Se for dada a opção de escolher entre “uma estátua de um [V] [class noun] no estilo de [great sculptor]” e “uma pintura de um [V] [class noun] no estilo de [famous painter],” Qual você escolheria? Usando o DreamBooth AI, representações criativas originais podem ser criadas.

Em particular, essa tarefa é diferente da transferência de estilo, que preserva a semântica da cena de origem enquanto aplica o estilo de outra imagem à cena original. Em contraste, dependendo do estilo criativo, a IA pode realizar grandes mudanças de cena com detalhes de instância de assunto e preservação de identidade.

Manipulação de expressão

Com a ajuda do método do Google DreamBooth AI, novas imagens do sujeito podem ser produzidas com expressões faciais diferentes daquelas do conjunto original de imagens.

Síntese de visualização de romance

O Google DreamBooth AI pode retratar o tópico de várias perspectivas únicas. Por exemplo, o DreamBooth AI pode produzir novas imagens do mesmo gato usando vários ângulos de câmera, repletos de padrões de pele detalhados e confiáveis.

Apesar do modelo ter apenas quatro fotografias frontais do gato, o DreamBooth AI é capaz de inferir informações da classe antes de criar esses pontos de vista criativos, mesmo que nunca tenha visto esse mesmo gato de lado, de baixo ou de cima.

Acessórios

O aspecto intrigante da capacidade do DreamBooth AI de embelezar objetos vem do forte anterior composicional do modelo de geração. Para ilustração, o modelo é solicitado com uma frase da forma “a [V] [class noun] vestindo [accessory]”. Isto permite-nos fixar vários objectos no cão de uma forma apelativa.

Modificação de propriedade

O DreamBooth AI é capaz de alterar as propriedades da instância do assunto. Um adjetivo de cor pode ser usado na frase de exemplo “a [color adjective] [V] [class noun]”. Isso pode resultar em instâncias frescas e vívidas do tópico. Existem alguns requisitos, mas essas características também explicam como utilizar o DreamBooth AI.

Usando a IA do Google DreamBooth?

A técnica DreamBooth AI recebe como entrada um pequeno número de fotografias (geralmente 3-5 imagens são adequadas) de um assunto (por exemplo, um cachorro em particular) e o nome da classe associado a ele (por exemplo, “cachorro”). Em seguida, produz um modelo de texto para imagem que foi ajustado e “personalizado” e codifica uma identidade única para o tópico. Para sintetizar os tópicos em diversos contextos, o DreamBooth AI pode inserir a identificação distinta na inferência em várias frases. Dadas três a cinco imagens do assunto, você pode ajustar uma difusão de texto para imagem em duas etapas:

Um prompt de texto com um código específico e o nome da classe à qual o sujeito pertence (por exemplo, “uma imagem de um [T] canine”) será usado para aprimorar o modelo de texto para imagem de baixa resolução. Além disso, eles usam uma perda de preservação anterior específica da classe, que aproveita a prioridade semântica do modelo na classe e o incentiva a gerar uma série de exemplos que são membros da classe do sujeito, colocando o nome da classe no prompt de texto (por exemplo , “uma foto de um cachorro”).
Alcançamos grande fidelidade ajustando os componentes de super-resolução usando pares de fotografias de baixa e alta resolução de nosso conjunto de imagens de entrada.

O primeiro Dreambooth foi feito usando Imagemparadigma de texto para imagem. O modelo e pesos da Imagen, no entanto, não estão disponíveis. No entanto, usando alguns exemplos, o Dreambooth on Stable Diffusion permite que os usuários ajustem um modelo de texto para imagem.

Como usar o Google Dreambooth AI na difusão estável?

Para utilizar o DreamBooth AI na difusão estável, siga as etapas a seguir:

Siga as instruções de configuração no repositório Textual Inversion ou no repositório Stable Diffusion original para configurar seu ambiente LDM.
Para ajustar um modelo de difusão estável, você deve receber os modelos de difusão estável pré-treinados e seguir suas instruções. Você pode baixar pesos de Abraçando o Rosto.
Prepare uma série de imagens para regularização conforme exigido pelo método de ajuste fino do Dreambooth.
Você pode praticar usando o seguinte comando:

python main.py --base configs/stable-diffusion/v1-finetune_unfrozen.yaml
                -t
                --actual_resume /path/to/original/stable-diffusion/sd-v1-4-full-ema.ckpt 
                -n <job name>
                --gpus 0,
                --data_root /root/to/training/images
                --reg_data_root /root/to/regularization/images
                --class_word <xxx>

Geração

Após o treinamento, o comando pode ser usado para obter exemplos personalizados.

python scripts/stable_txt2img.py --ddim_eta 0.0
                                 --n_samples 8
                                 --n_iter 1
                                 --scale 10.0
                                 --ddim_steps 100 
                                 --ckpt /path/to/saved/checkpoint/from/training
                                 --prompt "photo of a sks <class>"

Em particular, class> é a palavra de classe – palavra de classe para treinamento – e sks é o identificador (que, se você deseja alterá-lo, deve ser substituído por sua escolha). Para mais informações, visite o Página do GitHub para difusão estável do DreamBooth.

Limitações da IA Dreambooth

As limitações do DreamBooth AI são as seguintes:

Desvio de idioma
Sobreajuste
Perda de preservação

Vamos examiná-los mais de perto.

Desvio de idioma

A produção de iterações no tópico com alto grau de detalhes é dificultada pelo prompt de comando. O DreamBooth pode alterar o contexto do tópico, no entanto, há problemas com o quadro se o modelo desejar alterar o assunto real.

Sobreajuste

Outro problema é quando a imagem de saída é superadaptada à imagem original. O assunto pode não ser avaliado ou pode ser combinado com o contexto das imagens enviadas se não houver fotos de entrada suficientes. Isso também ocorre quando um contexto para uma geração ímpar é solicitado.

Perda de preservação

A incapacidade de sintetizar imagens de temas mais raros ou complexos, bem como a fidelidade variável do assunto, que pode resultar em mudanças alucinógenas e qualidades descontínuas, são outras limitações. O contexto de entrada é frequentemente incluído no tópico das imagens de entrada.

Impacto social da IA

O objetivo do projeto DreamBooth é fornecer aos usuários uma ferramenta prática para sintetizar tópicos pessoais (animais, objetos) em uma variedade de configurações. Embora os algoritmos padrão de texto para imagem possam ser tendenciosos em relação a aspectos específicos ao sintetizar imagens a partir de palavras, isso ajuda o usuário a recriar melhor os assuntos escolhidos. No entanto, partes mal-intencionadas podem tentar enganar os usuários empregando imagens semelhantes. Vários métodos de modelo generativo ou técnicas de modificação de conteúdo apresentam esse problema generalizado.

Conclusão

A maioria dos modelos de texto para imagem precisa de milhões de parâmetros e bibliotecas para criar saídas de uma única entrada de texto. DreamBooth torna mais fácil para os usuários obter conteúdo e usá-lo simplesmente precisando da entrada de três a cinco imagens de tópicos junto com um pano de fundo escrito.

As qualidades distintivas do tópico podem, portanto, ser preservadas enquanto o modelo treinado reutiliza os aspectos materialistas do assunto aprendidos com as imagens para replicá-los em outros cenários e pontos de vista. A maioria dos algoritmos de conversão de texto em imagem depende de determinadas palavras-chave e pode priorizar atributos específicos ao mostrar imagens. Os usuários do DreamBooth podem produzir resultados fotorrealistas ao ver a pessoa escolhida em um ambiente ou cenário único. Então, pare de esperar agora. Tente agora!

Esperamos que você tenha gostado deste artigo sobre como usar o Google Dreambooth AI na difusão estável. Se sim, temos certeza de que você também vai gostar de ler alguns de nossos outros artigos, como DALL-E 2 introduziu outpainting: AI imagina além das fronteiras, ou Stable Diffusion AI art generator: Prompts, exemplos e como executar.

Source: Como usar o Google Dreambooth AI na difusão estável?

Como usar o Google Dreambooth AI na difusão estável?

Explicação da IA ​​do Google DreamBooth

Aplicativos do Google DreamBooth AI

Recontextualização

Interpretações de arte

Manipulação de expressão

Síntese de visualização de romance

Acessórios

Modificação de propriedade

Usando a IA do Google DreamBooth?

Como usar o Google Dreambooth AI na difusão estável?

Limitações da IA ​​Dreambooth

Desvio de idioma

Sobreajuste

Perda de preservação

Impacto social da IA

Conclusão

Related Stories

Meta atualiza óculos AI para desativar câmeras se o LED de privacidade for adulterado

Samsung revelará novos dobráveis ​​em 22 de julho Galaxy Unpacked em Londres

Discord corrige bug que baniu injustamente milhares de usuários por falha de imagem

Google revelará nova linha de Pixel no evento noturno de 12 de agosto

Explicação da IA do Google DreamBooth

Limitações da IA Dreambooth

Samsung revelará novos dobráveis em 22 de julho Galaxy Unpacked em Londres