Pesquisadores da Microsoft revelaram um nova arquitetura chamada Visual ChatGPT, que visa combinar os pontos fortes do processamento de linguagem natural e geração de imagens. A tecnologia representa um avanço significativo para algoritmos de conversão de texto em imagem, permitindo a criação de uma experiência de inteligência artificial (IA) mais orgânica e interativa.

Essa tecnologia inovadora pode mudar a face dos modelos de texto para imagem, que há muito lutam com o contexto linguístico. Em um artigo explorando a compreensão relacional dos modelos de IA generativa, os pesquisadores descobriram que esses modelos não “entendiam” as relações físicas de certos objetos. O Visual ChatGPT pode ajudar a superar essa limitação, potencialmente abrindo caminho para futuros desenvolvimentos em inteligência artificial geral (AGI).

Você pode confira o artigo da Microsoft sobre o Visual ChatGPT usando o link aqui.

Visual ChatGPT
O Visual ChatGPT resolverá as dificuldades dos geradores de texto para imagem com contexto

Como funciona o Visual ChatGPT?

Como funciona o Visual ChatGPT? Essencialmente, ele integra os recursos de modelos de base visual como Stable Diffusion, ControlNet e BLIP com o entendimento de linguagem do ChatGPT. O “gerenciador de prompts” atua como uma interface entre o ChatGPT e os modelos visuaispermitindo o processamento contínuo da saída.

Essa integração ajuda a superar as limitações de ambas as plataformas, resultando em uma versão muito mais capaz do ChatGPT que não depende de alucinações, em vez disso, aproveita o capacidades dos VFMs através do gerenciador de prompts.

Aqui está um diagrama de como funciona o Visual ChatGPT:

Visual ChatGPT
Esse avanço ampliará os recursos dos VFMs por meio do gerenciador de prompts

Uma das principais vantagens do Visual ChatGPT é que ele permite o compartilhamento de imagens com o ChatGPT. O gerente de prompt atua como um “gerente de cozinha”, retransmitindo pedidos e comida entre o “garçom” (ChatGPT) e os “chefs” (VFMs).

O sistema também inclui um formato de raciocínio, que permite ao ChatGPT decidir quando precisa usar uma ferramenta como um VFM para fornecer a saída necessária.

Como usar o Visual ChatGPT?

Antes de executar a demonstração do Visual ChatGPT, você deve seguir algumas etapas conforme descrito em sua página do GitHub. Aqui está o que você precisa fazer para executar o Visual ChatGPT:

O Visual ChatGPT é uma ferramenta útil que pode potencialmente diminuir a curva de aprendizado para modelos de texto para imagem e permitir que os programas de IA interajam uns com os outros. Modelos anteriores, como LLMs e modelos T2I, foram desenvolvidos isoladamente, mas com avanços inovadores, seu desempenho pode ser significativamente melhorado.

Há muita expectativa para o lançamento do GPT-4, que deve se destacar na produção de imagens com o ChatGPT. No entanto, a data de lançamento deste modelo tão aguardado é atualmente desconhecida.

Novas oportunidades de emprego AI foi criada

À medida que o campo da engenharia imediata continua a evoluir, Sussurradores de IA estão surgindo como uma nova categoria crítica de trabalho. Esses profissionais trabalham para ajudar os modelos de IA a “entender” a linguagem e o contexto humanos, permitindo um processamento de linguagem natural mais eficaz.

O gerenciador de prompts do Visual ChatGPT representa um avanço significativo nesse campo, simplificando o processo de transmissão de informações ao modelo sem a necessidade de prompts complexos. Portanto, trabalhos como engenharia imediata tornam-se cada vez mais acessível para pessoas interessadas em tecnologias de IA.

Visual ChatGPT
Os avanços da IA ​​dos últimos anos criaram oportunidades de trabalho como engenharia imediata

Conclusão

O Visual ChatGPT é um desenvolvimento importante no campo da IA, com potencial para ampliar as capacidades dos modelos de última geração. Ao reunir os pontos fortes dos modelos LLMs e T2I, tem o potencial de reduzir as barreiras à entrada e adicionar interoperabilidade a várias ferramentas de IA.

Embora ainda haja muito a ser aprendido sobre os recursos do Visual ChatGPT e tecnologias semelhantes, representa uma nova e empolgante fronteira no campo da inteligência artificial.

Source: Visual ChatGPT está aqui para evoluir os geradores de texto para imagem