Pesquisadores da Microsoft revelaram um nova arquitetura chamada Visual ChatGPT, que visa combinar os pontos fortes do processamento de linguagem natural e geração de imagens. A tecnologia representa um avanço significativo para algoritmos de conversão de texto em imagem, permitindo a criação de uma experiência de inteligência artificial (IA) mais orgânica e interativa.
Essa tecnologia inovadora pode mudar a face dos modelos de texto para imagem, que há muito lutam com o contexto linguístico. Em um artigo explorando a compreensão relacional dos modelos de IA generativa, os pesquisadores descobriram que esses modelos não “entendiam” as relações físicas de certos objetos. O Visual ChatGPT pode ajudar a superar essa limitação, potencialmente abrindo caminho para futuros desenvolvimentos em inteligência artificial geral (AGI).
Você pode confira o artigo da Microsoft sobre o Visual ChatGPT usando o link aqui.

Como funciona o Visual ChatGPT?
Como funciona o Visual ChatGPT? Essencialmente, ele integra os recursos de modelos de base visual como Stable Diffusion, ControlNet e BLIP com o entendimento de linguagem do ChatGPT. O “gerenciador de prompts” atua como uma interface entre o ChatGPT e os modelos visuaispermitindo o processamento contínuo da saída.
Essa integração ajuda a superar as limitações de ambas as plataformas, resultando em uma versão muito mais capaz do ChatGPT que não depende de alucinações, em vez disso, aproveita o capacidades dos VFMs através do gerenciador de prompts.
Aqui está um diagrama de como funciona o Visual ChatGPT:

Uma das principais vantagens do Visual ChatGPT é que ele permite o compartilhamento de imagens com o ChatGPT. O gerente de prompt atua como um “gerente de cozinha”, retransmitindo pedidos e comida entre o “garçom” (ChatGPT) e os “chefs” (VFMs).
O sistema também inclui um formato de raciocínio, que permite ao ChatGPT decidir quando precisa usar uma ferramenta como um VFM para fornecer a saída necessária.
Como usar o Visual ChatGPT?
Antes de executar a demonstração do Visual ChatGPT, você deve seguir algumas etapas conforme descrito em sua página do GitHub. Aqui está o que você precisa fazer para executar o Visual ChatGPT:
O Visual ChatGPT é uma ferramenta útil que pode potencialmente diminuir a curva de aprendizado para modelos de texto para imagem e permitir que os programas de IA interajam uns com os outros. Modelos anteriores, como LLMs e modelos T2I, foram desenvolvidos isoladamente, mas com avanços inovadores, seu desempenho pode ser significativamente melhorado.
Há muita expectativa para o lançamento do GPT-4, que deve se destacar na produção de imagens com o ChatGPT. No entanto, a data de lançamento deste modelo tão aguardado é atualmente desconhecida.
Novas oportunidades de emprego AI foi criada
À medida que o campo da engenharia imediata continua a evoluir, Sussurradores de IA estão surgindo como uma nova categoria crítica de trabalho. Esses profissionais trabalham para ajudar os modelos de IA a “entender” a linguagem e o contexto humanos, permitindo um processamento de linguagem natural mais eficaz.
O gerenciador de prompts do Visual ChatGPT representa um avanço significativo nesse campo, simplificando o processo de transmissão de informações ao modelo sem a necessidade de prompts complexos. Portanto, trabalhos como engenharia imediata tornam-se cada vez mais acessível para pessoas interessadas em tecnologias de IA.

Conclusão
O Visual ChatGPT é um desenvolvimento importante no campo da IA, com potencial para ampliar as capacidades dos modelos de última geração. Ao reunir os pontos fortes dos modelos LLMs e T2I, tem o potencial de reduzir as barreiras à entrada e adicionar interoperabilidade a várias ferramentas de IA.
Embora ainda haja muito a ser aprendido sobre os recursos do Visual ChatGPT e tecnologias semelhantes, representa uma nova e empolgante fronteira no campo da inteligência artificial.
Source: Visual ChatGPT está aqui para evoluir os geradores de texto para imagem








