A Apple fez um avanço significativo no campo da inteligência artificial com o lançamento do Apple MGIE, um revolucionário modelo de IA de código aberto que permite aos usuários editar imagens por meio de instruções em linguagem natural. MGIE, abreviação de MLLM-Guided Image Editing, aproveita o poder dos modelos multimodais de linguagem grande (MLLMs) para interpretar comandos do usuário e realizar manipulações em nível de pixel com notável precisão.
O modelo possui uma ampla gama de recursos de edição, incluindo modificação no estilo Photoshop, otimização global de fotos e edição local. Isso significa que os usuários podem aprimorar facilmente suas imagens com um simples comando de texto, dando-lhes o poder de criar edições de qualidade profissional sem a necessidade de amplo conhecimento em edição de fotos.
O desenvolvimento do MGIE é resultado de uma colaboração inovadora entre a Apple e uma equipe de pesquisadores da Universidade da Califórnia, em Santa Bárbara. O modelo foi apresentado em um artigo de pesquisa aceito na prestigiada Conferência Internacional sobre Representações de Aprendizagem (ICLR) 2024, uma plataforma importante para pesquisa em IA. O artigo mostra a impressionante eficácia do MGIE na melhoria das métricas automáticas e da avaliação humana, ao mesmo tempo que mantém a eficiência da inferência competitiva.

O que é Apple MGIE?
Apple MGIE é um sistema revolucionário de edição de imagens que utiliza aprendizado de máquina para permitir aos usuários editar imagens usando instruções em linguagem natural. Esta tecnologia inovadora permite que os usuários descrevam simplesmente as alterações desejadas na imagem, e o MGIE aplicará automaticamente as modificações, eliminando a necessidade de ferramentas ou menus de edição complexos.
Semelhante a outras ferramentas de imagem de IA de ponta, como Midjourney, StableDiffusion e DALL-E, o Apple MGIE preenche a lacuna entre a intenção humana e a manipulação de imagens. Ao aproveitar o poder da aprendizagem multimodal, o MGIE pode compreender tanto informações visuais (a própria imagem) quanto informações textuais (instruções do usuário), permitindo-lhe realizar manipulações em nível de pixel com notável precisão.
Apple MGIE é um divisor de águas na edição de imagens, fornecendo uma maneira fácil e eficiente de aprimorar e manipular imagens. Quer você seja um fotógrafo profissional, designer gráfico ou influenciador de mídia social, o MGIE pode ajudá-lo a criar imagens impressionantes que deixarão uma impressão duradoura em seu público.

Como funciona o Apple MGIE?
O Apple MGIE utiliza processamento de linguagem natural e aprendizado de máquina para permitir que os usuários editem imagens usando comandos simples e descritivos. O sistema funciona entendendo a intenção do usuário e depois manipulando a imagem para refletir com precisão as alterações desejadas.
Aqui está um detalhamento do fluxo de trabalho MGIE:
- Inserindo comandos: O usuário descreve as edições desejadas em inglês simples, como “Tornar o céu desta imagem mais azul” ou “Remover o carro vermelho desta foto”
- Compreendendo a intenção: O modelo de linguagem avançada do MGIE decifra as instruções do usuário, identificando os objetos específicos, atributos e modificações desejadas
- Compreensão visual: Simultaneamente, o MGIE analisa a imagem, identificando os elementos-chave e suas relações
- Edição guiada: Combinando a compreensão linguística e visual, o MGIE manipula a imagem de forma inteligente para refletir com precisão os comandos do usuário. Não segue instruções cegamente, mas pode interpretar o contexto e fazer ajustes sensatos
O conceito central por trás do MGIE é preencher a lacuna entre a intenção humana e a manipulação de imagens, tornando a edição de imagens mais acessível e eficiente para todos. Com o MGIE, os usuários podem facilmente aprimorar e manipular imagens usando comandos simples e de linguagem natural, abrindo novas possibilidades de expressão criativa e comunicação.
Como usar o Apple MGIE
Para usar o MGIE, os usuários podem acessar o projeto de código aberto no GitHub, que fornece acesso total ao seu código-fonte, dados de treinamento e modelos pré-treinados. Isso permite que desenvolvedores e pesquisadores entendam seu funcionamento interno e potencialmente contribuam com melhorias. Além disso, um notebook de demonstração está disponível no GitHub, orientando os usuários em diversas tarefas de edição usando instruções em linguagem natural. Isto serve como uma introdução prática às capacidades do MGIE.
Para uma maneira rápida e conveniente de experimentar o MGIE, os usuários também podem experimentar o sistema através de um demonstração da web hospedada no Hugging Face Spaces. Esta plataforma online permite aos usuários experimentar o sistema sem a necessidade de configuração local.

MGIE agradece o feedback do usuário e permite refinar edições ou solicitar diferentes modificações. Esta abordagem iterativa garante que as edições geradas estejam alinhadas com a visão artística do usuário.
Embora o MGIE ainda esteja em desenvolvimento, o código aberto do projeto o torna acessível a uma ampla gama de usuários e colaboradores. A pesquisa contínua e as contribuições dos usuários moldarão suas capacidades futuras e aplicações potenciais, tornando-a uma tecnologia interessante e em rápida evolução no campo da edição de imagens.
Crédito da imagem em destaque: pvproduções/Freepik.
Source: Apple MGIE marca a entrada silenciosa da gigante da tecnologia no setor de IA








