A Microsoft anunciou o MAI-Image-1, seu primeiro modelo de geração de imagens desenvolvido inteiramente internamente. A empresa afirmou que o modelo estará disponível no Copilot e no Bing Image Creator “muito em breve” e atualmente está disponível para testes na LMArena, plataforma onde os usuários avaliam dois chatbots anônimos e votam na melhor resposta. Na tabela de classificação de texto para imagem da LMArena, MAI-Image-1 ficou em nono lugar, alcançando uma pontuação de 1.096 pontos. Para efeito de comparação, o Gemini-2.5-Flash do Google, também conhecido como Nano-Banana, marcou 1.154 pontos e ocupa a segunda posição, enquanto o modelo da OpenAI marcou 1.123 pontos para a sétima posição. A tabela de classificação é liderada pelo Hunyuan-image-3.0, um modelo desenvolvido pela empresa chinesa de tecnologia Hunyuan. A Microsoft afirmou que sua equipe de desenvolvimento se concentrou em evitar resultados repetitivos ou genericamente estilizados com MAI-Image-1. “Por exemplo, priorizamos a seleção rigorosa de dados e a avaliação diferenciada focada em tarefas que refletem de perto os casos de uso criativo do mundo real”, explicou a empresa, acrescentando que incorporou feedback de profissionais das indústrias criativas. O modelo é excelente na geração de paisagens e imagens fotorrealistas. Seu desempenho é conhecido por capturar com precisão detalhes como iluminação, sombras e reflexos, especialmente em comparação com “muitos modelos maiores e mais lentos”. Além do MAI-Image-1, a Microsoft desenvolveu outros modelos internos, incluindo o MAI-Voice-1 para geração de fala natural e a série Phi de modelos de linguagem pequena projetados para tarefas de raciocínio eficientes. Este desenvolvimento interno ocorre juntamente com o apoio financeiro e infraestrutural contínuo da empresa à OpenAI. O campo da geração de imagens de IA está atualmente passando por um período de alta atividade. O modelo da OpenAI recentemente ganhou atenção viral por sua capacidade de imitar o estilo artístico do Studio Ghibli, enquanto o “Nano-Banana” do Google foi reconhecido por seus recursos avançados de edição. Usando o LMArena, o AIM conduziu uma comparação entre o MAI-Image-1 da Microsoft, o Gemini-2.5-Flash do Google e o GPT-image-1 da OpenAI. Os modelos foram testados com um prompt representando duas pessoas em um café perto de uma janela no final da tarde. A avaliação se concentrou em como cada modelo lidava com iluminação mista, reflexos e realismo de sombras. Os usuários podem visitar o LMArena para testar esses modelos com instruções semelhantes.

Microsoft revela MAI-Image-1 para Copilot
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho avançadas de IA
O Surface RTX Spark Dev Box da Microsoft combina o chip RTX Spark da NVIDIA com até 128...
X lança recurso ‘React with Video’ para usuários iOS
X lança o recurso “React with Video” para iOS, permitindo aos usuários postar vídeos de reação no estilo...
Microsoft lança Projeto Solara para alimentar dispositivos de última geração com agentes pioneiros
O Projeto Solara apresenta a computação que prioriza o agente, que combina software e hardware para criar experiências...
Google lança atualização do Android de junho com novos recursos de segurança e compartilhamento
O Android Drop de junho apresenta novas ferramentas de personalização, atualizações elegantes e recursos de segurança aprimorados para...




