A Microsoft anunciou o MAI-Image-1, seu primeiro modelo de geração de imagens desenvolvido inteiramente internamente. A empresa afirmou que o modelo estará disponível no Copilot e no Bing Image Creator “muito em breve” e atualmente está disponível para testes na LMArena, plataforma onde os usuários avaliam dois chatbots anônimos e votam na melhor resposta. Na tabela de classificação de texto para imagem da LMArena, MAI-Image-1 ficou em nono lugar, alcançando uma pontuação de 1.096 pontos. Para efeito de comparação, o Gemini-2.5-Flash do Google, também conhecido como Nano-Banana, marcou 1.154 pontos e ocupa a segunda posição, enquanto o modelo da OpenAI marcou 1.123 pontos para a sétima posição. A tabela de classificação é liderada pelo Hunyuan-image-3.0, um modelo desenvolvido pela empresa chinesa de tecnologia Hunyuan. A Microsoft afirmou que sua equipe de desenvolvimento se concentrou em evitar resultados repetitivos ou genericamente estilizados com MAI-Image-1. “Por exemplo, priorizamos a seleção rigorosa de dados e a avaliação diferenciada focada em tarefas que refletem de perto os casos de uso criativo do mundo real”, explicou a empresa, acrescentando que incorporou feedback de profissionais das indústrias criativas. O modelo é excelente na geração de paisagens e imagens fotorrealistas. Seu desempenho é conhecido por capturar com precisão detalhes como iluminação, sombras e reflexos, especialmente em comparação com “muitos modelos maiores e mais lentos”. Além do MAI-Image-1, a Microsoft desenvolveu outros modelos internos, incluindo o MAI-Voice-1 para geração de fala natural e a série Phi de modelos de linguagem pequena projetados para tarefas de raciocínio eficientes. Este desenvolvimento interno ocorre juntamente com o apoio financeiro e infraestrutural contínuo da empresa à OpenAI. O campo da geração de imagens de IA está atualmente passando por um período de alta atividade. O modelo da OpenAI recentemente ganhou atenção viral por sua capacidade de imitar o estilo artístico do Studio Ghibli, enquanto o “Nano-Banana” do Google foi reconhecido por seus recursos avançados de edição. Usando o LMArena, o AIM conduziu uma comparação entre o MAI-Image-1 da Microsoft, o Gemini-2.5-Flash do Google e o GPT-image-1 da OpenAI. Os modelos foram testados com um prompt representando duas pessoas em um café perto de uma janela no final da tarde. A avaliação se concentrou em como cada modelo lidava com iluminação mista, reflexos e realismo de sombras. Os usuários podem visitar o LMArena para testar esses modelos com instruções semelhantes.

Microsoft revela MAI-Image-1 para Copilot
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Apple lança segundo iOS 27 beta com novo recurso Write with Siri
A Apple lança iOS 27 beta 2 com ferramentas Siri expandidas, desempenho mais rápido, novos recursos de mensagens...
Galaxy S27 poderia usar o armazenamento UFS 5.0 mais rápido da Samsung
A Samsung apresenta o primeiro chip UFS 5.0 do mundo, prometendo velocidades mais rápidas, maior eficiência e um...
Apple aumentará os preços dos produtos em meio à escassez global de chips de memória
O CEO da Apple, Tim Cook, confirma que os aumentos de preços são iminentes, à medida que a...
Dicas de vazamento do Samsung Galaxy S27 Pro na exibição de privacidade em nível de hardware
O suposto Galaxy S27 Pro da Samsung pode estrear no início de 2027 com uma tela de 6,47...




