A Microsoft anunciou o MAI-Image-1, seu primeiro modelo de geração de imagens desenvolvido inteiramente internamente. A empresa afirmou que o modelo estará disponível no Copilot e no Bing Image Creator “muito em breve” e atualmente está disponível para testes na LMArena, plataforma onde os usuários avaliam dois chatbots anônimos e votam na melhor resposta. Na tabela de classificação de texto para imagem da LMArena, MAI-Image-1 ficou em nono lugar, alcançando uma pontuação de 1.096 pontos. Para efeito de comparação, o Gemini-2.5-Flash do Google, também conhecido como Nano-Banana, marcou 1.154 pontos e ocupa a segunda posição, enquanto o modelo da OpenAI marcou 1.123 pontos para a sétima posição. A tabela de classificação é liderada pelo Hunyuan-image-3.0, um modelo desenvolvido pela empresa chinesa de tecnologia Hunyuan. A Microsoft afirmou que sua equipe de desenvolvimento se concentrou em evitar resultados repetitivos ou genericamente estilizados com MAI-Image-1. “Por exemplo, priorizamos a seleção rigorosa de dados e a avaliação diferenciada focada em tarefas que refletem de perto os casos de uso criativo do mundo real”, explicou a empresa, acrescentando que incorporou feedback de profissionais das indústrias criativas. O modelo é excelente na geração de paisagens e imagens fotorrealistas. Seu desempenho é conhecido por capturar com precisão detalhes como iluminação, sombras e reflexos, especialmente em comparação com “muitos modelos maiores e mais lentos”. Além do MAI-Image-1, a Microsoft desenvolveu outros modelos internos, incluindo o MAI-Voice-1 para geração de fala natural e a série Phi de modelos de linguagem pequena projetados para tarefas de raciocínio eficientes. Este desenvolvimento interno ocorre juntamente com o apoio financeiro e infraestrutural contínuo da empresa à OpenAI. O campo da geração de imagens de IA está atualmente passando por um período de alta atividade. O modelo da OpenAI recentemente ganhou atenção viral por sua capacidade de imitar o estilo artístico do Studio Ghibli, enquanto o “Nano-Banana” do Google foi reconhecido por seus recursos avançados de edição. Usando o LMArena, o AIM conduziu uma comparação entre o MAI-Image-1 da Microsoft, o Gemini-2.5-Flash do Google e o GPT-image-1 da OpenAI. Os modelos foram testados com um prompt representando duas pessoas em um café perto de uma janela no final da tarde. A avaliação se concentrou em como cada modelo lidava com iluminação mista, reflexos e realismo de sombras. Os usuários podem visitar o LMArena para testar esses modelos com instruções semelhantes.

Source: Microsoft revela MAI-Image-1 para Copilot