O Google lançou o Gemini 3.1 Flash-Lite, seu modelo Gemini 3 mais rápido e acessível, com preço de US$ 0,25 por milhão de tokens de entrada e US$ 1,50 por milhão de tokens de saída.
O modelo tem como alvo cargas de trabalho de alto volume de desenvolvedores, processamento de dados e tarefas de tradução. Ele está disponível em versão prévia por meio da API Gemini no Google AI Studio e Vertex AI, mas não está incluído no aplicativo de consumidor Gemini.
Comparada ao Gemini 2.5 Flash-Lite, a nova versão é mais cara, mas significativamente mais capaz. Geralmente supera o Gemini 2.5 Flash por um preço mais baixo.
O modelo supera concorrentes, incluindo GPT-5 mini e Claude 4.5 Haiku. Grok 4.1 Fast é mais acessível, mas Gemini 3.1 Flash-Lite é mais rápido, prometendo até 363 tokens por segundo.
Em benchmarks multimodais, o modelo marcou 1.432 pontos Elo no Arena.ai Leaderboard. Isso o coloca entre os modelos abertos e as ofertas comerciais de última geração.
O Google não publicou benchmarks de agentes para o lançamento. A empresa afirmou que o modelo se destina a tarefas de alto volume e processamento de dados, não ao gerenciamento de frotas de agentes.
Os desenvolvedores podem usar a API para ajustar o tempo de raciocínio do modelo para controle de custos. Configurações de raciocínio mais baixas produzem menos tokens, o que é relevante para cargas de trabalho de alto volume.
Esta é a primeira versão Flash-Lite para Gemini 3.1. Tradicionalmente, o Google lança primeiro versões de Flash mais capazes ou ignora totalmente o Flash-Lite, como fez com o Gemini 3.
O Google lançou o Gemini 3.1 Pro duas semanas antes. A empresa descreve o Flash-Lite como destinado a cargas de trabalho de desenvolvedores de alto volume em grande escala.







