A nova IA do Google, Gemini 1.5, pode processar uma hora de vídeo de uma só vez

O Google Gemini 1.5 Pro foi apresentado pela gigante da tecnologia. O Google, um dos gigantes da tecnologia, lançou o Gemini 1.5, a nova versão de seu grande modelo de linguagem Gemini, para desenvolvedores e usuários corporativos.

A empresa afirma que com a nova versão, o Gemini fez melhorias significativas em vários aspectos e fez grandes progressos.

O que é o Google Gemini 1.5 Pro?

O Google observa melhorias substanciais alcançadas com o Gemini 1.5. A versão Pro está alinhada com os recursos do modelo Gemini Ultra de última geração recentemente lançado. Ele também supera o lançamento anterior do Gemini 1.0 Pro em notáveis 87% nas avaliações de benchmark.

Este aumento de desempenho é largamente atribuído à utilização de técnicas de “Mixtura de Especialistas” (MoE). O MoE permite que o modelo ative seletivamente seções específicas durante o processamento da consulta, em vez de todo o modelo de uma vez. Essa estratégia promove uma experiência de usuário mais rápida e maior eficiência na infraestrutura do Google.

Compreensão contextual expandida

Uma atualização substancial no Gemini 1.5 está relacionada ao tratamento de conjuntos de dados significativamente maiores para uma única consulta. Ele apresenta uma janela de contexto de um milhão de tokens, aumentando de 128.000 no GPT-4 da OpenAI para 32.000 no Gemini Pro anterior. Essa janela de contexto permite efetivamente que o Gemini 1.5 processe mais de 700.000 palavras, um vídeo de uma hora, onze horas de gravações de áudio ou mais de 30.000 trechos de código simultaneamente. Os pesquisadores do Google estão investigando ainda mais casos de uso em potencial que excedem até mesmo o contexto de um milhão de tokens.

Aplicativos de negócios

Os executivos do Google consideram a ampla janela de contexto particularmente valiosa para vários ambientes de negócios. Ele abre aplicativos onde extensos dados e informações pessoais podem ser analisados durante consultas. Um exemplo hipotético destaca o potencial de um cineasta para enviar um filme inteiro, questionando o Gemini 1.5 sobre a recepção crítica antecipada. Os sectores financeiros também poderiam aproveitar a maior capacidade do Gemini 1.5 para examinar minuciosamente registos e conjuntos de dados volumosos.

Disponibilidade e acessibilidade

O acesso inicial ao Gemini 1.5 é destinado a desenvolvedores e usuários comerciais por meio de plataformas como Vertex AI e AI Studio do Google. Posteriormente, esta nova iteração substituirá o Gemini 1.0. A versão Gemini Pro, oferecida publicamente em gemini.google.com e em vários aplicativos, será Gemini 1.5 Pro, mas com uma janela de contexto limitada de 128.000 tokens. Os desenvolvedores e usuários que desejam a janela de contexto máxima de um milhão de tokens incorrerão em custos adicionais. O Google destaca os testes em andamento para avaliar a segurança e os limites éticos do modelo, especialmente em torno dos recursos contextuais aprimorados.

Crédito da imagem em destaque: Google

Source: A nova IA do Google, Gemini 1.5, pode processar uma hora de vídeo de uma só vez