O CEO do Google DeepMind, Demis Hassabis, revelou planos para integrar seus modelos de IA de Gemini com os modelos de IA de geração de vídeo do VEO para aprimorar a compreensão do mundo físico de Gemini, conforme divulgado em uma recente entrevista de podcast.
De acordo com Hassabis, Gemini foi projetado para ser multimodal desde o início, com o objetivo de criar um “assistente digital universal” capaz de ajudar os usuários em cenários do mundo real. “Sempre construímos Gemini, nosso modelo de fundação, para ser multimodal desde o início”, explicou Hassabis, “e a razão pela qual fizemos isso [is because] Temos uma visão para essa idéia de um assistente digital universal, um assistente que […] Na verdade, ajuda você no mundo real. ”
A indústria de IA está testemunhando uma mudança para modelos “Omni” que podem processar e gerar várias formas de mídia, como áudio, imagens e texto. Os mais recentes modelos Gemini do Google podem produzir áudio, imagens e texto, enquanto o ChatGPT do OpenAI pode criar imagens, incluindo a arte no estilo Ghibli. A Amazon também anunciou planos de lançar um modelo “qualquer qualquer coisa” ainda este ano, ilustrando ainda mais essa tendência.
Esses modelos OMNI requerem grandes quantidades de dados de treinamento, incluindo imagens, vídeos, áudio e texto. Hassabis indicou que os dados de vídeo da Veo são provenientes principalmente do YouTube, uma plataforma de propriedade do Google. “Basicamente, assistindo a vídeos do YouTube – muitos vídeos do YouTube – [Veo 2] Pode descobrir, você sabe, a física do mundo ”, afirmou Hassabis. O Google havia informado anteriormente o TechCrunch de que seus modelos“ podem ser ”treinados em“ algum ”conteúdo do YouTube de acordo com seu contrato com os criadores do YouTube.
Vale ressaltar que o Google ampliou seus Termos de Serviço no ano passado, em parte para acessar mais dados, incluindo conteúdo do YouTube, para treinar seus modelos de IA. Esse movimento é visto como um esforço estratégico para reforçar seus recursos de IA, aproveitando seu vasto repositório de dados on -line.
O Post Google para combinar os modelos Gemini e Veo AI apareceu pela primeira vez no Techbriefly.








