O Google está aprimorando a Gemini Live com sobreposições visuais que destacam objetos no feed da câmera e um novo modelo de áudio para conversas mais expressivas. O recurso de sobreposição visual ajuda a identificar itens ou obter conselhos, colocando um retângulo de bordas brancas em torno de objetos na visualização da sua câmera. O novo modelo de áudio nativo foi projetado para conversas mais responsivas e expressivas.
No evento feito pelo Google no ano passado, o Google lançou o Gemini Live, um recurso projetado para conversas mais naturais e sem mãos com seu AI Chatbot. Desde a sua estréia, o Google introduziu inúmeras atualizações no Gemini Live, principalmente a capacidade de compartilhar o feed e a tela da câmera.
O Google anunciou um grande aprimoramento dos recursos de compartilhamento de câmeras da Gemini Live e um novo modelo de áudio para tornar as interações ainda mais naturais.
Durante sua apresentação na nova série Google Pixel 10, o Google detalhou várias melhorias que chegam ao Gemini Live no Android. Primeiro, quando você compartilha o feed da câmera, o Gemini Live poderá exibir sobreposições visuais para destacar objetos específicos. Esses destaques aparecem como um retângulo de fronteira branca em torno de um objeto, enquanto o restante da vista é ligeiramente diminuído para fazê-lo se destacar.
Esse recurso de “orientação visual” foi projetado para ajudá -lo a localizar e identificar rapidamente itens na visualização da sua câmera. Por exemplo, você pode usá -lo para destacar o botão correto em uma máquina, apontar um pássaro específico em um rebanho ou identificar a ferramenta certa para um projeto. Você também pode usá -lo para conselhos, como pedir a Gemini para recomendar o par de sapatos certos para uma ocasião.
O recurso também pode lidar com cenários mais complexos. Em um briefing, um gerente de produto do Google compartilhou um exemplo pessoal de uma recente viagem internacional. Ele estava lutando para descobrir se poderia estacionar em um determinado local, incapaz de entender os sinais de língua estrangeira, marcas de estrada e regulamentos locais. Depois de retirar o telefone e abrir Gêmeos ao vivo, ele apontou a câmera para o local e perguntou se o estacionamento era permitido. Gêmeos procurou as regras locais, traduziu as placas e depois destacou um lugar na rua onde ele poderia estacionar gratuitamente pelas próximas duas horas.
A Visual Orientação no Gemini Live estará disponível pronta para uso na série Google Pixel 10 e começará a ser lançado para outros dispositivos Android na próxima semana. O recurso se expandirá para os dispositivos iOS nas próximas semanas. Uma assinatura do Google AI Pro ou Ultra não será necessária.
Juntamente com as sobreposições visuais, o Google está atualizando o Gemini Live com um novo modelo de áudio nativo projetado para conversas mais responsivas e expressivas.
Primeiro, esse novo modelo responderá mais adequadamente ao que você diz. Por exemplo, se você estiver conversando sobre um tópico estressante, ele responderá com uma voz mais calma e mais “medida”.
O Google diz que você também poderá controlar como o novo modelo de áudio fala com você. Se você está tendo problemas para acompanhar o que Gemini está dizendo, por exemplo, pode pedir para falar mais lentamente. Ou se você estiver com pressa, pode pedir para acelerar as coisas.
Por fim, você pode até ter uma história dramática da perspectiva de uma figura histórica. “Peça a Gemini para falar sobre o Império Romano da perspectiva do próprio Júlio César e obtenha uma narrativa rica e envolvente completa com detalhes em personagens”, diz o Google em sua postagem no blog.
O novo recurso de sobreposições visuais do Gemini Live é mais adequado para os óculos Android XR, mas é bom tê -lo disponível agora no celular, pois ainda estamos um pouco longe de colocar as mãos nesses óculos.
Este artigo foi atualizado às 19:50 ET para corrigir a seção sobre o modelo de áudio natural, além de adicionar ativos de demonstração da postagem do blog do Google.
Source: Google Gemini Live adiciona sobreposições visuais e um novo modelo de áudio








