O Gemini AI Assistant do Google agora suporta uploads de arquivos de áudio, permitindo que os usuários transcrevem, resumissem e extraem informações importantes das gravações. Esse novo recurso transforma até 10 minutos de memorandos de voz, reuniões, palestras e entrevistas em documentos pesquisáveis. O recurso de upload de áudio está disponível na Web e através dos aplicativos móveis, acessível pela interface padrão-upload. De acordo com o vice -presidente de Gêmeos do Google, Josh Woodward, o recurso de upload de arquivos de áudio foi o mais solicitado pelos usuários. Essa funcionalidade difere do Gemini Live, que se concentra nos comandos de voz em tempo real, enquanto o novo recurso foi projetado para processar dados de arquivos de áudio carregados. Durante os testes, Gemini transcreveu com precisão os esboços de álbuns de comédia e conversas telefônicas, com apenas pequenos erros relacionados ao reconhecimento de nome. A IA também identificou efetivamente elementos-chave e itens adequados para criar listas de tarefas. A adição de processamento de áudio alinha com melhorias recentes de Gemini, incluindo integração de aplicativos, uma interface visual baseada em cartão e opções de personalização expandidas. Esse recurso permite que os usuários convertem logs e memorandos salvos em conteúdo pesquisável, simplificando um processo que anteriormente exigia o software de transcrição externa. Enquanto outros assistentes de IA, como ChatGPT (usando Whisper), Claude do Anthrópico e Perplexity, também oferecem recursos de processamento de áudio, a implementação de Gemini é voltada para casos de uso diário. Os usuários podem aproveitar Gêmeos para simplificar a linguagem, isolar comentários específicos do alto-falante, gerar perguntas e criar guias de estudo a partir do conteúdo de áudio. No entanto, o limite de áudio de 10 minutos e as tampas diárias de uso para usuários de camada livre podem restringir a frequência de uso. O Google ainda não lançou preços formais para o processamento de áudio de alto volume, pois atualmente se enquadra na cota regular de Gêmeos. Os usuários que planejam processar conteúdo extensivo de áudio devem gerenciar seu uso de acordo. Em essência, o novo recurso de áudio da Gemini fornece uma maneira simplificada de processar e extrair informações valiosas de arquivos de áudio, tornando -o uma ferramenta útil para vários aplicativos pessoais e profissionais.

Source: Google Gemini agora suporta uploads de arquivos de áudio