A assistente virtual da Apple, Siri, tornou-se uma parte indispensável do ecossistema iOS, mas seus recursos de reconhecimento de voz enfrentaram desafios em ambientes ruidosos e com vozes distorcidas. Buscando contornar essas limitações, um pedido de patente recente da Apple lançou luz sobre a exploração da gigante da tecnologia de incorporar habilidades de leitura labial no Siri.

Esse recurso inovador pode alavancar a tecnologia de detecção de movimento, como acelerômetros ou giroscópios, detectar movimentos faciais sutis e melhoram a precisão do comando de voz. Embora esta patente sugira possibilidades empolgantes, ela permanece incerta quando e como a Apple planeja implementar esse novo recurso.

Patente de leitura labial da Apple_02
A patente de leitura labial da Apple para Siri pode ser vista como uma tentativa de revolução na tecnologia de reconhecimento de voz (Crédito da imagem)

A lógica por trás da patente de leitura labial da Apple para a Siri

O pedido de patente, depositado em Janeiro, descreve um sistema que usa dados de movimento para determinar se os movimentos da boca de um usuário se alinham com palavras ou frases faladas. Em vez de depender apenas do tradicional sistemas de reconhecimento de voz, que podem ser afetados por ruído de fundo e esgotar os recursos do dispositivo, O método proposto pela Apple observa vibrações dos músculos faciais, movimentos da cabeça e outros movimentos das peças bucais. Ao utilizar sensores de movimento, como acelerômetros e giroscópios, essa abordagem inovadora poderia potencialmente superar muitos dos desafios enfrentados pela tecnologia de reconhecimento de voz existente.

Implicações para além dos smartphones

Enquanto a patente menciona principalmente iPhones, isso sugere um escopo mais amplo de implementação. A Apple prevê estender a tecnologia para outros dispositivos, incluindo AirPods e até “óculos inteligentes,” implicando uma vasta gama de aplicações potenciais. No entanto, dada a descontinuação da Apple de seu projeto de óculos inteligentes, o foco parece estar em seu headset Vision Pro, que permanece envolto em mistério.

Patente de leitura labial da Apple para Siri
Se concretizada, a nova patente para tecnologia de detecção de movimento poderia ser aplicada a uma gama diversificada de produtos (Crédito da imagem)

A busca por dados

Para desenvolver esse recurso de leitura labial, a Apple exigiria quantidades substanciais de dados sobre os movimentos da boca humana. Criando um “perfil de voz” para usuários poderia atender a essa necessidade. Os recursos de acessibilidade recentes da Apple, incluindo Live Speech no iOS, permitem a coleta de perfis de voz dos usuários. Esses perfis podem servir de base para treinando um modelo de linguagem que reconhece movimentos faciais de extensos conjuntos de dados. A propensão da empresa para integrar a IA sutilmente em seus recursos se alinha com a ideia de incorporar um “modelo de linguagem transformadora” para capacidades de leitura labial.

Patente de leitura labial da Apple_02
A Apple vai precisar de uma grande quantidade de novos dados para detecção de movimento e outras melhorias propostas no pedido de patente (Crédito da imagem)

A estrada à frente

Embora o pedido de patente represente um avanço significativo em tecnologia de reconhecimento de voz, sua integração real nos produtos da Apple permanece incerta. O renomado analista da cadeia de suprimentos da Apple, Ming-Chi Kuo, apontou que o progresso da empresa em IA generativa fica atrás dos concorrentes, e não há indicações imediatas de que esses modelos de aprendizado profundo sejam integrados a produtos de hardware tão cedo. No entanto, o desenvolvimento da Apple de um chatbot interno com o codinome “GPT da Apple” poderia sugerir possíveis aprimoramentos relacionados à IA para a Siri.

Pedido de patente da Apple revelando planos para uma Siri de leitura labial inaugura uma nova era da tecnologia de reconhecimento de voz. Ao explorar a tecnologia de detecção de movimento como um meio de melhorar precisão do comando de voz, A Apple demonstra seu compromisso com refinando as experiências do usuário e mantendo-se na vanguarda da integração de IA.

Embora o cronograma de implementação permaneça obscuro, o conceito é válido potencial significativo para revolucionar as interações assistidas por voz em vários dispositivos Apple. À medida que o futuro se desenrola, os usuários da Apple antecipam ansiosamente o dia em que seu assistente virtual poderá facilmente ler seus lábios e atender a todos os seus comandos.

Crédito da imagem em destaque: Omid Armin / Unsplash

Source: Nova patente da Apple visa preparar Siri para ler seus lábios