A assistente virtual da Apple, Siri, tornou-se uma parte indispensável do ecossistema iOS, mas seus recursos de reconhecimento de voz enfrentaram desafios em ambientes ruidosos e com vozes distorcidas. Buscando contornar essas limitações, um pedido de patente recente da Apple lançou luz sobre a exploração da gigante da tecnologia de incorporar habilidades de leitura labial no Siri.
Esse recurso inovador pode alavancar a tecnologia de detecção de movimento, como acelerômetros ou giroscópios, detectar movimentos faciais sutis e melhoram a precisão do comando de voz. Embora esta patente sugira possibilidades empolgantes, ela permanece incerta quando e como a Apple planeja implementar esse novo recurso.
A lógica por trás da patente de leitura labial da Apple para a Siri
O pedido de patente, depositado em Janeiro, descreve um sistema que usa dados de movimento para determinar se os movimentos da boca de um usuário se alinham com palavras ou frases faladas. Em vez de depender apenas do tradicional sistemas de reconhecimento de voz, que podem ser afetados por ruído de fundo e esgotar os recursos do dispositivo, O método proposto pela Apple observa vibrações dos músculos faciais, movimentos da cabeça e outros movimentos das peças bucais. Ao utilizar sensores de movimento, como acelerômetros e giroscópios, essa abordagem inovadora poderia potencialmente superar muitos dos desafios enfrentados pela tecnologia de reconhecimento de voz existente.
Implicações para além dos smartphones
Enquanto a patente menciona principalmente iPhones, isso sugere um escopo mais amplo de implementação. A Apple prevê estender a tecnologia para outros dispositivos, incluindo AirPods e até “óculos inteligentes,” implicando uma vasta gama de aplicações potenciais. No entanto, dada a descontinuação da Apple de seu projeto de óculos inteligentes, o foco parece estar em seu headset Vision Pro, que permanece envolto em mistério.
A busca por dados
Para desenvolver esse recurso de leitura labial, a Apple exigiria quantidades substanciais de dados sobre os movimentos da boca humana. Criando um “perfil de voz” para usuários poderia atender a essa necessidade. Os recursos de acessibilidade recentes da Apple, incluindo Live Speech no iOS, permitem a coleta de perfis de voz dos usuários. Esses perfis podem servir de base para treinando um modelo de linguagem que reconhece movimentos faciais de extensos conjuntos de dados. A propensão da empresa para integrar a IA sutilmente em seus recursos se alinha com a ideia de incorporar um “modelo de linguagem transformadora” para capacidades de leitura labial.
A estrada à frente
Embora o pedido de patente represente um avanço significativo em tecnologia de reconhecimento de voz, sua integração real nos produtos da Apple permanece incerta. O renomado analista da cadeia de suprimentos da Apple, Ming-Chi Kuo, apontou que o progresso da empresa em IA generativa fica atrás dos concorrentes, e não há indicações imediatas de que esses modelos de aprendizado profundo sejam integrados a produtos de hardware tão cedo. No entanto, o desenvolvimento da Apple de um chatbot interno com o codinome “GPT da Apple” poderia sugerir possíveis aprimoramentos relacionados à IA para a Siri.
Pedido de patente da Apple revelando planos para uma Siri de leitura labial inaugura uma nova era da tecnologia de reconhecimento de voz. Ao explorar a tecnologia de detecção de movimento como um meio de melhorar precisão do comando de voz, A Apple demonstra seu compromisso com refinando as experiências do usuário e mantendo-se na vanguarda da integração de IA.
Embora o cronograma de implementação permaneça obscuro, o conceito é válido potencial significativo para revolucionar as interações assistidas por voz em vários dispositivos Apple. À medida que o futuro se desenrola, os usuários da Apple antecipam ansiosamente o dia em que seu assistente virtual poderá facilmente ler seus lábios e atender a todos os seus comandos.
Crédito da imagem em destaque: Omid Armin / Unsplash
Source: Nova patente da Apple visa preparar Siri para ler seus lábios