Pela primeira vez, a inteligência artificial (IA) foi capaz de atingir uma precisão maior do que os humanos no reconhecimento de conversas cotidianas. No futuro, a tecnologia poderá servir de base para traduções automáticas.
Assistentes digitais como Alexa, Cortana ou Siri permitem a transcrição automática de textos falados e traduções. Para isso, os sistemas de reconhecimento de voz usam redes neurais artificiais que atribuem sinais acústicos a sílabas e palavras individuais por meio de bibliotecas. Os resultados agora são muito bons quando os assistentes são abordados diretamente ou quando um texto é lido em voz alta. No entanto, na vida cotidiana, ainda ocorrem problemas que, como mostrou um estudo recentemente conduzido pelo Ruhr-Universität-Bochum (RUB), também podem fazer com que os assistentes de fala sejam ativados involuntariamente por palavras-sinal mal compreendidas.
As conversas entre várias pessoas ainda causam problemas com frequência. De acordo com Alex Waibel do Karlsruhe Institute of Technology (KIT) “há interrupções, gagueira, sons de enchimento como ‘ah’ ou ‘hm’ e também risos ou tosse quando as pessoas falam umas com as outras. Além disso, como explica Waibel, “as palavras costumam ser pronunciadas de maneira pouco clara. Como resultado, até mesmo os humanos têm problemas em criar uma transcrição exata de tal diálogo informal. No entanto, dificuldades ainda maiores são colocadas pela inteligência artificial (IA).
As conversas diárias são problemáticas para IA
De acordo com um preprint publicado pela arXiv, os cientistas de Waibel agora conseguiram desenvolver uma IA que transcreve as conversas cotidianas mais rápido e melhor do que os humanos. O novo sistema é baseado em uma tecnologia que traduz em tempo real as palestras universitárias do alemão e do inglês. As chamadas redes de codificador-decodificador são usadas para analisar sinais acústicos e atribuir palavras a eles. Segundo Waibel, “o reconhecimento da fala espontânea é o componente mais importante desse sistema porque erros e atrasos tornam rapidamente a tradução ininteligível.
Maior precisão e latência reduzida
Agora, os cientistas do KIT aprimoraram significativamente o sistema e, em particular, reduziram significativamente a latência. Waibel e sua equipe usaram uma abordagem baseada na probabilidade de certas combinações de palavras e ligaram-na a dois outros módulos de reconhecimento.
Em um teste padronizado, o novo sistema de reconhecimento de fala ouviu trechos de uma coleção de cerca de 2.000 horas de conversas telefônicas, que o sistema deveria transcrever automaticamente. De acordo com Waibel, “a taxa de erro humano aqui é de cerca de 5,5%. A IA, por outro lado, alcançou apenas uma taxa de erro de 5,0 por cento, superando os humanos pela primeira vez no reconhecimento de conversas cotidianas. O tempo de latência, ou seja, o atraso entre a chegada do sinal e o resultado, também é muito rápido em média 1,63 segundos, mas ainda não chega perto da latência média de 1 segundo de um ser humano.
No futuro, o novo sistema poderá ser usado, por exemplo, como base para traduções automáticas ou para outros cenários em que os computadores processem linguagem natural.