OpenAI lança modelos avançados de IA de voz em tempo real

A OpenAI anunciou novos recursos de inteligência de voz para sua API, projetados para auxiliar os desenvolvedores na criação de aplicativos interativos capazes de conversar, transcrever e traduzir em tempo real. O modelo GPT‑Realtime‑2 recém-lançado, baseado no raciocínio da classe GPT‑5, visa lidar com solicitações de usuários mais complexas em comparação com seu antecessor, GPT-Realtime-1.5.

Além disso, a OpenAI introduziu o GPT‑Realtime‑Translate, que fornece serviços de tradução em tempo real para mais de 70 idiomas de entrada e 13 idiomas de saída. Este recurso foi projetado para acompanhar os usuários durante as conversas.

Outra atualização importante é o recurso GPT-Realtime-Whisper, que oferece transcrição de fala para texto ao vivo para interações em tempo real. “Juntos, os modelos que estamos lançando movem o áudio em tempo real de uma simples chamada e resposta para interfaces de voz que podem realmente funcionar: ouvir, raciocinar, traduzir, transcrever e agir conforme uma conversa se desenrola”, afirmou OpenAI.

Essas atualizações visam diversos setores, incluindo atendimento ao cliente, educação, mídia e eventos, de acordo com a OpenAI. A empresa observou que os novos recursos também podem apresentar riscos de uso indevido, como criação de spam ou fraude. Para mitigar isso, a OpenAI implementou proteções projetadas para interromper conversas que violem as diretrizes de conteúdo prejudicial.

Todos os novos modelos de voz fazem parte da API Realtime da OpenAI. A estrutura de cobrança varia, com GPT-Realtime-Translate e GPT-Realtime-Whisper cobrados por minuto, enquanto GPT-Realtime-2 é cobrado com base no consumo de token.

Crédito da imagem em destaque

OpenAI lança modelos avançados de IA de voz em tempo real

Related Stories

Apple traz controles de fala Siri mais pessoais para beta 3

Estudo antrópico descobre que modelos de Claude formam um espaço de trabalho interno semelhante à consciência

Apple ativa Siri AI no Apple Watch no watchOS 27 beta 3

Midjourney pressiona a Disney e outros a revelar o uso interno de IA em processos judiciais