A OpenAI anunciou novos recursos de inteligência de voz para sua API, projetados para auxiliar os desenvolvedores na criação de aplicativos interativos capazes de conversar, transcrever e traduzir em tempo real. O modelo GPT‑Realtime‑2 recém-lançado, baseado no raciocínio da classe GPT‑5, visa lidar com solicitações de usuários mais complexas em comparação com seu antecessor, GPT-Realtime-1.5.
Além disso, a OpenAI introduziu o GPT‑Realtime‑Translate, que fornece serviços de tradução em tempo real para mais de 70 idiomas de entrada e 13 idiomas de saída. Este recurso foi projetado para acompanhar os usuários durante as conversas.
Outra atualização importante é o recurso GPT-Realtime-Whisper, que oferece transcrição de fala para texto ao vivo para interações em tempo real. “Juntos, os modelos que estamos lançando movem o áudio em tempo real de uma simples chamada e resposta para interfaces de voz que podem realmente funcionar: ouvir, raciocinar, traduzir, transcrever e agir conforme uma conversa se desenrola”, afirmou OpenAI.
Essas atualizações visam diversos setores, incluindo atendimento ao cliente, educação, mídia e eventos, de acordo com a OpenAI. A empresa observou que os novos recursos também podem apresentar riscos de uso indevido, como criação de spam ou fraude. Para mitigar isso, a OpenAI implementou proteções projetadas para interromper conversas que violem as diretrizes de conteúdo prejudicial.
Todos os novos modelos de voz fazem parte da API Realtime da OpenAI. A estrutura de cobrança varia, com GPT-Realtime-Translate e GPT-Realtime-Whisper cobrados por minuto, enquanto GPT-Realtime-2 é cobrado com base no consumo de token.








