OpenAI lançou o GPT-5.4 na quinta-feira, introduzindo uma versão padrão junto com as variantes GPT-5.4 Thinking e GPT-5.4 Pro. A empresa descreveu o modelo como o modelo de fronteira mais capaz e eficiente para o trabalho profissional.

A versão API suporta janelas de contexto de até 1 milhão de tokens, a maior disponível na OpenAI. O modelo também demonstra maior eficiência de tokens, resolvendo problemas com significativamente menos tokens do que seu antecessor.

GPT-5.4 alcançou pontuações recordes nos benchmarks de uso de computador OSWorld-Verified e WebArena Verified. Ele também obteve 83% no teste GDPval da OpenAI para tarefas de trabalho de conhecimento.

O modelo liderou o benchmark APEX-Agents da Mercor, que testa habilidades profissionais em direito e finanças, de acordo com o CEO da Mercor, Brendan Foody. Foody afirmou que o GPT-5.4 é excelente na criação de resultados de longo prazo, como apresentações de slides e modelos financeiros, proporcionando desempenho superior com mais rapidez e custo menor do que os concorrentes.

A OpenAI disse que o modelo tem 33% menos probabilidade de cometer erros em reivindicações individuais em comparação com o GPT 5.2. As respostas gerais têm 18% menos probabilidade de conter erros.

A empresa introduziu o Tool Search para gerenciar chamadas de ferramentas na API. O sistema procura definições de ferramentas conforme necessário, reduzindo o uso e o custo de tokens em sistemas com muitas ferramentas.

OpenAI adicionou uma nova avaliação de segurança para testar o monitoramento da cadeia de pensamento. A avaliação mostrou que o engano é menos provável na versão GPT-5.4 Thinking, sugerindo que o modelo não tem a capacidade de esconder o seu raciocínio.


Crédito da imagem em destaque