Um estudo sobre o modelo ChatGPT-5 da OpenAI determinou que ele produz respostas incorretas em aproximadamente 25% dos casos, de acordo com um artigo do Tom’s Guide. Embora isso destaque uma taxa de erro persistente, o modelo demonstra melhorias significativas na precisão em comparação com seu antecessor, GPT-4. Especificamente, o ChatGPT-5 comete cerca de 45% menos erros factuais e gera seis vezes menos respostas alucinadas ou totalmente inventadas que o GPT-4. Apesar desse progresso, o estudo relata que o modelo ainda sofre de excesso de confiança e pode apresentar informações incorretas com confiança, uma característica frequentemente chamada de alucinação. O desempenho e a precisão do modelo variam dependendo da tarefa específica. Por exemplo, ele obteve 94,6% no teste de matemática de 2025 Aime e teve uma taxa de sucesso de 74,9% em um conjunto de tarefas de codificação do mundo real. No benchmark mais desafiador do MMLU Pro, um teste acadêmico que cobre ciências, matemática e história, o ChatGPT-5 alcançou uma precisão de cerca de 87%. No entanto, ainda comete erros no conhecimento geral e questões complexas de raciocínio. O estudo atribui esses erros a vários fatores subjacentes. Isso inclui as limitações do modelo para entender completamente as questões sutis, usando dados de treinamento que podem estar desatualizados ou incompletos e seu design fundamental com base na predição de padrões probabilísticos. Ocasionalmente, esse mecanismo pode gerar respostas que parecem plausíveis, mas são factualmente imprecisas. O artigo aconselha os usuários a verificar qualquer informação crítica proveniente do ChatGPT-5. Dado que o modelo não é infalível, essa cautela é particularmente importante para perguntas relacionadas a questões profissionais, acadêmicas ou de saúde, mesmo com as melhorias documentadas do modelo em confiabilidade.
Source: O OpenAi ChatGPT-5 mostra uma taxa de erro de 25% no estudo




