O OpenAi ChatGPT-5 mostra uma taxa de erro de 25% no estudo

Um estudo sobre o modelo ChatGPT-5 da OpenAI determinou que ele produz respostas incorretas em aproximadamente 25% dos casos, de acordo com um artigo do Tom’s Guide. Embora isso destaque uma taxa de erro persistente, o modelo demonstra melhorias significativas na precisão em comparação com seu antecessor, GPT-4. Especificamente, o ChatGPT-5 comete cerca de 45% menos erros factuais e gera seis vezes menos respostas alucinadas ou totalmente inventadas que o GPT-4. Apesar desse progresso, o estudo relata que o modelo ainda sofre de excesso de confiança e pode apresentar informações incorretas com confiança, uma característica frequentemente chamada de alucinação. O desempenho e a precisão do modelo variam dependendo da tarefa específica. Por exemplo, ele obteve 94,6% no teste de matemática de 2025 Aime e teve uma taxa de sucesso de 74,9% em um conjunto de tarefas de codificação do mundo real. No benchmark mais desafiador do MMLU Pro, um teste acadêmico que cobre ciências, matemática e história, o ChatGPT-5 alcançou uma precisão de cerca de 87%. No entanto, ainda comete erros no conhecimento geral e questões complexas de raciocínio. O estudo atribui esses erros a vários fatores subjacentes. Isso inclui as limitações do modelo para entender completamente as questões sutis, usando dados de treinamento que podem estar desatualizados ou incompletos e seu design fundamental com base na predição de padrões probabilísticos. Ocasionalmente, esse mecanismo pode gerar respostas que parecem plausíveis, mas são factualmente imprecisas. O artigo aconselha os usuários a verificar qualquer informação crítica proveniente do ChatGPT-5. Dado que o modelo não é infalível, essa cautela é particularmente importante para perguntas relacionadas a questões profissionais, acadêmicas ou de saúde, mesmo com as melhorias documentadas do modelo em confiabilidade.

Source: O OpenAi ChatGPT-5 mostra uma taxa de erro de 25% no estudo

O OpenAi ChatGPT-5 mostra uma taxa de erro de 25% no estudo

Related Stories

Google encerra linha de alto-falantes Nest com estreia de novo modelo Home de US$ 100

Instagram lança legendas exclusivas para cada slide do carrossel

Spotify lança ingressos reservados para usuários Premium dos EUA

Google Earth lança modo simulador de vôo baseado em navegador em todo o mundo