Em um artigo de pesquisa inovador divulgado pelo OpenAI, os pesquisadores forneceram uma explicação matemática rigorosa sobre por que grandes modelos de idiomas (LLMS) como o ChatGPT frequentemente alucinam – gerando conferentemente informações falsas. O estudo, publicado em 16 de setembro de 2025, por Wei Xing na conversa, argumenta que essa questão não é apenas uma falha de treinamento, mas uma conseqüência inerente de como esses modelos operam. Embora o artigo ofereça soluções em potencial, ele ressalta que implementá -las pode atrapalhar as experiências do usuário e disparar custos computacionais, tornando improvável a adoção improvável para aplicativos de consumidores. O problema principal decorre da natureza autoregressiva do LLMS, que gera respostas prevendo uma palavra de cada vez com base em probabilidades derivadas dos dados de treinamento. Esse processo seqüencial leva inerentemente ao acúmulo de erros. Segundo os pesquisadores, a taxa total de erros para gerar uma frase inteira é pelo menos duas vezes mais alta que a taxa de erro para uma pergunta simples de sim/não. Por exemplo, se um modelo tiver uma taxa de erro de 10% em consultas binárias, os erros no nível da sentença podem dobrar para 20% ou mais, pois as imprecisões se composam em vários tokens. As alucinações são fundamentalmente delimitadas pela capacidade do modelo de classificar respostas válidas versus inválidas, uma tarefa que se mostra desafiador em diversos domínios de conhecimento. Mesmo com dados de treinamento sem falhas, o mecanismo de previsão probabilístico garante algum nível de falsidades inevitáveis. O artigo enfatiza que a raridade da informação no treinamento de conjuntos de dados exacerba isso. Os fatos que aparecem com pouca frequência são mais propensos a se lembrar ou de fabricação. Um exemplo impressionante envolve aniversários de figuras notáveis. A análise constatou que, se 20% desses aniversários aparecerem apenas uma vez nos dados de treinamento, o Base LLMS deve errar pelo menos 20% das consultas relacionadas. Para ilustrar, os pesquisadores testaram modelos de ponta no aniversário de Adam Kalai, um dos co-autores do artigo. O modelo Deepseek-V3, em tentativas separadas, produz três datas muito incorretas: “03-07”, “15-06” e “01-01”. A data real cai no outono, destacando como os modelos podem afirmar com confiança os detalhes distantes da realidade. Compondo o problema é a estrutura de avaliação usada nos benchmarks de IA. O estudo revisou dez principais benchmarks, incluindo os do Google, OpenAI e liderança de classificação de IA. Nove deles empregam sistemas de classificação binária que concedem zero pontos por expressões de incerteza, como “Eu não sei”. Essa configuração equivale a admissões honestas de ignorância com erros definitivos, criando um incentivo perverso para que os modelos sempre adivinhem, em vez de se abster. Matematicamente, os pesquisadores provam que, sob avaliação binária, a adivinhação produz uma pontuação esperada mais alta do que a retenção de uma resposta, independentemente da verdadeira probabilidade de correção. Se um modelo tem uma pequena chance – digamos, 1% – de estar certo, a recompensa potencial supera a penalidade por se abster. Essa “epidemia” de penalizar a incerteza, como os autores a descrevem, perpetua saídas excessivas e sufoca o progresso em direção a IA mais confiável. O remédio proposto pelo OpenAI envolve a integração da estimativa de confiança no processo de tomada de decisão do modelo. Antes de responder, a IA avaliaria seu nível de certeza e só prosseguia se exceder um limite predefinido. Os benchmarks seriam então ajustados para pontuar com base nessa confiança, como a penalização dos erros mais pesadamente (por exemplo, -3 pontos) enquanto recompensa as respostas corretas (+1 ponto) e permitem a abstenção de casos de baixa confiança. A estrutura matemática demonstra que os limiares apropriados incentivariam os modelos a expressar incerteza naturalmente, reduzindo as alucinações. No entanto, a implementação prática revela desvantagens significativas. O artigo estima que a aplicação de um limite de confiança de 75% pode levar o ChatGPT a responder “Eu não sei” a cerca de 30% das consultas, com base em lacunas factuais nos dados de treinamento. Os usuários, habituados a respostas instantâneas e autoritárias, podem achar isso frustrante e mudar para alternativas menos cautelosas. Wei Xing atrai um paralelo de seu envolvimento em um projeto de monitoramento de qualidade de ar em Salt Lake City, Utah. Quando o sistema sinaliza as incertezas – devido ao clima ou calibração adversa – as quedas de engajamento do usuário em comparação com as exibições confiantes, mesmo que imprecisas. Essa analogia ressalta uma preferência humana mais ampla pela certeza sobre a precisão, o que pode corroer a adoção da IA ​​com reconhecimento de incerteza em ambientes de consumidores. Além da experiência do usuário, as demandas computacionais representam uma barreira formidável. A quantificação da incerteza requer avaliar vários caminhos de resposta e estimar intervalos de confiança, um processo muito mais intensivo em recursos do que a previsão padrão do token. Para serviços de manuseio de milhões de consultas diárias, isso pode multiplicar os custos operacionais drasticamente. Os métodos estabelecidos de quantificação de incerteza, desenvolvidos ao longo de décadas em áreas como estatísticas e aprendizado de máquina, são eficazes, mas computacionalmente caros. Técnicas avançadas como aprendizado ativo – onde a IA faz perguntas esclarecedoras para os usuários – poderia melhorar ainda mais a precisão, mas aumentava ainda mais os requisitos. Essas abordagens são viáveis ​​em domínios de alto risco, onde os erros têm consequências graves. Por exemplo, na logística da cadeia de suprimentos, negociação financeira ou diagnóstico médico, o custo de uma alucinação (por exemplo, milhões em receita perdida ou dano ao paciente) justifica o investimento em sistemas cautelosos e pesados. No design de chips ou gerenciamento de infraestrutura econômica, a IA consciente da incerteza se torna não apenas viável, mas essencial. O artigo observa que, quando os agentes de IA supervisionam operações críticas, a mudança de economia: a despesa de verificações completas de confiança empalidece os riscos de erros de excesso de confiança. No entanto, a IA do consumidor, que domina as prioridades de desenvolvimento, opera sob diferentes regras. Os usuários exigem respostas rápidas e garantidas a qualquer consulta, de curiosidades a conselhos. Os benchmarks continuam a favorecer suposições e a eficiência de hardware – como a queda de custos de energia por token ou arquiteturas de chips aprimoradas – podem acabar por baixar barreiras. No entanto, em relação aos modelos de adivinhação simplificados de hoje, o tratamento da incerteza sempre exigirá mais poder de processamento. O artigo expõe inadvertidamente um desalinhamento nos incentivos de negócios: velocidade e confiança impulsionam os lucros nos aplicativos de consumidores, enquanto a precisão leva um banco de trás. As técnicas pós-treinamento, como o aprendizado de reforço com o feedback humano (RLHF), atenuaram algumas alucinações, mas não conseguem abordar as causas raiz. A pesquisa prova que mesmo modelos otimizados mantêm essas inevitabilidades matemáticas. Até que os padrões de avaliação evoluam para recompensar nuances e economia computacional priorizando a confiabilidade em relação à velocidade, as alucinações suportarão como uma marca registrada da Consumer LLMS. Essa revelação desafia a trajetória da indústria de IA. À medida que os modelos se tornam maiores e mais capazes, a pressão para equilibrar a inovação com a confiabilidade se intensifica. O trabalho da OpenAI exige uma mudança de paradigma, instando os desenvolvedores, os criadores de referência e os usuários a valorizar as respostas calibradas. Nos setores de alto valor, a adoção parece iminente; Para as ferramentas do cotidiano, continua sendo uma perspectiva distante. Os autores do artigo, incluindo pesquisadores do Openai, concluem que, sem realinhamento de incentivo, a busca da IA ​​impecável permanecerá ilusória. Como Wei Xing, professor assistente da Escola de Ciências Matemáticas e Físicas da Universidade de Sheffield, observa o artigo republicado da conversa sob uma licença Creative Commons, “os incentivos de negócios que impulsionam o desenvolvimento da IA ​​do consumidor permanecem fundamentalmente desalinhados com a redução de alucinações”. Este estudo não apenas diagnostica uma falha persistente, mas também traça um caminho a seguir-um que exige compensações entre usabilidade, custo e veracidade. À medida que a IA se integra mais à vida cotidiana, abordar essas tensões será crucial para o avanço sustentável.

Source: A OpenAI Research prova que as alucinações LLM matematicamente inevitáveis, propõe a correção dispendiosa