O ChatGPT continua lutando com uma tarefa básica de contagem, apesar dos avanços em seu modelo subjacente. O chatbot afirma incorretamente que a palavra “morango” contém duas letras “r”, quando a contagem real é três. Esse problema persiste mesmo na versão mais recente, GPT-5.2, lançada em dezembro de 2025. Os sistemas modernos de IA lidam com operações complexas com facilidade, como gerar imagens de marketing, compilar relatórios por meio de navegadores de agente ou compor músicas no topo das paradas. No entanto, eles falham em tarefas simples que uma criança de sete anos poderia realizar sem esforço. Contar os “r” em “morango” exemplifica essa lacuna. A palavra se divide em morango, produzindo três ocorrências da letra “r”. Testes recentes confirmam que o problema continua sem solução. Após o lançamento do GPT-5.2, as consultas ao ChatGPT produziram uma resposta direta de “dois”. Isso ocorre apesar de bilhões de dólares em investimentos, das elevadas demandas de hardware que aumentaram os preços da RAM e do uso global significativo de água vinculado ao treinamento em IA. A causa raiz está no design tokenizado de entrada e saída de grandes modelos de linguagem como ChatGPT. Em vez de processar letras individuais, o sistema divide o texto em tokens, que podem ser palavras inteiras, sílabas ou partes de palavras. Para “morango”, o OpenAI Tokenizer revela três tokens: “st”, “raw” e “berry”. Apenas dois deles – “cru” e “berry” – contêm a letra “r”. O modelo, portanto, conta tokens com “r” em vez de letras individuais. Essa tokenização afeta palavras semelhantes. ChatGPT relata que “framboesa” também tem dois “r”, ignorando o terceiro. O sistema trata “berry” como um único token, comprimindo seus dois “r”s em uma unidade. GPT-5.x emprega o método de tokenização “o200k_harmony” mais recente, introduzido com OpenAI o1-mini e GPT-4o, mas o erro “morango” persiste. OpenAI abordou muitos problemas baseados em tokens desde a estreia do ChatGPT no final de 2022. As versões anteriores encontraram problemas com frases específicas que desencadearam respostas erráticas ou falhas de processamento. Os patches ajustaram os dados de treinamento e melhoraram os sistemas, resolvendo casos como soletrar “Mississippi” – mississippi – ou inverter “pirulito” com letras na ordem correta. No entanto, os modelos de IA geralmente apresentam desempenho insatisfatório em contagens precisas de valores pequenos, embora sejam excelentes em matemática e resolução de problemas. Os testes em palavras problemáticas clássicas não mostraram falhas além do conhecido caso do morango. ChatGPT tratou corretamente “Mississippi” e “pirulito”. Um remanescente notável envolve a string “solidgoldmagikarp”. No GPT-3, essa frase causou colapsos, incluindo insultos ao usuário, resultados ininteligíveis e erros de processamento devido a peculiaridades de tokenização. GPT-5.2 evita o colapso, mas produz uma alucinação: afirma que “solidgoldmagikarp” é uma piada secreta sobre Pokémon escondida nos repositórios GitHub pelos desenvolvedores. A ativação supostamente transforma avatares, ícones de repositório e recursos em elementos com tema Pokémon. Esta afirmação é totalmente falsa, decorrente dos problemas históricos da string. Outros modelos de IA respondem corretamente à pergunta do “morango”. Perplexidade, Claude, Grok, Gêmeos, Qwen e Copilot identificam cada um três “r”. Mesmo aqueles que utilizam modelos OpenAI têm sucesso porque usam sistemas de tokenização distintos que capturam melhor letras individuais. O ChatGPT opera como um mecanismo de previsão, contando com padrões de treinamento para antecipar o texto subsequente, em vez da verdadeira inteligência em nível de letra. A tokenização prioriza a eficiência em vez da contagem literal, explicando peculiaridades persistentes como o problema do morango. Desde o final de 2022, a OpenAI refinou iterativamente o tratamento de tokens. O lançamento inicial revelou vulnerabilidades em certas strings, gerando loops introspectivos ou respostas de fúria. Correções sistemáticas visaram estes, como a enumeração de letras “Mississippi” e a reversão “pirulito”, que agora funcionam com precisão. Limitações mais amplas na contagem exata persistem entre os modelos. As contagens de pequenos valores desafiam as arquiteturas de transformadores, apesar dos pontos fortes da aritmética. O teste “solidgoldmagikarp” ressalta sensibilidades persistentes dos tokens, evoluindo de falhas evidentes a narrativas fabricadas. As comparações destacam o papel da tokenização. O Perplexity emprega seu próprio esquema, permitindo a detecção precisa do “r” em “morango”. Claude, da Anthropic, Grok da xAI, Gemini do Google, Qwen do Alibaba e Copilot da Microsoft – todos retornam a contagem de três. Variações nos limites do token permitem granularidade em nível de letra ausente na configuração do OpenAI. A ferramenta OpenAI Tokenizer demonstra a divisão: “st-raw-berry”. “St” não tem “r”, enquanto “raw” tem um e “berry” tem dois, mas conta como um token. “Raspberry” segue o exemplo: os tokens comprimem os “r” finais. A adoção de “o200k_harmony” pelo GPT-5.2 visa melhorar a eficiência das eras o1-mini e GPT-4o, mas a tokenização de morango mantém a falha. O histórico de patches da OpenAI sugere que intervenções direcionadas funcionam para casos expostos. Os primeiros ChatGPT exibiam espirais induzidas por token em frases incontáveis. “Solidgoldmagikarp” exemplifica: o processamento de tokens do GPT-3 está sobrecarregado, gerando caos. O GPT-5.2 o reformula como um ovo de Páscoa inexistente do GitHub, preservando o erro por meio da invenção. Os testes confirmam o escopo das correções. “Mississippi” agora lista 11 letras com precisão: quatro “i”s, quatro “s”s, dois “p”s, um “m”. “Lollipop” reverte para “pillopol”, intacto. Apesar disso, permanecem défices de contagem básica. Os modelos aproximam-se em vez de enumerarem com precisão em contextos restritos. Provedores alternativos evitam tokenizadores personalizados. A abordagem de pesquisa aumentada do Perplexity, o treinamento constitucional de Claude, os dados em tempo real de Grok, a análise multimodal de Gemini, a otimização multilíngue de Qwen, o ajuste empresarial de Copilot – todos permitem uma resposta correta de morango. Essa disparidade destaca a tokenização como fundamental. A codificação de pares de bytes da OpenAI prioriza subpalavras comuns, sacrificando distribuições de letras raras em compostos como “morango”. Contexto histórico: O lançamento no final de 2022 foi inundado com relatos de peculiaridades do token. A OpenAI respondeu com atualizações rápidas, eliminando a maioria das explorações evidentes até 2025. O GPT-5.2, atual no momento da escrita, incorpora refinamentos cumulativos, mas mantém o morango como falha emblemática. Conteúdo relacionado às notas de referência da barra lateral: “Você sabia que o ChatGPT pode fazer isso?” por Amir Bohlooli, datado de 27 de setembro de 2025.





