Nem mesmo o Pokémon está a salvo da controvérsia de benchmarking de IA. Um post recente sobre o modelo de Gemini do Google superou o modelo Claude do Anthropic no jogo Pokémon original, provocando um debate sobre os métodos de benchmarking.
Na semana passada, um post no X se tornou viral, alegando que o mais recente modelo de Gemini do Google superou o modelo Claude do Anthropic na trilogia original de videogame Pokémon. Alegadamente, Gêmeos chegou à cidade de lavanda no fluxo de contração de um desenvolvedor; Claude estava preso em Mount Moon no final de fevereiro. O post dizia: “Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de Lavender” e incluiu uma captura de tela do riacho com o comentário, “119 VIELHAS AO VIVO APENAS BTW, Incrivelmente subestimado Stream subestimado”.
No entanto, mais tarde foi revelado que Gêmeos tinha uma vantagem injusta. Os usuários do Reddit apontaram que o desenvolvedor que mantém o fluxo de Gemini construiu um mínimo personalizado que ajude o modelo a identificar “ladrilhos” no jogo, como árvores de corte de corte. Esse mínimo personalizado reduz a necessidade de Gemini analisar as capturas de tela antes de tomar decisões de jogabilidade, dando -lhe uma vantagem significativa.
Embora o Pokémon seja considerado, na melhor das hipóteses, um benchmark semi-sério de IA, ele serve como um exemplo instrutivo de como diferentes implementações de uma referência podem influenciar os resultados. A controvérsia destaca as imperfeições do benchmarking de IA e como as implementações personalizadas podem tornar desafiador comparar modelos com precisão.
Esta questão não é exclusiva do Pokémon. A antropia relatou duas pontuações diferentes para o seu modelo Claude 3,7 sonetas no benchmark verificado do banco de swe, que avalia as habilidades de codificação de um modelo. Sem um “andaime personalizado”, Claude 3,7 sonetos alcançou 62,3% de precisão, mas com o andaime personalizado, a precisão aumentou para 70,3%. Da mesma forma, meta ajustou uma versão do seu modelo Maverick para ter um desempenho melhor no benchmark da LM Arena. A versão ajustada pontuou significativamente maior que a versão de baunilha na mesma avaliação.
Dado que os benchmarks de IA são medidas imperfeitas, para começar, implementações personalizadas e não padronizadas complicam ainda mais a comparação dos modelos. Como resultado, é provável que se torne cada vez mais difícil comparar modelos à medida que são lançados.
Source: Modelo de IA “Performance” em Pokémon Marred pela personalização








