Modelo de IA “Performance” em Pokémon Marred pela personalização

Nem mesmo o Pokémon está a salvo da controvérsia de benchmarking de IA. Um post recente sobre o modelo de Gemini do Google superou o modelo Claude do Anthropic no jogo Pokémon original, provocando um debate sobre os métodos de benchmarking.

Na semana passada, um post no X se tornou viral, alegando que o mais recente modelo de Gemini do Google superou o modelo Claude do Anthropic na trilogia original de videogame Pokémon. Alegadamente, Gêmeos chegou à cidade de lavanda no fluxo de contração de um desenvolvedor; Claude estava preso em Mount Moon no final de fevereiro. O post dizia: “Gêmeos está literalmente à frente do caixa eletrônico de Claude em Pokemon depois de chegar à cidade de Lavender” e incluiu uma captura de tela do riacho com o comentário, “119 VIELHAS AO VIVO APENAS BTW, Incrivelmente subestimado Stream subestimado”.

No entanto, mais tarde foi revelado que Gêmeos tinha uma vantagem injusta. Os usuários do Reddit apontaram que o desenvolvedor que mantém o fluxo de Gemini construiu um mínimo personalizado que ajude o modelo a identificar “ladrilhos” no jogo, como árvores de corte de corte. Esse mínimo personalizado reduz a necessidade de Gemini analisar as capturas de tela antes de tomar decisões de jogabilidade, dando -lhe uma vantagem significativa.

Embora o Pokémon seja considerado, na melhor das hipóteses, um benchmark semi-sério de IA, ele serve como um exemplo instrutivo de como diferentes implementações de uma referência podem influenciar os resultados. A controvérsia destaca as imperfeições do benchmarking de IA e como as implementações personalizadas podem tornar desafiador comparar modelos com precisão.

Esta questão não é exclusiva do Pokémon. A antropia relatou duas pontuações diferentes para o seu modelo Claude 3,7 sonetas no benchmark verificado do banco de swe, que avalia as habilidades de codificação de um modelo. Sem um “andaime personalizado”, Claude 3,7 sonetos alcançou 62,3% de precisão, mas com o andaime personalizado, a precisão aumentou para 70,3%. Da mesma forma, meta ajustou uma versão do seu modelo Maverick para ter um desempenho melhor no benchmark da LM Arena. A versão ajustada pontuou significativamente maior que a versão de baunilha na mesma avaliação.

Dado que os benchmarks de IA são medidas imperfeitas, para começar, implementações personalizadas e não padronizadas complicam ainda mais a comparação dos modelos. Como resultado, é provável que se torne cada vez mais difícil comparar modelos à medida que são lançados.

Source: Modelo de IA “Performance” em Pokémon Marred pela personalização

Modelo de IA “Performance” em Pokémon Marred pela personalização

Related Stories

Apple ativa Siri AI no Apple Watch no watchOS 27 beta 3

Há rumores de que a Apple lançará o iPhone Ultra dobrável em 2026

Google altera regras de armazenamento para backups de celulares Android

Samsung agenda quarto One UI 9 beta para Galaxy S26