Você pode melhorar o GPT-4 com OpenAI Evals

Conheça as avaliações da OpenAI. Juntamente com o lançamento do GPT-4, a OpenAI também lançou uma estrutura de software de código aberto para testar a eficácia de seus modelos de IA.

A equipe da OpenAI anunciou um novo conjunto de ferramentas que estão chamando de Evals, que permitirá a qualquer pessoa relatar problemas com os modelos da empresa e liderar mudanças.

somos OpenAI Evals de código aberto, nossa estrutura para avaliação automatizada do desempenho do modelo de IA, para permitir que qualquer pessoa ajude a melhorar nossos modelos.
—Sam Altman (@sama) 14 de março de 2023

O que são avaliações OpenAI?

Em um postagem no bloga OpenAI descreve essa metodologia como uma “abordagem de crowdsourcing” para validar modelos.

“Usamos Evals para orientar o desenvolvimento de nossos modelos (tanto identificando deficiências quanto prevenindo regressões), e nossos usuários podem aplicá-lo para rastrear o desempenho em versões de modelos e integrações de produtos em evolução”, escreve OpenAI. “Esperamos que o Evals se torne um veículo para compartilhar e fazer crowdsourcing de benchmarks, representando um conjunto mais amplo de modos de falha e tarefas difíceis.”
-OpenAI

O objetivo do projeto Evals da OpenAI é construir e executar benchmarks que possam ser usados para avaliar a eficácia de modelos como o GPT-4 por meio de uma análise cuidadosa de seu desempenho. Com Evals, os programadores podem gerar perguntas usando conjuntos de dados, avaliar a precisão das respostas de um modelo OpenAI e avaliar a eficácia de vários conjuntos de dados e modelos.

Evals não é apenas compatível com versões anteriores de vários benchmarks de IA conhecidos, mas também permite que você crie novas classes para usar sua própria lógica de avaliação. Para servir como referência, a OpenAI projetou uma avaliação de quebra-cabeças lógicos com 10 exemplos de problemas com os quais o GPT-4 luta.

É tudo trabalho voluntário, o que é uma grande chatice. No entanto, a OpenAI pretende fornecer acesso GPT-4 a indivíduos que fornecem benchmarks de “alta qualidade” para incentivar o uso de Evals.

“Acreditamos que os Evals serão parte integrante do processo de uso e desenvolvimento de nossos modelos e agradecemos contribuições diretas, perguntas e feedback.”
-OpenAI

A OpenAI, que anunciou que deixará de utilizar os dados do consumidor para treinar seus modelos por padrão, está se juntando às fileiras daqueles que recorreram ao crowdsourcing para fortalecer os modelos de IA usando Evals.

Você está em GPT-4? Confira estes: