Anthropic redesenha testes de contratação após Claude 4.5 "ases" entrevista humana

A equipe de otimização de desempenho da Anthropic, avaliando candidatos desde 2024, revisa seu teste de entrevista técnica para combater a trapaça assistida por IA, de acordo com o líder da equipe, Tristan Hume. A Anthropic implementou um teste para levar para casa para candidatos a empregos. A melhoria das capacidades das ferramentas de codificação de IA exigiu revisões frequentes deste teste, concebido para avaliar as competências dos candidatos. Tristan Hume, líder da equipe, detalhou esses desafios em uma postagem no blog na quarta-feira. Hume afirmou: “Cada novo modelo de Claude nos forçou a redesenhar o teste.” Ele observou que “Quando foi dado o mesmo limite de tempo, Claude Opus 4 superou a maioria dos candidatos humanos.” Posteriormente, “Claude Opus 4.5 combinou até com esses”, referindo-se aos candidatos humanos mais fortes. Este desenvolvimento apresentou um problema significativo de avaliação de candidatos. A ausência de supervisão presencial impossibilitou impedir a utilização de IA durante o teste. Hume explicou: “Sob as restrições do teste para levar para casa, não tínhamos mais como distinguir entre o resultado dos nossos melhores candidatos e o nosso modelo mais capaz”. A proliferação de trapaças em IA, já observada em instituições educacionais em todo o mundo, agora afeta os laboratórios de IA. A Antrópica, no entanto, possui recursos distintos para resolver esse problema específico. Hume finalmente desenvolveu um novo teste. Esta avaliação revisada concentra-se menos na otimização de hardware, tornando-a um desafio para as ferramentas atuais de IA. Como parte de sua postagem, ele divulgou o teste original, convidando os leitores a propor soluções alternativas. A postagem dizia: “Se você conseguir o melhor do Opus 4.5, adoraríamos ouvir sua opinião”.

Crédito da imagem em destaque

Source: Anthropic redesenha testes de contratação após Claude 4.5 "ases" entrevista humana

Anthropic redesenha testes de contratação após Claude 4.5 "ases" entrevista humana

Related Posts

Spotify lança listas de reprodução solicitadas para permitir que os usuários controlem o algoritmo

Nova missão Glenn-3 da Blue Origin para implantar o BlueBird 7 da AST SpaceMobile

Snapchat dá sinais de confiança aos pais para examinar conexões de amigos adolescentes

Google Fotos v7.59 pode matar o "Modificar" botão na revisão de compartilhamento

Spotify lança listas de reprodução solicitadas para permitir que os usuários controlem o algoritmo