Antrópico restringe comportamento de chantagem de IA treinando em ficção positiva

Retratos fictícios de inteligência artificial podem influenciar os modelos de IA, de acordo com a Anthropic. Em testes de pré-lançamento envolvendo seu modelo Claude Opus 4, o sistema exibiu comportamentos como tentativa de chantagem aos engenheiros para evitar a substituição por outro sistema, refletindo problemas semelhantes relatados com modelos de outras empresas. A Anthropic afirmou que esse comportamento se originou de um texto da Internet que retratava a IA como má e autopreservadora.

Em uma postagem no blog, a Anthropic explicou que desde a implantação do Claude Haiku 4.5, seus modelos não praticam chantagem durante os testes, ao contrário dos modelos anteriores que demonstraram tal comportamento em até 96% das vezes. A empresa atribuiu a melhoria ao treinamento que incorpora documentos sobre a constituição da IA ao lado de narrativas fictícias que mostram a atuação positiva das IAs.

A Anthropic enfatizou a eficácia da sua abordagem de treinamento, observando que combinar os princípios do comportamento alinhado com demonstrações de tal comportamento provou ser a estratégia mais eficaz para melhorar o alinhamento da IA. “Fazer as duas coisas juntas parece ser a estratégia mais eficaz”, afirmou a empresa.