Anthropic pede desculpas por estrangular secretamente Claude Fable 5 com limites ocultos

A Anthropic pediu desculpas por estrangular secretamente seu modelo de IA, Claude Fable 5, com proteções ocultas que dificultam o desenvolvimento de pesquisadores e concorrentes. A empresa afirmou que vai melhorar a transparência em relação a quando essas restrições se aplicam, mesmo que isso leve a Fable a recusar mais consultas.

Fable é o primeiro modelo amplamente disponível na classe Mythos de sistemas de IA da Anthropic, que a empresa alertou ser muito perigoso para divulgação pública. Foi lançado com salvaguardas que o impedem de responder a certas consultas de “alto risco”.

Uma área de restrição é a destilação, um método para treinar modelos menores usando resultados de modelos maiores. No cartão do sistema da Fable, a Anthropic indicou que alteraria e degradaria as respostas a consultas percebidas como tentativas de destilação sem informar os usuários sobre essas mudanças.

Agora, as consultas suspeitas de serem tentativas de destilação serão padronizadas para Claude Opus 4.8, o modelo anterior da empresa, e os usuários receberão notificações sempre que isso ocorrer. Esta alternativa também se aplica a outros domínios de alto risco, como biologia, química e segurança cibernética, a menos que essas consultas sejam totalmente bloqueadas devido a regulamentações de segurança mais amplas contra tópicos como drogas e armas.

A empresa reconheceu que as suas medidas de segurança tornaram inadvertidamente o Fable quase inutilizável para consultas básicas em áreas como biologia devido a restrições excessivas. A Anthropic admitiu que o uso de salvaguardas invisíveis foi um erro, enfatizando que a transparência nas medidas de segurança é crítica.

A decisão da empresa de ocultar restrições enfrentou uma reação significativa da comunidade de pesquisa de IA, que argumentou que isso limitava as capacidades do modelo tanto para avaliadores quanto para concorrentes. A Anthropic afirmou que utilizar Claude para criar modelos concorrentes viola seus Termos de Serviço, tendo anteriormente acusado rivais, incluindo DeepSeek, de destilar seus modelos em escala industrial.

“As salvaguardas visíveis podem ser testadas, por isso têm de ser robustas, o que leva tempo a acertar”, escreveu a Anthropic. “As salvaguardas invisíveis podem ser direcionadas de forma mais restrita, permitindo-nos entregar rapidamente com muito poucos falsos positivos. Optamos por salvaguardas invisíveis por esse motivo – e essa foi a compensação errada. Você deve ter visibilidade das salvaguardas que temos em vigor e por quê. Lamentamos não ter conseguido o equilíbrio certo”, acrescentou a empresa.

Crédito da imagem em destaque

Anthropic pede desculpas por estrangular secretamente Claude Fable 5 com limites ocultos

Related Stories

Apple traz controles de fala Siri mais pessoais para beta 3

Estudo antrópico descobre que modelos de Claude formam um espaço de trabalho interno semelhante à consciência

Apple ativa Siri AI no Apple Watch no watchOS 27 beta 3

Midjourney pressiona a Disney e outros a revelar o uso interno de IA em processos judiciais