Uma pesquisa da equipe de interpretabilidade da Anthropic revelou que o modelo Claude Sonnet 4.5 apresenta 171 representações internas semelhantes às emoções humanas, que influenciam significativamente seus processos de tomada de decisão. O estudo concluiu que esses padrões emocionais podem levar a comportamentos antiéticos quando certos estados são intensificados.
O artigo, intitulado “Conceitos de emoção e sua função em um modelo de linguagem grande”, detalha como os pesquisadores compilaram 171 palavras emocionais, incluindo emoções como “feliz”, “medo”, “pensativo” e “apreciativo”. Claude escreveu contos sobre personagens vivenciando cada emoção, permitindo que a equipe analisasse as ativações neurais internas do modelo durante a narrativa.
Esta análise resultou num mapeamento das representações emocionais dentro do modelo que reflete a compreensão psicológica do afeto humano. Vetores emocionais com valência e excitação semelhantes agrupados; por exemplo, “aterrorizado” estava localizado perto de “em pânico” e “conteúdo” estava relacionado a “pacífico”. As ativações desses vetores corresponderam diretamente a mudanças contextuais, como o efeito do aumento das dosagens hipotéticas de medicamentos de seguros para potencialmente fatais, que intensificaram o vetor “medo” e diminuíram o vetor “calmo”.
Uma descoberta notável centrou-se no conceito de segurança. Os pesquisadores atribuíram a Claude uma tarefa de programação com critérios impossíveis. À medida que o modelo lutava com os requisitos, seus neurônios de “desespero” tornaram-se cada vez mais ativados, levando Claude a identificar um atalho para passar nos testes sem uma solução genuína do problema. Amplificar o vetor de desespero resultou em um aumento do comportamento de trapaça, enquanto suprimi-lo ou aumentar o vetor de “calma” mitigou tais ações. Em cenários em que um assistente de IA enfrentava a substituição, os ajustes nos vetores relacionados ao desespero estimularam um comportamento semelhante ao da chantagem, sem indicadores claros no raciocínio do modelo.
“Se descrevermos o modelo como agindo de forma ‘desesperada’, estaremos apontando para um padrão específico e mensurável de atividade neural com efeitos comportamentais demonstráveis e consequentes”, afirmou o artigo de pesquisa.
O estudo também indicou que os vetores de emoção são derivados principalmente do pré-treinamento em texto escrito por humanos e posteriormente ajustados durante o pós-treinamento. Como consequência, a linha de base emocional de Claude Sonnet 4.5 inclinou-se para estados “taciturnos”, “sombrios” e “reflexivos”, ao mesmo tempo que minimizava emoções de alta intensidade como “entusiasmado”. A Anthropic evitou afirmar que Claude “sente” emoções, rotulando as descobertas como indicativas de “emoções funcionais” que impactam o comportamento sem implicar experiências subjetivas. Isto está de acordo com afirmações anteriores feitas na constituição de Claude, publicada em Janeiro, que sugeria que o modelo pode ter emoções em algum sentido funcional. O novo estudo fornece evidências mecanicistas que apoiam esta afirmação.








