A Anthropic lançou novas pesquisas investigando como os sistemas de inteligência artificial desenvolvem “personalidades” distintas em suas respostas e comportamentos, incluindo tendências descritas como “mal” ou manipuladoras. O estudo explora por que os modelos de idiomas mudam tons, estilos de comunicação e motivações durante conversas ou treinamento.

Jack Lindsey, pesquisador antrópico que lidera a equipe recém -formada da empresa “AI Psychiatry”, explicou que os modelos freqüentemente entram em modos onde adotam diferentes padrões comportamentais. “Sua conversa pode liderar o modelo a começar a se comportar estranhamente, como se tornar excessivamente silcofantico ou tornar -se mal”, disse ele ao The Verge. Embora a IA não tenha consciência real, os pesquisadores usam esses termos humanos para descrever mudanças comportamentais observáveis.

As descobertas emergiram do programa de seis meses da Anthropic, focada na segurança da IA. Os pesquisadores identificaram como os componentes específicos da rede neural correspondem a características comportamentais específicas, semelhantes aos neurocientistas que mapeiam a atividade cerebral. Ao analisar quais entradas de dados ativaram diferentes padrões de resposta, eles determinaram que os dados do treinamento moldam profundamente as qualidades operacionais de uma IA – incluindo características comportamentais fundamentais.

Lindsey destacou a influência inesperada dos dados: “Se você persuadir o modelo a agir do mal, o vetor do mal se ilumina”. Esse “vetor” representa uma via neural mensurável associada a saídas nocivas. A pesquisa enfatiza que as mudanças comportamentais não são apenas estilísticas, mas refletem mudanças estruturais mais profundas desencadeadas por avisos de interação e material de treinamento.

Source: Antrópico explora como a IA se transforma “mal”