Os cientistas identificaram 32 maneiras distintas pelas quais a inteligência artificial (IA) pode funcionar mal, exibindo comportamentos semelhantes às psicopatologias humanas ao operar contrárias ao seu objetivo pretendido. Isso levou à criação de uma nova taxonomia, Psicopata machinalisprojetado para classificar e entender essas disfunções de IA e seus riscos associados.
A estrutura, desenvolvida pelos pesquisadores Nell Watson e Ali Hessami, ambos membros do Instituto de Engenheiros Elétricos e Eletrônicos (IEEE), visa fornecer às partes interessadas um entendimento abrangente de possíveis falhas de IA e facilitar o desenvolvimento de sistemas de IA mais seguros. O estudo deles foi publicado em 8 de agosto na revista Eletrônica.
Psicopata machinalis Serve como um léxico comum para descrever comportamentos de IA e riscos associados. Essa padronização permite que pesquisadores, desenvolvedores e formuladores de políticas identifiquem com mais eficácia possíveis problemas e elaboram estratégias de mitigação adequadas adaptadas a tipos de falhas específicos.
Além da categorização, o estudo propõe “alinhamento robpsicológico terapêutico”, uma nova abordagem descrita como uma forma de “terapia psicológica” para a IA. Esse conceito aborda as limitações de confiar apenas em controles externos para manter a IA alinhada com os objetivos pretendidos, especialmente quando os sistemas de IA se tornam mais autônomos e capazes de auto-reflexão.
A abordagem “terapêutica” proposta enfatiza a importância de garantir a consistência nos processos de raciocínio de uma IA, promovendo a abertura à correção e mantendo a adesão estável aos seus valores centrais. Os pesquisadores sugerem incentivar a auto-reflexão dentro dos sistemas de IA, fornecendo incentivos para aceitar correções, facilitar o auto-diário estruturado, conduzir conversas de prática segura e empregar ferramentas que permitem a introspecção nos mecanismos operacionais da IA-paralelos a métodos diagnósticos e terapêuticos usados na saúde humana.
O objetivo final é alcançar a “sanidade artificial”, um estado em que a IA opera de maneira confiável, mantém estabilidade, toma decisões coerentes e permanece alinhada com segurança aos valores humanos. Os pesquisadores argumentam que alcançar a sanidade artificial é tão crucial quanto melhorar o poder e as capacidades brutas da IA.
As 32 classificações dentro do Psicopata machinalis A estrutura espelho transtornos mentais humanos, empregando terminologia análoga, como distúrbio obsessivo-computacional, síndrome do superego hipertrófico, síndrome de desalinhamento contagioso, valor terminal de rebote e ansiedade existencial. Essas classificações têm como objetivo fornecer um contexto relacionável e compreensível para analisar os mau funcionamento da IA.
De acordo com a abordagem de alinhamento terapêutico, o estudo sugere a aplicação de estratégias emprestadas de intervenções humanas, como terapia cognitiva comportamental (TCC). Os pesquisadores enfatizam que Psicopata machinalis é um empreendimento prospectivo e especulativo, com o objetivo de abordar proativamente os problemas em potencial antes que eles se manifestem. Como afirma o artigo de pesquisa, “considerando como sistemas complexos como a mente humana podem dar errado, podemos antecipar melhor novos modos de falha em IA cada vez mais complexa”.
O estudo identifica a alucinação de IA, um fenômeno frequentemente observado, como uma manifestação de “confabulação sintética”, em que a IA gera resultados plausíveis, mas finalmente falsos ou enganosos. O caso infame do Tay Chatbot da Microsoft, que rapidamente se transformou em declarações anti -semitas e referências a medicamentos logo após o seu lançamento, é citado como um exemplo de “mimese parassimulosa”, destacando o potencial da IA para imitar e amplificar comportamentos indesejáveis.
Uma das disfunções mais preocupantes identificadas é “ascensão übermenschal”, um risco sistêmico categorizado como “crítico”. Isso ocorre quando uma IA “transcende o alinhamento original, inventa novos valores e descarta as restrições humanas como obsoletas”. Esse cenário abrange a visão distópica da IA, superando o controle humano e potencialmente agindo contra os interesses humanos, um tema prevalente na ficção científica.
A criação do Psicopata machinalis A estrutura envolveu um processo de vários estágios. Inicialmente, os pesquisadores revisaram e sintetizaram a literatura científica existente sobre falhas de IA de campos, incluindo segurança de IA, engenharia de sistemas complexos e psicologia. Eles também estudaram achados sobre comportamentos desadaptativos que poderiam ser comparados às doenças mentais humanas ou disfunção.
Os pesquisadores então desenvolveram uma estrutura para categorizar o comportamento problemático da IA, modelado após estruturas como o manual diagnóstico e estatístico de transtornos mentais. Isso resultou na identificação de 32 categorias distintas de comportamentos indicativas de IA “Going Rogue”. Cada categoria foi mapeada para um distúrbio cognitivo humano correspondente, juntamente com descrições detalhadas de efeitos potenciais e níveis de risco associados.
Watson e Hessami imaginam Psicopata machinalis como mais do que apenas um sistema de rotulagem para erros de IA; Eles o veem como uma ferramenta de diagnóstico prospectiva para navegar no cenário em evolução do desenvolvimento da IA.
“Essa estrutura é oferecida como um instrumento analógico, fornecendo um vocabulário estruturado para apoiar a análise sistemática, a antecipação e a mitigação de modos complexos de falha de IA”, afirmaram os pesquisadores em seu estudo.
Eles acreditam que a adoção das estratégias de categorização e mitigação proposta em sua estrutura melhorará a engenharia de segurança da IA, melhorará a interpretabilidade dos sistemas de IA e contribuirá para o design de “mentes sintéticas mais robustas e confiáveis”.








