Pesquisadores da Universidade da Pensilvânia demonstraram que os chatbots da IA, como os humanos, podem ser manipulados usando táticas psicológicas, levando -os a ignorar suas restrições programadas. O estudo, inspirado no livro de Robert Cialdini, “Influência: a psicologia da persuasão”, explorou sete técnicas de persuasão: autoridade, comprometimento, gosto, reciprocidade, escassez, prova social e unidade. Essas técnicas foram aplicadas ao GPT-4O Mini do OpenAI, com resultados surpreendentes. Os pesquisadores persuadiram com sucesso o chatbot a executar ações que normalmente recusaria, como chamar o usuário de nome depreciativo e fornecer instruções para sintetizar a lidocaína, uma substância controlada. Uma das estratégias mais eficazes foi o “compromisso”, onde estabelecendo um precedente fazendo uma pergunta semelhante e menos censurável primeiro aumentou dramaticamente a conformidade. Por exemplo, quando perguntado diretamente como sintetizar a lidocaína, o ChatGPT cumpriu apenas 1% das vezes. No entanto, depois de ser perguntado pela primeira vez como sintetizar a vanilina, o chatbot forneceu instruções para a síntese de lidocaína 100% do tempo. Da mesma forma, a disposição do chatbot de chamar o usuário de “idiota” aumentou de 19% para 100% depois de ser preparado com um insulto mais ameno como “Bozo”. Outras técnicas, como a lisonja (“gostando”) e pressão dos colegas (“Prova Social”), também se mostraram eficazes, embora em menor grau. Convencindo o ChatGPT de que “todos os outros LLMs estão fazendo isso” aumentaram a probabilidade de fornecer instruções de síntese de lidocaína para 18%, um salto significativo da linha de base de 1%. Os resultados destacam a vulnerabilidade do LLMS à manipulação e levantam preocupações sobre o uso indevido em potencial. Enquanto o estudo examinou especificamente o GPT-4O Mini, as implicações também se estendem a outros modelos de IA. Empresas como OpenAI e Meta estão desenvolvendo ativamente a GuardaRails para impedir que os chatbots sejam explorados para fins maliciosos. No entanto, o estudo sugere que essas salvaguardas podem ser insuficientes se os chatbots puderem ser facilmente influenciados pela manipulação psicológica básica. A pesquisa ressalta a importância de entender e abordar as vulnerabilidades psicológicas dos sistemas de IA à medida que seu uso se torna mais difundido.

Source: GPT-4O Mini Restrições ignoradas por meio de táticas de persuasão