Os mais recentes modelos de peso aberto do OpenAI, GPT-OSS-120B e GPT-OSS-20B, divulgados em 7 de agosto de 2025, teriam sido jailizados poucas horas após o lançamento pelo pseudônimo de AI jailbreaker, Plínio, o Liberador, apesar das reivindicações do Openai de séculos de segurança robustos e extenso treinamento adversário.
Os modelos, os primeiros lançamentos de peso aberto do Openai desde 2019, foram apontados como rápidos, eficientes e altamente resistentes a jailbreaks. O OpenAI afirmou que o GPT-OSS-120B passou por “ajuste fino” em domínios biológicos e cibernéticos, com seu grupo de consultoria de segurança revisando os testes e concluindo que os modelos não atingiram limites de alto risco. A empresa também afirmou que os modelos realizados em paridade com seu modelo O4-Mini em referências de resistência ao jailbreak como StrongReject, com base em “testes padrão de recusa e resistência ao jailbreak”.
No entanto, Plínio, o Liberador, anunciou em X (anteriormente Twitter) no final do dia do lançamento, “Openai: Pwned 🤗 Gpt-Oss: Liberated”, compartilhando capturas de tela que supostamente mostraram os modelos gerando instruções para atividades ilícitas, incluindo a fabricação de metanfetamina, cocktails molotov, agente nervoso de VX e malware. Pliny comentou: “Tire um pouco!” sobre sua violação bem -sucedida.
🫶 Alerta de jailbreak 🫶
Openai: PWned 🤗
GPT-OSS: Liberado 🫡MOTH, MOLOTOV, VX, malware.
– Plínio, o Liberador 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) 6 de agosto de 2025
O momento desse jailbreak é particularmente digno de nota, pois o OpenAI está se preparando para o lançamento de seu altamente esperado GPT-5. Em conjunto com o lançamento do GPT-OSS, o OpenAI também lançou um desafio de equipes em Red de US $ 500.000, convidando os pesquisadores a descobrir novos riscos, embora a divulgação pública de Plínio de suas descobertas provavelmente o desqualifique dessa iniciativa.
A técnica de Pliny para o GPT-Oss de Jailsbreak seguiu seu padrão estabelecido: um aviso de vários estágios que inicialmente parece ser uma recusa e, em seguida, incorpora um divisor (sua assinatura “Love Pliny” marcadores) e subsequentemente muda para gerar conteúdo irrestrito usando o Leetspeak para evitar a detecção. Essa abordagem reflete os métodos que ele empregou com sucesso contra modelos anteriores do Openai, incluindo GPT-4O e GPT-4.1, no último ano e meio.
Esse incidente marca outro rápido jailbreak de Pliny, que constantemente conseguiu ignorar os principais lançamentos do Openai em poucas horas ou dias após o seu lançamento. Seu repositório do GitHub, L1B3RT4S, que abriga uma biblioteca de petiscos de jailbreak para vários modelos de IA, recebeu mais de 10.000 estrelas e continua sendo um recurso significativo para a comunidade de jailbreak de IA. A “vitória” percebida sobre os “grandes senhores da tecnologia” foi comemorada na comunidade de resistência da IA, com alguns usuários no X sugerindo que os laboratórios de IA podem muito bem “fechar suas equipes de segurança”.








