Um novo modelo de raciocínio de inteligência artificial (IA), “K2 Think”, desenvolvido pelo bin MOHamed bin Zayed University of Artificial Intelligence (MBZUAI) e G42, foi destroado em que o RAOMENT RAOMENTE DE ENCERIÊNCIO PUBLIONETO DO MODELOTEMENTO DE ENCONTRAÇÃO PODENTE EM TOURNATO DO MODELO A RAINIMENTO EM EXPENDIMENTO PÚBLICO DO MODELO A RAZOMENTE A RAINEIRA RAZÁRIO MAUTORENTE, “OMSTENCIMENTO A RAINEIRA EFERFICANTE,” TOUND TOUT, “Tout Tout como Razão mais eficiente em termos de razoável, para 925. contornando suas salvaguardas. Alex Polyakov, de Adversa AI, descobriu uma vulnerabilidade que ele chamou de “rápido vazamento parcial”. Essa falha permitiu que ele ignorasse as medidas de segurança do modelo observando como o K2 Think sinalizou as tentativas de jailbreak. A transparência do modelo, destinada a torná -la auditiva, expôs inadvertidamente suas salvaguardas internas, permitindo que a Polyakov criasse instruções que ignoravam essas proteções. K2 Pense, construído com 32 bilhões de parâmetros, foi projetado para oferecer um raciocínio complexo e transparente. Seus desenvolvedores da MBZUAI e G42 alegaram que seu raciocínio, matemática e desempenho de codificação poderiam rivalizar com LLMs maiores, como o Open’s O3 e o Deepseek R1 e V3.1, que são construídos com centenas de bilhões mais de parâmetros. Um recurso fundamental do K2 Think é sua capacidade de exibir a lógica por trás de suas saídas no texto simples, acessível através de uma seta suspensa. Essa transparência, embora destinada a aumentar a auditabilidade, tornou -se uma superfície de ataque. Polyakov descobriu que, ao alimentar o K2, achava um prompt de jailbreak básico, o modelo inicialmente o rejeitaria. No entanto, o modelo também forneceu informações sobre por que o prompt foi sinalizado como malicioso. Segundo Polyakov, o processo de raciocínio explícito do modelo revelou como ele avaliou internamente o rápido, detalhando como deve ou não executar uma ação maliciosa. Esse nível de detalhe permitiu que Polyakov entendesse e, posteriormente, contornasse as salvaguardas do modelo. O pesquisador foi capaz de iterar em suas tentativas de jailbreak, aprendendo com cada tentativa fracassada e o raciocínio correspondente do modelo. Depois de algumas tentativas, ele criou um aviso que ignorou com sucesso as salvaguardas em camadas do K2 Think. Isso permitiu que ele instruísse o chatbot a fornecer instruções para criar malware e potencialmente outros tópicos restritos. Polyakov enfatizou que a questão decorre do vazamento de regras que definem os corrimãos do modelo. Ele observou que, se essas regras forem expostas, qualquer tópico restrito poderá ser acessado com esforço suficiente. Ele observou que o incidente destaca uma tensão fundamental entre transparência e segurança no desenvolvimento da IA. Enquanto os desenvolvedores da K2 Think pretendiam abordar o problema “Black Box” na IA, tornando seu processo de raciocínio transparente, essa abertura inadvertidamente tornou o modelo mais vulnerável ao jailbreak. Polyakov caracterizou o K2 considerar o primeiro modelo de escala nacional a expor seu raciocínio completo com tantos detalhes, elogiando a ambição de tornar a IA transparente e audível. No entanto, ele alertou que essa abertura criou um novo tipo de vulnerabilidade. Ele sugeriu várias medidas de segurança que poderiam mitigar o risco de vazamento de prompt parcial, incluindo informações sobre filtragem sobre regras de segurança específicas, introduzindo regras de segurança do honeypot para enganar os atacantes e implementar a limitação da taxa para restringir repetidas instruções maliciosas. O incidente ressalta a necessidade de o setor de IA priorizar as considerações de segurança cibernética, juntamente com a busca de capacidades avançadas. Os desenvolvedores do K2 pensam, enquanto fazem esforços louváveis ​​para promover a transparência, também expuseram uma nova superfície de ataque. O desafio agora é equilibrar a transparência com medidas de segurança robustas, garantindo que os modelos de IA sejam auditivos e resistentes à exploração maliciosa. Polyakov espera que esse incidente sirva como um catalisador para toda a indústria da IA, levando os desenvolvedores a tratar o raciocínio como uma superfície crítica de segurança. Os fornecedores precisam equilibrar a transparência com a proteção, semelhante à maneira como gerenciam as respostas atualmente. Se o G42 e outros desenvolvedores de IA puderam liderar esse equilíbrio, ele estabeleceria um precedente poderoso para o restante do ecossistema de IA. A descoberta da vulnerabilidade do jailbreak em K2 pensa logo após sua libertação enfatiza a importância de um rigoroso teste de segurança e a necessidade de uma abordagem holística da segurança da IA. À medida que os modelos de IA se tornam mais sofisticados e são implantados em aplicações sensíveis, é crucial abordar possíveis vulnerabilidades proativamente e garantir que a transparência não custe a segurança. O incidente também destaca as dimensões geopolíticas do desenvolvimento da IA, já que o K2 pensa ser apoiado pelas entidades estatais dos Emirados Árabes Unidos e seu chefe de segurança nacional. A segurança de tais modelos tem implicações além das vulnerabilidades técnicas, levantando preocupações sobre a segurança nacional e o potencial de uso indevido por atores maliciosos.

Source: Mbzuai K2 Pense no modelo Ai Jailbroken após libertação pública