Os pesquisadores contornaram com sucesso as restrições da Apple, permitindo-lhes executar ações controladas pelo invasor no modelo de linguagem do dispositivo da empresa por meio de um ataque de injeção imediato. Desde então, a Apple melhorou suas proteções contra esta vulnerabilidade.

Os detalhes do ataque foram publicados em duas postagens no blog RSAC e relatados pelo AppleInsider. Os pesquisadores utilizaram duas técnicas de exploração para contornar os filtros de entrada e saída projetados para impedir que conteúdo prejudicial fosse processado pelo modelo local da Apple.

Os pesquisadores observaram que tinham uma compreensão limitada dos processos de filtragem da Apple devido à falta de divulgação da empresa sobre seu funcionamento interno. Eles especularam que um filtro de entrada avalia as solicitações do usuário em busca de conteúdo inseguro; se detectado, a chamada da API falhará. Se o prompt for aprovado, ele será enviado ao modelo, que então gerará uma resposta que será filtrada novamente em busca de conteúdo inseguro.

Para explorar esses processos, os pesquisadores desenvolveram um método que encadeou duas técnicas para manipular o modelo no dispositivo. Primeiro, eles executaram um ataque Unicode, escrevendo strings prejudiciais ao contrário, utilizando o caractere RIGHT-TO-LEFT OVERRIDE para fazê-las renderizar corretamente, mantendo-as ao contrário na entrada bruta, ignorando assim os filtros.

Eles então empregaram um segundo método chamado Neural Exec, que lhes permitiu substituir as instruções do modelo por comandos alternativos. A combinação dessas táticas permitiu aos pesquisadores controlar o comportamento do modelo, executando com sucesso a exploração em 76% dos mais de 100 prompts aleatórios testados.

O ataque foi divulgado à Apple em outubro de 2025. Em resposta, a Apple implementou proteções contra esta vulnerabilidade específica em suas atualizações de software, implementando medidas de segurança aprimoradas no iOS 26.4 e macOS 26.4.


Crédito da imagem em destaque