A Anthropic não divulgou um artigo técnico sobre Claude Mythos, o que levou Kye Gomez a lançar o OpenMythos, um projeto de código aberto no GitHub. OpenMythos foi projetado para reconstruir a arquitetura Claude Mythos usando os primeiros princípios do PyTorch.
O projeto propõe que Claude Mythos seja um tipo de arquitetura conhecida como Transformadores de Profundidade Recorrente (RDTs), que se diferenciam fundamentalmente dos transformadores tradicionais. Os transformadores padrão processam as entradas através de uma série de camadas exclusivas com pesos independentes, enquanto os RDTs aplicam um conjunto fixo de pesos iterativamente durante uma única passagem direta.
Esta metodologia permite que a profundidade do raciocínio dependa do número de iterações executadas no momento da inferência. OpenMythos apresenta uma estrutura de três partes: Prelúdio, Bloco Recorrente e Coda, onde o Prelúdio e o Coda consistem cada um em camadas de transformador padrão que operam uma vez, e o Bloco Recorrente pode fazer loop de até 16 vezes.
A cada etapa do loop, o estado oculto é atualizado seguindo a equação: ht+1 = A·ht + B·e + Transformer(ht, e). Aqui, e representa a entrada codificada do Prelúdio que é reinjetada em cada iteração para manter a continuidade. As matrizes A e B determinam quanto do estado oculto anterior e a entrada codificada influenciam o próximo estado.
O Bloco Recorrente incorpora uma camada de Mistura de Especialistas (MoE) que ativa seletivamente um subconjunto de especialistas por token, facilitando a diversidade computacional. Cada iteração utiliza uma seleção diferente de especialistas, permitindo cálculos distintos enquanto compartilha pesos básicos.
OpenMythos também emprega Atenção Multi-Latente, o que reduz significativamente o uso de memória KV. Essa arquitetura permite o raciocínio sem emissão de tokens intermediários, contrastando com a solicitação de cadeia de pensamento padrão, que processa o raciocínio por meio de tokens intermediários.
OpenMythos aborda desafios comuns de treinamento associados a modelos em loop, como problemas de estabilidade, como explosão residual e reflexão excessiva. A estabilidade é mantida fazendo com que o raio espectral da matriz A permaneça menor que 1, conforme indicado na arquitetura Parcae.
A interrupção do Dynamic Adaptive Computation Time (ACT) é implementada para determinar os critérios de parada para loop com base na complexidade do token. Os adaptadores Depth-Wise LoRA também são utilizados para criar comportamentos exclusivos por iteração, minimizando aumentos nos parâmetros.
A pesquisa sugere que um RDT com 770 milhões de parâmetros pode oferecer desempenho equivalente a um transformador padrão com 1,3 bilhão de parâmetros. Isso indica que a profundidade do raciocínio aumenta com a computação de inferência, desafiando os paradigmas existentes sobre a relação entre a contagem de parâmetros e a capacidade do modelo.
OpenMythos fornece uma implementação prática para explorar a dinâmica do transformador em loop e a profundidade do raciocínio, potencialmente orientando avanços futuros no desenvolvimento de IA. O projeto fornece uma implementação PyTorch configurável, injeção recorrente estável em LTI, adaptadores LoRA em profundidade e uma linha de base de pesquisa reproduzível.
Gomez afirmou: “Se o Mythos é ou não um RDT, o OpenMythos oferece recursos concretos para a comunidade de pesquisa investigar esta classe de arquitetura subexplorada e suas implicações para a IA”.








