DeepSeek, uma startup chinesa de IA, revelou um novo modelo, “MODEL1”, em seu repositório de código FlashMLA no GitHub, aparecendo 28 vezes em 114 arquivos. A revelação coincide com o primeiro aniversário do lançamento R1 do DeepSeek. MODEL1 representa uma arquitetura distinta do DeepSeek-V3.2, codinome interno “V32”. A análise do código pelos desenvolvedores indica mudanças no layout do cache de valores-chave, no tratamento da dispersão e na decodificação do formato de dados do FP8. Essas alterações sugerem uma reestruturação direcionada para otimização de memória e eficiência computacional. A divulgação ocorreu por meio do repositório FlashMLA da DeepSeek, que contém o kernel de decodificação Multi-Head Latent Attention da empresa para GPUs Nvidia Hopper. Atualizações no código-fonte FlashMLA adicionaram suporte para MODEL1, incluindo compatibilidade com a próxima arquitetura Blackwell da Nvidia (SM100), de acordo com postagens na comunidade LocalLLaMA do Reddit. As mudanças no código mostram o MODEL1 revertendo para uma dimensão unificada do padrão 512 e incorporando recursos descritos como “Consciência de posição de vetor de valor” e possíveis implementações do sistema de memória condicional “Engram” do DeepSeek. DeepSeek planeja lançar seu modelo V4 de próxima geração em meados de fevereiro de 2026, coincidindo com o Ano Novo Lunar em 17 de fevereiro, de acordo com A informaçãoconforme citado por Reuters. Testes internos realizados por funcionários da DeepSeek sugerem que o V4 poderia superar os modelos rivais da Anthropic e OpenAI em benchmarks de codificação, especialmente com longos prompts de código. Espera-se que o modelo V4 integre a arquitetura Engram da DeepSeek, que permite a recuperação eficiente de contextos que excedem um milhão de tokens usando um sistema de pesquisa para fatos fundamentais. A revelação do MODEL1 ocorre um ano após a estreia do DeepSeek R1 em janeiro de 2025. Este evento, denominado “momento AI Sputnik” pelo capitalista de risco Marc Andreessen, resultou em uma redução de US$ 593 bilhões no valor de mercado da Nvidia em um único dia, ITPro relatado. O modelo R1 da DeepSeek supostamente custou menos de US$ 6 milhões para treinar, mas igualou ou excedeu o modelo o1 da OpenAI em benchmarks de matemática e codificação. A empresa posteriormente lançou a V3.1 em agosto e a V3.2 em dezembro, com a V3.2 descrita como oferecendo desempenho equivalente ao GPT-5 da OpenAI.
Source: DeepSeek revela identificador MODEL1 antes do lançamento V4