DeepSeek revela identificador MODEL1 antes do lançamento V4

DeepSeek, uma startup chinesa de IA, revelou um novo modelo, “MODEL1”, em seu repositório de código FlashMLA no GitHub, aparecendo 28 vezes em 114 arquivos. A revelação coincide com o primeiro aniversário do lançamento R1 do DeepSeek. MODEL1 representa uma arquitetura distinta do DeepSeek-V3.2, codinome interno “V32”. A análise do código pelos desenvolvedores indica mudanças no layout do cache de valores-chave, no tratamento da dispersão e na decodificação do formato de dados do FP8. Essas alterações sugerem uma reestruturação direcionada para otimização de memória e eficiência computacional. A divulgação ocorreu por meio do repositório FlashMLA da DeepSeek, que contém o kernel de decodificação Multi-Head Latent Attention da empresa para GPUs Nvidia Hopper. Atualizações no código-fonte FlashMLA adicionaram suporte para MODEL1, incluindo compatibilidade com a próxima arquitetura Blackwell da Nvidia (SM100), de acordo com postagens na comunidade LocalLLaMA do Reddit. As mudanças no código mostram o MODEL1 revertendo para uma dimensão unificada do padrão 512 e incorporando recursos descritos como “Consciência de posição de vetor de valor” e possíveis implementações do sistema de memória condicional “Engram” do DeepSeek. DeepSeek planeja lançar seu modelo V4 de próxima geração em meados de fevereiro de 2026, coincidindo com o Ano Novo Lunar em 17 de fevereiro, de acordo com A informaçãoconforme citado por Reuters. Testes internos realizados por funcionários da DeepSeek sugerem que o V4 poderia superar os modelos rivais da Anthropic e OpenAI em benchmarks de codificação, especialmente com longos prompts de código. Espera-se que o modelo V4 integre a arquitetura Engram da DeepSeek, que permite a recuperação eficiente de contextos que excedem um milhão de tokens usando um sistema de pesquisa para fatos fundamentais. A revelação do MODEL1 ocorre um ano após a estreia do DeepSeek R1 em janeiro de 2025. Este evento, denominado “momento AI Sputnik” pelo capitalista de risco Marc Andreessen, resultou em uma redução de US$ 593 bilhões no valor de mercado da Nvidia em um único dia, ITPro relatado. O modelo R1 da DeepSeek supostamente custou menos de US$ 6 milhões para treinar, mas igualou ou excedeu o modelo o1 da OpenAI em benchmarks de matemática e codificação. A empresa posteriormente lançou a V3.1 em agosto e a V3.2 em dezembro, com a V3.2 descrita como oferecendo desempenho equivalente ao GPT-5 da OpenAI.

Crédito da imagem em destaque

Source: DeepSeek revela identificador MODEL1 antes do lançamento V4

DeepSeek revela identificador MODEL1 antes do lançamento V4

Related Posts

Google lança exames práticos SAT gratuitos sob demanda via Gemini

Snap paga milhões para resolver processo de dependência de adolescentes antes do julgamento

CEO da Anthropic critica aprovação dos EUA de vendas de chips de IA para a China

Netflix revela grande redesenho de aplicativo móvel para combater TikTok e YouTube

Google lança exames práticos SAT gratuitos sob demanda via Gemini

Snap paga milhões para resolver processo de dependência de adolescentes antes do julgamento

CEO da Anthropic critica aprovação dos EUA de vendas de chips de IA para a China

Netflix revela grande redesenho de aplicativo móvel para combater TikTok e YouTube

OpenAI lança ferramenta de previsão de idade de IA para restringir ChatGPT para menores

© 2021 TechBriefly is a Linkmedya brand.

DeepSeek revela identificador MODEL1 antes do lançamento V4

Related Posts

© 2021 TechBriefly is a Linkmedya brand.

Follow Us