Pesquisadores da DeepSeek divulgaram na segunda-feira um novo modelo experimental, a v3.2-EXP, projetado para ter custos de inferência dramaticamente mais baixos quando usados em operações de longo contexto. A Deepseek anunciou o modelo em um post sobre o Hugging Face e também publicou um artigo acadêmico vinculado no Github, que fornece detalhes sobre sua arquitetura e desempenho. A característica mais importante do modelo é chamada de atenção escassa de Deepseek. Este sistema usa um módulo referido como um “Indexador de Lightning” para priorizar trechos específicos da janela de contexto. Após essa etapa, um sistema separado, um “sistema de seleção de token de granular fino”, escolhe tokens específicos de dentro desses trechos. Esses tokens selecionados são então carregados na janela de atenção limitada do módulo. Essa combinação permite que o modelo de atenção escasso opere em partes longas de contexto com cargas de servidor comparativamente pequenas. Os benefícios do sistema são significativos para operações de longo contexto. Os testes preliminares realizados pela Deepseek descobriram que o preço de uma simples chamada da API poderia ser reduzida em até metade nessas situações. Mais testes serão necessários para criar uma avaliação mais robusta das reivindicações. O modelo está em peso aberto e disponível gratuitamente no Hugging Face, o que permitirá que testes de terceiros avaliem os resultados apresentados no artigo. O novo modelo de Deepseek faz parte de uma série de avanços recentes que abordam o problema dos custos de inferência. Esses custos representam as despesas do servidor de operação de um modelo de IA pré-treinado, que é distinto do custo de treinamento. Os pesquisadores da Deepseek estavam procurando maneiras de fazer com que a arquitetura fundamental dos transformadores opere com mais eficiência, descobrindo que há melhorias significativas a serem feitas. Com sede na China, a Deepseek tem sido uma figura incomum no setor de IA, principalmente para aqueles que vêem a pesquisa da IA como uma luta nacionalista entre os EUA e a China. A empresa ganhou atenção no início do ano com seu modelo R1, que foi treinado usando principalmente o aprendizado de reforço a um custo muito menor do que seus concorrentes americanos. No entanto, o modelo não desencadeou uma revolução atacadista no treinamento de IA como alguns previstos, e a empresa recuou dos holofotes nos meses seguintes. É improvável que a nova abordagem de “atenção esparsa” produza o mesmo tumulto que o R1, mas ainda pode nos ensinar fornecedores alguns truques necessários para ajudar a manter baixos os custos de inferência.

Deepseek libera modelo v3.2-exp com atenção esparsa
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Apple lança segundo iOS 27 beta com novo recurso Write with Siri
A Apple lança iOS 27 beta 2 com ferramentas Siri expandidas, desempenho mais rápido, novos recursos de mensagens...
Galaxy S27 poderia usar o armazenamento UFS 5.0 mais rápido da Samsung
A Samsung apresenta o primeiro chip UFS 5.0 do mundo, prometendo velocidades mais rápidas, maior eficiência e um...
Apple aumentará os preços dos produtos em meio à escassez global de chips de memória
O CEO da Apple, Tim Cook, confirma que os aumentos de preços são iminentes, à medida que a...
Dicas de vazamento do Samsung Galaxy S27 Pro na exibição de privacidade em nível de hardware
O suposto Galaxy S27 Pro da Samsung pode estrear no início de 2027 com uma tela de 6,47...




