Pesquisadores da DeepSeek divulgaram na segunda-feira um novo modelo experimental, a v3.2-EXP, projetado para ter custos de inferência dramaticamente mais baixos quando usados ​​em operações de longo contexto. A Deepseek anunciou o modelo em um post sobre o Hugging Face e também publicou um artigo acadêmico vinculado no Github, que fornece detalhes sobre sua arquitetura e desempenho. A característica mais importante do modelo é chamada de atenção escassa de Deepseek. Este sistema usa um módulo referido como um “Indexador de Lightning” para priorizar trechos específicos da janela de contexto. Após essa etapa, um sistema separado, um “sistema de seleção de token de granular fino”, escolhe tokens específicos de dentro desses trechos. Esses tokens selecionados são então carregados na janela de atenção limitada do módulo. Essa combinação permite que o modelo de atenção escasso opere em partes longas de contexto com cargas de servidor comparativamente pequenas. Os benefícios do sistema são significativos para operações de longo contexto. Os testes preliminares realizados pela Deepseek descobriram que o preço de uma simples chamada da API poderia ser reduzida em até metade nessas situações. Mais testes serão necessários para criar uma avaliação mais robusta das reivindicações. O modelo está em peso aberto e disponível gratuitamente no Hugging Face, o que permitirá que testes de terceiros avaliem os resultados apresentados no artigo. O novo modelo de Deepseek faz parte de uma série de avanços recentes que abordam o problema dos custos de inferência. Esses custos representam as despesas do servidor de operação de um modelo de IA pré-treinado, que é distinto do custo de treinamento. Os pesquisadores da Deepseek estavam procurando maneiras de fazer com que a arquitetura fundamental dos transformadores opere com mais eficiência, descobrindo que há melhorias significativas a serem feitas. Com sede na China, a Deepseek tem sido uma figura incomum no setor de IA, principalmente para aqueles que vêem a pesquisa da IA ​​como uma luta nacionalista entre os EUA e a China. A empresa ganhou atenção no início do ano com seu modelo R1, que foi treinado usando principalmente o aprendizado de reforço a um custo muito menor do que seus concorrentes americanos. No entanto, o modelo não desencadeou uma revolução atacadista no treinamento de IA como alguns previstos, e a empresa recuou dos holofotes nos meses seguintes. É improvável que a nova abordagem de “atenção esparsa” produza o mesmo tumulto que o R1, mas ainda pode nos ensinar fornecedores alguns truques necessários para ajudar a manter baixos os custos de inferência.

Source: Deepseek libera modelo v3.2-exp com atenção esparsa