Pesquisadores da DeepSeek divulgaram na segunda-feira um novo modelo experimental, a v3.2-EXP, projetado para ter custos de inferência dramaticamente mais baixos quando usados em operações de longo contexto. A Deepseek anunciou o modelo em um post sobre o Hugging Face e também publicou um artigo acadêmico vinculado no Github, que fornece detalhes sobre sua arquitetura e desempenho. A característica mais importante do modelo é chamada de atenção escassa de Deepseek. Este sistema usa um módulo referido como um “Indexador de Lightning” para priorizar trechos específicos da janela de contexto. Após essa etapa, um sistema separado, um “sistema de seleção de token de granular fino”, escolhe tokens específicos de dentro desses trechos. Esses tokens selecionados são então carregados na janela de atenção limitada do módulo. Essa combinação permite que o modelo de atenção escasso opere em partes longas de contexto com cargas de servidor comparativamente pequenas. Os benefícios do sistema são significativos para operações de longo contexto. Os testes preliminares realizados pela Deepseek descobriram que o preço de uma simples chamada da API poderia ser reduzida em até metade nessas situações. Mais testes serão necessários para criar uma avaliação mais robusta das reivindicações. O modelo está em peso aberto e disponível gratuitamente no Hugging Face, o que permitirá que testes de terceiros avaliem os resultados apresentados no artigo. O novo modelo de Deepseek faz parte de uma série de avanços recentes que abordam o problema dos custos de inferência. Esses custos representam as despesas do servidor de operação de um modelo de IA pré-treinado, que é distinto do custo de treinamento. Os pesquisadores da Deepseek estavam procurando maneiras de fazer com que a arquitetura fundamental dos transformadores opere com mais eficiência, descobrindo que há melhorias significativas a serem feitas. Com sede na China, a Deepseek tem sido uma figura incomum no setor de IA, principalmente para aqueles que vêem a pesquisa da IA como uma luta nacionalista entre os EUA e a China. A empresa ganhou atenção no início do ano com seu modelo R1, que foi treinado usando principalmente o aprendizado de reforço a um custo muito menor do que seus concorrentes americanos. No entanto, o modelo não desencadeou uma revolução atacadista no treinamento de IA como alguns previstos, e a empresa recuou dos holofotes nos meses seguintes. É improvável que a nova abordagem de “atenção esparsa” produza o mesmo tumulto que o R1, mas ainda pode nos ensinar fornecedores alguns truques necessários para ajudar a manter baixos os custos de inferência.

Deepseek libera modelo v3.2-exp com atenção esparsa
Written by
Kerem from Turkey has an insatiable curiosity for the latest advancements in tech gadgets and a knack for innovative thinking. With 3 years of experience in editorship and a childhood dream of becoming a journalist, Kerem has always been curious about the latest tech gadgets and is constantly seeking new ways to create. As a Master's student in Strategic Communications, Kerem is eager to learn more about the ever-evolving world of technology. His primary focuses are artificial intelligence and digital inclusion, and he delves into the most current and accurate information on these topics.
View all posts →Related Stories
Microsoft lança Surface RTX Spark Dev Box para cargas de trabalho avançadas de IA
O Surface RTX Spark Dev Box da Microsoft combina o chip RTX Spark da NVIDIA com até 128...
X lança recurso ‘React with Video’ para usuários iOS
X lança o recurso “React with Video” para iOS, permitindo aos usuários postar vídeos de reação no estilo...
Microsoft lança Projeto Solara para alimentar dispositivos de última geração com agentes pioneiros
O Projeto Solara apresenta a computação que prioriza o agente, que combina software e hardware para criar experiências...
Google lança atualização do Android de junho com novos recursos de segurança e compartilhamento
O Android Drop de junho apresenta novas ferramentas de personalização, atualizações elegantes e recursos de segurança aprimorados para...




