O modelo de grande linguagem inovador de Deepseek, R1, intrigou a comunidade de IA por sua capacidade de competir com os gigantes do setor com um orçamento notavelmente baixo. Um artigo recém -publicado na revista Natureza Pela equipe Deepseek AI lança luz sobre os detalhes: o modelo foi treinado por apenas US $ 294.000 usando 512 chips Nvidia H800. Essa revelação ressalta uma abordagem econômica que desafia os gastos com alto risco de concorrentes como o OpenAI, destacando o uso inovador de Deepseek do aprendizado de reforço baseado em tentativa e erro para obter resultados impressionantes. A inovação central reside em ignorar a dependência tradicional de dados e demonstrações caros de anunciação do ser humano, que são muito trabalhosos e escalam mal para tarefas complexas de raciocínio. Em vez disso, a Deepseek empregou técnicas de aprendizado de reforço que imitam um sistema de penalidade de recompensa. Conforme explicado pelo professor assistente da Universidade de Carnegie Mellon, Daphne Ippolito, e pelo aluno de doutorado, Yiming Zhang, em um artigo que o acompanha, esse método se assemelha a uma criança aprendendo através de videogames: “Como a criança navega em seus pontos de vista para o mundo, como o mundo, como a criança, o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que é o que está no mundo dos jogos, que aprendem o mundo, como as ações que estão em busca de um dos que estão em que os que estão em que os que estão em busca de um dos que estão em que os que estão em que a criança, como a criança, a criança que coleciona). O Deepseek-R1 recebeu uma pontuação alta quando respondeu às perguntas corretamente e uma pontuação baixa quando deu respostas erradas “. Essa estratégia de reforço mostrou -se particularmente eficaz para tarefas com respostas corretas verificáveis, como matemática e problemas de programação. Diferentemente dos métodos anteriores que levaram os modelos a gerar explicações passo a passo para maior precisão, o DeepSeek atribuiu pontuações diretamente às saídas, incentivando o modelo a iterar até alcançar o resultado certo de forma independente. O resultado? Precisão aprimorada sem a necessidade de raciocínio guiado pelo ser humano, permitindo que a Deepseek mantenha a competitividade, apesar de seus recursos modestos. No entanto, a abordagem não é isenta de limitações. Embora as saídas sejam frequentemente mais precisas, o processo de raciocínio interno do modelo se torna menos transparente aos observadores humanos. Por exemplo, quando solicitado a explicar seu processo de pensamento, o Deepseek-R1 às vezes produzia respostas longas excedendo 10.000 palavras, mudando imprevisivelmente entre inglês e chinês. A técnica se destaca em cenários binários de direito ou escravo, mas vacila com consultas sugenhadas ou subjetivas, onde métricas de pontuação claras estão ausentes. As realizações de Deepseek surgem em meio a um escrutínio mais amplo sobre os laços da empresa com o governo chinês, levantando questões sobre possíveis vieses em sua tecnologia. Manifestações recentes relatadas por The Washington Post Revelado sobre comportamentos: o modelo se recusou a gerar código com vulnerabilidades de segurança significativas quando os avisos indicaram envolvimento com grupos considerados sensíveis pelas autoridades chinesas. Por outro lado, produziu um código menos seguro para tópicos relacionados ao Tibete, Taiwan, ao Movimento Religioso Falun Gong, ou mesmo ao Estado Islâmico, sugerindo influências geopolíticas incorporadas que poderiam afetar sua implantação global. Este artigo não apenas desmistifica o paradigma de treinamento eficiente de Deepseek, mas também gera discussões sobre o futuro do desenvolvimento da IA. Ao alavancar o aprendizado de reforço, jogadores menores como o DeepSeek podem potencialmente nivelar o campo de jogo contra os titulares de recursos. No entanto, a infusão de sensibilidades nacionais serve como uma nota de advertência, enfatizando a necessidade de transparência e supervisão ética na inovação da IA. À medida que a indústria evolui, essas revelações podem inspirar metodologias de economia de custos em todo o mundo, desde que abordem os riscos subjacentes.
Source: Deepseek treina modelo R1 por US $ 294.000 usando 512 chips nvidia h800





