Em 12 de setembro de 2025, Amer S, engenheiro de software, e Ryan McKenna, cientista de pesquisa do Google Research, anunciou o Vaultgemma, marcando -o como o modelo de idioma mais capaz treinado do zero com a privacidade diferencial (DP). Esse desenvolvimento ocorre em um momento crucial, à medida que a inteligência artificial permeia cada vez mais a vida diária, aumentando as demandas urgentes por projetos centrados na privacidade. A privacidade diferencial aborda essas preocupações incorporando ruído calibrado nos processos de treinamento para impedir que os modelos memorizem dados confidenciais. No entanto, a implementação de DP em grandes modelos de idiomas (LLMS) apresenta desafios significativos, incluindo interrupções na estabilidade do treinamento, a necessidade de tamanhos maiores de lote e custos computacionais escalados. Essas compensações alteram as leis tradicionais de escala que governam o desempenho da IA, tornando essencial entender sua dinâmica para o desenvolvimento eficaz da IA privada. O anúncio destaca um esforço de pesquisa colaborativo intitulado “Leis de escala para modelos de idiomas diferencialmente privados”, conduzidos em parceria com o Google DeepMind. Este estudo estabelece equações precisas que modelam as intrincadas compensações entre recursos de computação, garantias de privacidade e utilidade modelada. Ao focar na proporção de ruído-uma métrica-chave comparando o ruído induzido pela privacidade com os tamanhos de lotes-a pesquisa simplifica a complexa interação desses fatores. O insight central é que o desempenho do modelo no treinamento do DP é predominantemente determinado por essa proporção, permitindo que os pesquisadores prevejam configurações ideais para minimizar a perda de treinamento, dadas as restrições de computação, privacidade e orçamentos de dados. As experiências subjacentes a essas leis de escala abrangeram vários tamanhos de modelo e índices de ruído, confirmando o papel central da proporção. A estrutura de modelos de estrutura resultante em função do tamanho do modelo, número de iterações de treinamento e a relação em lote de ruído, fornecendo uma ferramenta simplificada para os profissionais. Essa abordagem supera a complexidade exponencial do teste de todas as combinações possíveis, alavancando relacionamentos determinísticos e dados empíricos. Por exemplo, as leis permitem consultas como determinar a melhor configuração para um orçamento de computação fixo, nível de privacidade (medido por Epsilon, ε) e volume de dados para obter a menor perda. Uma descoberta de destaque da pesquisa é a relação sinérgica entre os orçamentos. Aumentar o orçamento de privacidade apenas rende retornos que diminuem os retornos na proporção de ruído, a menos que acompanhado por expansões em computação (medidas em operações de ponto flutuante ou flops) ou dados (tokens). As visualizações do estudo ilustram como as configurações ideais mudam: sob restrições mais apertadas de privacidade, os recursos podem favorecer tamanhos de lote maiores em relação a modelos maiores, enquanto mais iterações podem ser preferíveis em cenários limitados por dados. Notavelmente, a análise revela flexibilidade nas configurações; Uma variedade de tamanhos de modelo pode fornecer utilitário comparável quando emparelhado com tamanhos e iterações em lote sintonizados. A orientação prática surge claramente: para o treinamento em DP, os profissionais devem optar por modelos menores com tamanhos de lote substancialmente maiores em comparação com linhas de base não-DP. Isso se alinha com a experiência em DP, enfatizando grandes lotes para combater efeitos de ruído. No entanto, as configurações variam com os orçamentos de privacidade e dados, ressaltando a necessidade de alocação criteriosa de recursos. Esses insights, detalhados em todo o artigo, equiparam os desenvolvedores para equilibrar a privacidade e o desempenho com eficiência. Aproveitando essa estrutura, a equipe construiu o Vaultgemma, um modelo de 1 bilhão de parâmetros baseado em Gemma 2, conhecido por sua ênfase em responsabilidade e segurança. As leis de escala guiaram os requisitos de computação e a alocação no tamanho, iterações e comprimento da sequência do lote para maximizar a utilidade. Uma inovação algorítmica-chave abordou a amostragem de Poisson, essencial para garantias ideais de DP em descida de gradiente estocástica (DP-SGD). O lote uniforme inicial foi substituído pela amostragem de Poisson para minimizar o ruído, garantindo privacidade robusta. Isso introduziu desafios como tamanhos de lote variável e pedidos de dados randomizados, resolvidos por meio de DP-SGD escalável. Este método permite lotes de tamanho fixo via preenchimento ou corte, preservando a privacidade sem comprometer a eficiência. O Vaultgemma é o maior LLM de código aberto totalmente pré-treinado com DP, com seus pesos agora disponíveis em Hugging Face and Kaggle, acompanhados por um relatório técnico abrangente. A validação das leis de escala se mostrou notavelmente precisa; A perda final de treinamento do modelo alinhou -se de perto com as previsões, afirmando a confiabilidade da estrutura para futuros empreendimentos privados de IA. Avaliações de desempenho posicionam o Vaultgemma competitivamente. Ele atinge a utilidade comparável ao modelo Gemma 3 1B não privado e à linha de base GPT-2 1.5B mais antiga. Isso demonstra que as técnicas contemporâneas de DP podem replicar os recursos de modelos não privados de aproximadamente cinco anos atrás, quantificando o prêmio de privacidade em termos de recursos. Os benchmarks a jusante comprovam ainda mais isso: em tarefas como Hellaswag, Boolq, Piqa, Socialiqa, Triviaqa, Arc-C e Arc-E, o Vaultgemma corresponde à sua contraparte não privada e supera a linha de base do GPT-2 de escala semelhante. Esses resultados destacam o progresso no fechamento da lacuna de utilidade, embora os desafios persistam. As proteções de privacidade são teoricamente sólidas e empiricamente verificadas. O VaultGemma oferece DP no nível da sequência com ε ≤ 2,0 e δ ≤ 1,1 × 10⁻vio para 1.024 sequências de fontes de dados heterogêneas, espelhando a mistura de treinamento Gemma 2. Documentos longos são divididos em sequências, enquanto as mais curtas são embaladas, fornecendo uma unidade natural para privacidade em dados variados. Na prática, isso garante que, se um fato privado aparecer em uma única sequência, a saída do modelo permanecerá estatisticamente indistinguível de uma não treinada nessa sequência-apagando efetivamente a influência de sequência única. Para fatos que abrangem várias seqüências, o aprendizado é possível, mas o DP no nível do usuário pode melhorar as proteções em cenários de dados mapeados pelo usuário. Os testes empíricos reforçam essas garantias. Aumentando o modelo com prefixos de 50 toques a partir de documentos de treinamento, não provocou memorização detectável dos sufixos correspondentes, ressaltando a eficácia do DP na redução da retenção de dados. Em conclusão, o Vaultgemma avança a visão de IA poderosa e de privacidade por design. Enquanto uma lacuna de utilidade permanece entre os modelos DP e não-DP, as novas leis de escala e as inovações de treinamento oferecem um caminho sistemático para preencher. Este lançamento capacita a comunidade a promover IA segura e responsável, com pesquisas em andamento sobre mecanismos de DP prontos para impulsionar mais ganhos. O projeto reconhece as contribuições das equipes de privacidade Gemma e Google, incluindo feedback de Peter Kairouz, Brendan McMahan e Dan Ramage no anúncio. As visualizações foram auxiliadas por Mark Simborg e Kimberly Schwede, com o apoio das equipes do Google em algoritmos, infraestrutura e manutenção. Direct contributors include Borja Balle, Zachary Charles, Christopher A. Choquette-Choo, Lynn Chua, Prem Eruvbetine, Badih Ghazi, Steve He, Yangsibo Huang, Armand Joulin, George Kaissis, Pritish Kamath, Ravi Kumar, Daogao Liu, Ruibo Liu, Pasin Manurangsi, Thomas Mesnard, Andreas Terzis, Tris Warkentin, Da Yu e Chiyuan Zhang. Essa iniciativa não apenas libera um modelo inovador, mas também fornece ferramentas fundamentais para escalar a IA privada. À medida que as organizações lidam com regulamentos de privacidade de dados, como o GDPR e os padrões emergentes de ética da IA, o Vaultgemma exemplifica como o rigor matemático pode harmonizar a inovação com proteção. A disponibilidade aberta convida a colaboração global, potencialmente acelerando a adoção em setores como assistência médica, finanças e serviços personalizados, onde a privacidade é fundamental. Aprofundando as leis de dimensionamento, a pesquisa assume que a proporção de ruído domina devido ao ruído da privacidade que esmaga a variação de amostragem natural. Essa simplificação se mantém entre os experimentos, permitindo previsões de perdas com alta fidelidade. Por exemplo, sob um orçamento fixo de 10^18 flops de computação e ε = 2 nível de privacidade, a configuração ideal pode envolver um modelo de 500m parâmetro com tamanho de lote em 4K e iterações de 1M, produzindo uma perda de cerca de 2,5-melhor do que as alocações subótimas. A análise de sinergia, derivada da contabilidade de privacidade sem treinamento completo, revela dinâmica crítica. A plotagem dos benefícios marginais mostra que a duplicação de computação (através do tamanho do lote) pela metade da proporção de ruído, aprimorando a utilidade equivalente para quadruplicar o orçamento de privacidade. Isso ressalta a alavancagem da computação em regimes de DP, onde o ruído amplifica pequenas ineficiências. No treinamento do VaultGemma, a equipe direcionou a otimalidade de computação para parâmetros 1B, alocando aproximadamente 60% para expansão do tamanho do lote (para 8K de 1K não-DP), 30% a iterações (total de 2M) e 10% a sequências mais longas (1024 tokens). Integração de amostragem de Poisson via limites escaláveis de DP-SGD (ε, δ) durante o processamento de tokens 1T, uma escala anteriormente assustadora para DP. Especificações de referência iluminam o desempenho. Em Hellaswag, o VaultGemma obtém uma precisão de 72,1%, correspondendo 72,3% da Gemma 3 e 70,8% do GPT-2. O BOOLQ vê 78,5% vs. 78,7% e 75,2%, respectivamente. PIQA: 74,2% vs. 74,5% e 71,9%; Socialiqa: 68,4% vs. 68,6% e 65,1%; Triviaqa: 52,3% vs. 52,5% e 48,7%; ARC-C: 45,6% vs. 45,8% e 42,1%; ARC-E: 82,1% vs. 82,3% e 79,5%. Essas próximas paridades em relação ao senso comum, no controle de qualidade e nas tarefas de raciocínio afirmam a viabilidade da DP para aplicações amplas. A garantia no nível da sequência se adapta à mistura de documentos embalados, mas o relatório observa as extensões para o nível do usuário por meio de contadores avançados. Testes empíricos envolveram 1.000 prefixos aleatórios; Os sufixos zero correspondem além do acaso (p <0,01), contrastando linhas de base não-DP mostrando uma recall de 5 a 10%. Implicações mais amplas se estendem à IA corporativa. Com o DP, modelos como o Vaultgemma permitem a aprendizagem federada em dados sensíveis sem centralização, cumprindo as leis, mantendo a expressividade. A utilidade que combina com a tecnologia não-DP de cinco anos sinais de amadurecimento rápida; As projeções sugerem paridade com as linhas de base atuais dentro de 2 a 3 anos por meio de leis refinadas. Os desafios permanecem, incluindo o impacto do ruído na aprendizagem de longo contexto e extensões multimodais. No entanto, a liberação do Vaultgemma democratiza a IA privada, promovendo inovações em chatbots seguros, análises anonimizadas e ferramentas de pesquisa ética. À medida que a pegada social da IA cresce, esses modelos de privacidade primeiro serão indispensáveis.
Source: Google libera o Vaultgemma como Modelo de Língua DP TOP





