Embora a modelagem de linguagem ocupe cada vez mais espaço nas tecnologias de IA, achamos que é nosso dever explicar o que é Chinchilla AI e como usá-la para nossos valiosos leitores.
Pesquisadores da DeepMind criaram o modelo Chinchilla, que tem 70 bilhões de parâmetros e quatro vezes mais dados que o Gopher, mas o mesmo orçamento de computação. O desempenho de Chinchilla é notável não apenas pelo tamanho da melhoria, mas também porque é menor do que qualquer outro modelo de linguagem criado nos dois anos anteriores que demonstraram desempenhos SOTA.

Chinchilla supera de forma consistente e significativa Gopher (280B), GPT-3 (175B), Jurassic-1 (178B) e Megatron-Turing NLG em uma variedade de tarefas de avaliação downstream (530B). Ele usa substancialmente menos computação para inferência e ajuste fino, o que aumenta muito o uso downstream. Você quer saber o que é Chinchilla AI? Vamos investigá-lo neste artigo.
O que é Chinchila AI?
Vamos começar entendendo o que é Chinchilla AI antes de aprender como usar Chinchilla AI. Os recentes desafios de modelagem de linguagem tendem a aumentar a complexidade do modelo sem aumentar o número de tokens de aprendizado (cerca de 300 bilhões durante o treinamento). O maior modelo de transformador neste momento é o Megatron-Turing NLG, que é mais de três vezes maior que o GPT-3 da OpenAI. A DeepMind apresentou um novo modelo de linguagem chamado Chinchilla.

Há uma diferença significativa, embora tenha um desempenho semelhante a grandes modelos de linguagem como Megatron-Turing NLG (parâmetros 530B), Jurassic-1 (parâmetros 178B), GPT-3 (parâmetros 175B), Gopher (parâmetros 280B) e GPT- 3: Com apenas 70 bilhões de parâmetros e quatro vezes mais dados que o Gopher, ele atinge uma precisão média de 67,5% no benchmark MMLU, o que representa uma melhoria de 7% em relação ao Gopher.
Como usar Chinchilla AI?
Agora que explicamos a você o que é Chinchilla AI, vamos pular para responder às suas perguntas sobre como usar Chinchilla AI, mas temos más notícias para você. Infelizmente, o público em geral não pode acessá-lo no momento. O Chinchilla AI estará acessível nos próximos meses, quando você poderá usá-lo para desenvolver chatbots, assistentes virtuais, modelos preditivos e outros aplicativos de IA.
Chinchilla alcançou uma precisão média de ponta de 67,5 por cento no benchmark MMLU, superando Gopher em 7 por cento. A estratégia comum no treinamento de modelo de linguagem grande tem sido construir o modelo sem aumentar o fornecimento de tokens de treinamento. O maior transformador denso, MT-NLG 530B, é agora mais de três vezes maior que os 170 bilhões de características do GPT-3.
Chinchilla AI será uma força dominante na modelagem de linguagem
Agora que respondemos à sua pergunta O que é Chinchilla AI e como usá-la, vamos falar sobre tecnologias de IA em geral.
Aumentar o modelo sem aumentar o número de tokens de treinamento tem sido a abordagem predominante no treinamento de modelo de linguagem grande. Em comparação com as 170 bilhões de características do GPT-3, o maior transformador denso, MT-NLG 530B, agora é 3 vezes maior.

A maioria dos modelos grandes agora em uso, incluindo o Chinchilla da DeepMind, foram treinados para mais de 300 bilhões de tokens. A corrida para treinar modelos cada vez maiores está produzindo modelos que, segundo os pesquisadores, apresentam desempenho significativamente inferior quando comparados ao que poderia ser realizado com o mesmo orçamento de computação. Isso é verdade, embora o desejo de treinar esses megamodelos tenha avançado significativamente a engenharia.
Recursos de Chinchilla AI que superarão o orçamento de computação
O fator limitante nas tecnologias de IA normalmente é o orçamento de computação, que é independente e conhecido antecipadamente. A quantidade de dinheiro que a empresa pode gastar em um hardware melhor definirá o tamanho do modelo e o número de tokens de treinamento. Para superar esse problema, os recursos do Chinchilla AI:
- Tamanho do modelo fixo: Os programadores do DeepMind criaram uma família de tamanhos de modelo fixos (70M-16B) e ajustaram o número de tokens de treinamento para cada modelo (4 variações). A melhor combinação para cada orçamento de computação foi então identificada. De acordo com esse método, um modelo treinado com a mesma capacidade de computação do Gopher teria 1,5T de tokens e 67B de parâmetros.
- Curvas para isoFLOP: os engenheiros da DeepMind experimentaram o tamanho do modelo e o orçamento de computação fixo. Esse método resultaria em um modelo de computação ideal com 63 bilhões de parâmetros e 1,4 trilhão de tokens, treinados com a mesma quantidade de computação do Gopher.
- Criando uma função de perda paramétrica: os engenheiros da DeepMind modelaram as perdas como funções paramétricas do tamanho do modelo e contagem de tokens usando as descobertas dos métodos 1 e 2. O modelo de computação ideal treinado usando esse método teria parâmetros de 40B e a mesma quantidade de computação que o Gopher.
Se você está curioso, você pode examine a abordagem da DeepMind ao assunto no artigo que publicaram.
Estamos chegando ao final de nosso artigo, onde respondemos às perguntas de O que é Chinchilla AI e como usá-lo da melhor maneira possível para você. Embora as tecnologias de modelagem de linguagem tenham conseguido se tornar a subcategoria de IA mais proeminente em 2022, nos perguntamos o que nos espera em 2023.








