AMD tem introduzido Instella, uma família de modelos de idiomas totalmente abertos com 3 bilhões de parâmetros, treinados do zero no AMD Instinct ™ MI300X GPUS. Os modelos demonstram melhorias significativas em relação aos modelos totalmente abertos existentes e visam ser competitivo com os modelos de peso aberto de última geração.
A AMD apresenta a Instella: modelos de idiomas de código aberto com 3 bilhões de parâmetros
A Instella é construída em um modelo de transformador autoregressivo, composto por 36 camadas de decodificadores e 32 cabeças de atenção. Essa arquitetura suporta um comprimento de sequência de até 4.096 tokens, permitindo que o modelo processe contextos textuais extensos. O tamanho do vocabulário é de aproximadamente 50.000 tokens, gerenciado pelo tokenizador da OLMO.
O treinamento utilizou a AMD Instinct Mi300x GPUs para enfatizar a integração de software de hardware da AMD. A Instella aumenta os esforços dos modelos AMD OLMO anteriores de 1 bilhão de parâmetros, passando de GPUs de 64 mi250 usando 1,3 trilhão de tokens para 128 mi300x GPUs e 4,15 trilhões de tokens para a Instella.
O pipeline de treinamento da INSTELLA da AMD consistia em quatro estágios, o que aumentava de forma incremental as capacidades do modelo, desde o entendimento geral da linguagem natural até a instrução e o alinhamento em relação às preferências humanas. O primeiro estágio envolveu treinamento em 4,065 trilhões de tokens de diversos conjuntos de dados, incluindo DCLM-Baseline e Dolma 1.7, enquanto o segundo estágio incorporou 57.575 bilhões de tokens adicionais de conjuntos de dados de alta qualidade, como Dolmino-Mix-1124 e Smollm-Corpus.
Versões modelo e detalhes de treinamento
Os modelos Instella lançados incluem:
- Instella-3b-STAGE1: Estágio 1 de pré-treinamento com 4,065 trilhões de tokens para proficiência em linguagem natural fundamental.
- Instella-3b: Estágio 2 de pré-treinamento com 57.575 bilhões de tokens adicionais para aprimorar os recursos de solução de problemas.
- Instella-3b-SFT: Tuneamento fino supervisionado (SFT) usando 8,902 bilhões de tokens em três épocas para melhorar as habilidades de seguir as seguintes.
- Instella-3b-Instruct: Alinhamento para preferências humanas usando 760 milhões de tokens com otimização de preferência direta (DPO).
A metodologia de treinamento empregou flashattion-2, compilação da tocha e treinamento de precisão mista BFLOAT16 para eficiência, juntamente com o paralelismo de dados totalmente fragmentados com o sharding híbrido para otimizar a utilização de recursos em um grande cluster.
Benchmarks de desempenho
Os modelos Instella superam os modelos totalmente abertos existentes de tamanho semelhante. O modelo final pré-treinado, a Instella-3b, lidera modelos pré-treinados totalmente abertos com desempenho superior existentes em uma média de 8,08%, com melhorias notáveis em benchmarks, como o desafio do ARC (+8,02%), o ARC fácil (+3,51%) e o GSM8K (+48,98%).
Os modelos Instella-3B se destacam em vários benchmarks padrão, incluindo MMLU e BBH, demonstrando desempenho competitivo significativo contra modelos como LLAMA-3.2-3B e GEMMA-2-2B. Em termos de ajuste de instrução, a Instruct-Instruct, Instella-3B, mostra uma vantagem consistente de 14,37% em comparação com os próximos modelos de ajuste de instrução totalmente abertos com melhor desempenho.
Os modelos foram avaliados usando tarefas padrão de OLMES, FastChat MT-Bench e ALPACA, com resultados indicando um forte desempenho em relação aos modelos existentes de peso aberto de ponta. Os modelos ajustados por instruções alcançaram pontuações notáveis, estreitando lacunas e exibindo a competitividade no cenário dos modelos de linguagem.
Disponibilidade de código aberto
A AMD tem de código aberto todos os artefatos relacionados aos modelos Instella, incluindo pesos de modelo, configurações de treinamento, conjuntos de dados e código, promovendo colaboração e inovação na comunidade de IA. Recursos estão disponíveis através Abraçando o rosto cartões de modelo e Github Repositórios.
Crédito da imagem em destaque: Timothy Dykes/Unsplash
O Post AMD revela os modelos de IA de código aberto que o Rival Meta e o Google apareceu pela primeira vez no Techbriefly.
Source: A AMD revela a Instella: modelos de IA de código aberto que rivalizam com a Meta e Google








