A AMD revela a Instella: modelos de IA de código aberto que rivalizam com a Meta e Google

AMD tem introduzido Instella, uma família de modelos de idiomas totalmente abertos com 3 bilhões de parâmetros, treinados do zero no AMD Instinct ™ MI300X GPUS. Os modelos demonstram melhorias significativas em relação aos modelos totalmente abertos existentes e visam ser competitivo com os modelos de peso aberto de última geração.

A AMD apresenta a Instella: modelos de idiomas de código aberto com 3 bilhões de parâmetros

A Instella é construída em um modelo de transformador autoregressivo, composto por 36 camadas de decodificadores e 32 cabeças de atenção. Essa arquitetura suporta um comprimento de sequência de até 4.096 tokens, permitindo que o modelo processe contextos textuais extensos. O tamanho do vocabulário é de aproximadamente 50.000 tokens, gerenciado pelo tokenizador da OLMO.

O treinamento utilizou a AMD Instinct Mi300x GPUs para enfatizar a integração de software de hardware da AMD. A Instella aumenta os esforços dos modelos AMD OLMO anteriores de 1 bilhão de parâmetros, passando de GPUs de 64 mi250 usando 1,3 trilhão de tokens para 128 mi300x GPUs e 4,15 trilhões de tokens para a Instella.

O pipeline de treinamento da INSTELLA da AMD consistia em quatro estágios, o que aumentava de forma incremental as capacidades do modelo, desde o entendimento geral da linguagem natural até a instrução e o alinhamento em relação às preferências humanas. O primeiro estágio envolveu treinamento em 4,065 trilhões de tokens de diversos conjuntos de dados, incluindo DCLM-Baseline e Dolma 1.7, enquanto o segundo estágio incorporou 57.575 bilhões de tokens adicionais de conjuntos de dados de alta qualidade, como Dolmino-Mix-1124 e Smollm-Corpus.

Versões modelo e detalhes de treinamento

Os modelos Instella lançados incluem:

Instella-3b-STAGE1: Estágio 1 de pré-treinamento com 4,065 trilhões de tokens para proficiência em linguagem natural fundamental.
Instella-3b: Estágio 2 de pré-treinamento com 57.575 bilhões de tokens adicionais para aprimorar os recursos de solução de problemas.
Instella-3b-SFT: Tuneamento fino supervisionado (SFT) usando 8,902 bilhões de tokens em três épocas para melhorar as habilidades de seguir as seguintes.
Instella-3b-Instruct: Alinhamento para preferências humanas usando 760 milhões de tokens com otimização de preferência direta (DPO).

A metodologia de treinamento empregou flashattion-2, compilação da tocha e treinamento de precisão mista BFLOAT16 para eficiência, juntamente com o paralelismo de dados totalmente fragmentados com o sharding híbrido para otimizar a utilização de recursos em um grande cluster.

Benchmarks de desempenho

Os modelos Instella superam os modelos totalmente abertos existentes de tamanho semelhante. O modelo final pré-treinado, a Instella-3b, lidera modelos pré-treinados totalmente abertos com desempenho superior existentes em uma média de 8,08%, com melhorias notáveis em benchmarks, como o desafio do ARC (+8,02%), o ARC fácil (+3,51%) e o GSM8K (+48,98%).

Os modelos Instella-3B se destacam em vários benchmarks padrão, incluindo MMLU e BBH, demonstrando desempenho competitivo significativo contra modelos como LLAMA-3.2-3B e GEMMA-2-2B. Em termos de ajuste de instrução, a Instruct-Instruct, Instella-3B, mostra uma vantagem consistente de 14,37% em comparação com os próximos modelos de ajuste de instrução totalmente abertos com melhor desempenho.

Os modelos foram avaliados usando tarefas padrão de OLMES, FastChat MT-Bench e ALPACA, com resultados indicando um forte desempenho em relação aos modelos existentes de peso aberto de ponta. Os modelos ajustados por instruções alcançaram pontuações notáveis, estreitando lacunas e exibindo a competitividade no cenário dos modelos de linguagem.

Disponibilidade de código aberto

A AMD tem de código aberto todos os artefatos relacionados aos modelos Instella, incluindo pesos de modelo, configurações de treinamento, conjuntos de dados e código, promovendo colaboração e inovação na comunidade de IA. Recursos estão disponíveis através Abraçando o rosto cartões de modelo e Github Repositórios.

Crédito da imagem em destaque: Timothy Dykes/Unsplash

O Post AMD revela os modelos de IA de código aberto que o Rival Meta e o Google apareceu pela primeira vez no Techbriefly.

Source: A AMD revela a Instella: modelos de IA de código aberto que rivalizam com a Meta e Google

A AMD revela a Instella: modelos de IA de código aberto que rivalizam com a Meta e Google

A AMD apresenta a Instella: modelos de idiomas de código aberto com 3 bilhões de parâmetros

Versões modelo e detalhes de treinamento

Benchmarks de desempenho

Disponibilidade de código aberto

Related Stories

Google encerra linha de alto-falantes Nest com estreia de novo modelo Home de US$ 100

Instagram lança legendas exclusivas para cada slide do carrossel

Spotify lança ingressos reservados para usuários Premium dos EUA

Google Earth lança modo simulador de vôo baseado em navegador em todo o mundo