A Enfabrica, uma startup apoiada pela NVIDIA, introduziu seu sistema EMFASYS, projetado para aumentar a capacidade de memória do servidor para exigir cargas de trabalho de inferência de IA. O sistema EMFASYS fornece até 18 TB de memória DDR5 adicional para servidores via Ethernet, abordando o gargalo de memória frequentemente encontrado em aplicativos de IA em larga escala.

O sistema Emfasys compatível com rack utiliza a Supernnic ACF-S da Enfabrica, que apresenta uma taxa de transferência de 3,2 TB/s (400 GB/s). Este sistema conecta a memória DDR5 aos recursos CXL, permitindo que os servidores GPU de 4 e 8 vias acessem o pool de memória através de portas Ethernet padrão de 400g ou 800g. A conexão baseia -se no acesso remoto de memória direta (RDMA) sobre Ethernet, facilitando a integração perfeita com a infraestrutura de servidor de AI existente.

A transferência de dados entre os servidores GPU e o pool de memória do EMFASYS aproveita o RDMA, permitindo acesso de memória de baixa latência com zero (medido em microssegundos) sem intervenção da CPU, utilizando o protocolo CXL.MEM. O acesso ao pool de memória da EMFASYS requer software de tenda de memória, fornecido pela Enfabrica, que gerencia atrasos na transferência e outros problemas relacionados. Este software foi projetado para funcionar nos ambientes existentes de hardware e sistema operacional, com base nas interfaces RDMA estabelecidas para simplificar a implantação sem necessitar de grandes modificações arquitetônicas.

O EMFASYS da Enfabrica é especificamente adaptado para atender às crescentes demandas de memória dos aplicativos modernos de IA, particularmente aqueles que envolvem instruções longas, grandes janelas de contexto ou vários agentes. Essas aplicações colocam uma tensão significativa no HBM ligado à GPU, que é limitado em capacidade e caro. Ao empregar um pool de memória externa, os operadores de data center obtêm a flexibilidade de expandir a capacidade de memória dos servidores individuais de IA, tornando -o uma solução adequada para esses cenários desafiadores.

Ao adotar o pool de memória do EMFASYS, os operadores de servidores de AI podem aumentar a eficiência por meio da utilização aprimorada de recursos de computação, desperdício reduzido da memória da GPU cara e redução geral nos custos de infraestrutura. A Enfabrica afirma que essa configuração pode diminuir o custo por token gerado pela IA em até 50% em cenários de alta e longo prazo. Além disso, as tarefas de geração de token podem ser distribuídas de maneira mais uniforme entre os servidores, atenuando potenciais gargalos.

“A inferência da AI tem um problema de escala de largura de banda de memória e um problema de empilhamento de margem de memória”, disse Rochan Sankar, CEO da Enfabrica. “À medida que a inferência fica mais agêntica versus conversacional, mais retentiva versus esquecida, as formas atuais de escalar o acesso à memória não se mantêm. Construímos o Emfasys para criar um tecido elástico de memória AI em escala de rack e resolver esses desafios de uma maneira que não foi feita antes.

O sistema de tecido de memória Ai AI e o chip Supernnic ACF de 3,2 TB/s estão atualmente passando por avaliação e teste por clientes selecionados. A linha do tempo para a disponibilidade geral permanece incerta.

O Enfabrica é um membro consultivo do Ultra Ethernet Consortium (UEC) e contribui para o consórcio Ultra Acelerator Link (UALink).

Source: Enfabrica, apoiado pela Nvidia