O Google revelou detalhes sobre sua Unidade de Processamento de Tensores de Ironwood (TPU) no Hot Chips 2025, após seu anúncio inicial no Google Cloud Next ’25 em abril. A Ironwood representa a TPU de sétima geração do Google, projetada especificamente para cargas de trabalho de inferência em larga escala, marcando uma mudança das gerações anteriores focadas no treinamento. Cada chip de madeira de ferro incorpora duas matrizes de computação, oferecendo 4.614 TfLOPS de desempenho do FP8. Possui oito pilhas de HBM3E, fornecendo 192 GB de memória por chip com uma largura de banda de 7,3 TB/s. A arquitetura do sistema escala até 9.216 chips por vagem, facilitada por 1,2 TB/s de largura de banda de E/S, eliminando a necessidade de lógica de cola e atingindo um total de 42,5 exaflops de desempenho. Um destaque importante do Ironwood é sua capacidade de memória. Um único pod fornece 1,77 PB de HBM diretamente endereçável, que o Google afirma ser um novo recorde mundial para supercomputadores de memória compartilhada. Essa extensa capacidade de memória é possível pelos interruptores de circuitos ópticos que ligam os racks. O Ironwood TPU também enfatiza a confiabilidade e a resiliência. O hardware pode reconfigurar automaticamente os nós com falha e restaurar cargas de trabalho dos pontos de verificação. Os recursos incluem uma raiz de confiança no chip, funções de autoteste integradas, mitigação de corrupção de dados silenciosos e funções de reparo lógica para melhorar o rendimento da fabricação. Segundo o Google, uma ênfase no RAS (confiabilidade, disponibilidade e manutenção) é visível em toda a arquitetura. O resfriamento é tratado por uma solução de placa fria integrada à infraestrutura de resfriamento líquido de terceira geração do Google. O Google afirma que a Ironwood alcança uma dupla melhoria no desempenho por watt em comparação com seu antecessor, Trillium. A tensão dinâmica e a escala de frequência aumentam ainda mais a eficiência durante cargas de trabalho variadas. As técnicas de IA também foram empregadas no projeto de Ironwood para otimizar os circuitos e as plantas do ALU. Um Sparsecore de quarta geração foi adicionado para acelerar incorporações e operações coletivas, apoiando cargas de trabalho, como mecanismos de recomendação. Atualmente, a implantação de Ironwood está em andamento em Hyperscale nos data centers do Google Cloud. No entanto, a TPU continua sendo uma plataforma interna e não está diretamente disponível para os clientes do Google Cloud. Ryan Smith, de Serrethehome, comentou sobre a apresentação do Google no Hot Chips 2025, afirmando: “Esta foi uma apresentação incrível. O Google viu a necessidade de criar a IA de alto nível, computando muitas gerações atrás. Agora, a empresa está inovando em todos os níveis dos chips 202, para as interconexões e a infraestrutura física.

Source: O Google detalha a Ironwood TPU para inferência em larga escala