英伟达“危”：谷歌发布专为推理任务而生的第七代张量处理单元（TPU）Ironwood-AI前沿快讯-AI工具导航

英伟达“危”：谷歌发布专为推理任务而生的第七代张量处理单元（TPU）Ironwood

在刚刚举办的谷歌云Next 25大会上，谷歌正式推出第七代张量处理单元（TPU）——Ironwood（铁木）。

谷歌表示，其自研的人工智能芯片（TPU）已为最复杂的AI训练与服务任务提供了超过十年的支持，同时也帮助谷歌云客户实现了尖端AI应用的落地。Ironwood作为新一代TPU，专为推理时代设计，将推动具备思考能力的推理型AI模型迈向大规模应用。

Ironwood的设计充分考虑了大语言模型（LLM）、专家混合模型（MoE），特别是高级推理任务所带来的复杂计算与通信需求，采用了一系列创新技术。其芯片间互连（ICI）网络实现了低延迟、高带宽的数据传输，支持全TPU集群规模的高效协同工作。此外，Ironwood通过优化内存访问与数据处理流程，显著提升了计算效率，在大规模张量操作中，能够有效减少数据移动与延迟。

在硬件规格上，Ironwood单个芯片的峰值计算能力达到4614 TFLOPS，当集群扩展至9216个芯片时，总计算能力高达42.5 exaFLOPS，是目前全球最大超级计算机“埃尔卡皮坦”的24倍之多。同时，Ironwood还在内存与网络架构上进行了全面升级，每个芯片配备192GB的高带宽内存（HBM），带宽高达7.2TB每秒，芯片间互连带宽双向提升至1.2Tbps。

为满足不同客户的需求，Ironwood提供了256芯片与9216芯片两种配置选项。此外，谷歌还为Ironwood集成了增强型稀疏核心（SparseCore），该专用加速器能够显著提升超大型嵌入处理效率，不仅适用于传统AI领域，还可拓展至金融与科学计算等领域。

Ironwood的能源效率也实现了一次飞跃。相比去年发布的第六代TPU“Trillium”(延龄草），Ironwood的性能功耗比提升了两倍，通过先进的液冷解决方案与优化的芯片设计，Ironwood在持续高强度的AI工作负载下，性能可达标准风冷的两倍，相比2018年的首款云TPU，能效提升近30倍。

为了进一步提升开发人员的使用体验，Ironwood还支持谷歌DeepMind开发的Pathways软件栈，该软件栈能够帮助开发人员轻松利用数万个Ironwood TPU的综合计算能力，实现高效的分布式计算。

谷歌表示，Ironwood代表了推理时代的一项独特突破，它提升了计算能力、内存容量、芯片间互连网络技术，并增强了可靠性。这些突破，再加上能源效率近两倍的提升，客户能够以最严苛的高性能和最低的延迟处理训练和服务工作负载，同时满足计算需求的指数级增长。

附：Google TPUv7 vs Nvidia GB200 性能对比

参考资料：https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/