前沿资讯
1744267760更新
2
在刚刚举办的谷歌云Next 25大会上,谷歌正式推出第七代张量处理单元(TPU)——Ironwood(铁木)。

谷歌表示,其自研的人工智能芯片(TPU)已为最复杂的AI训练与服务任务提供了超过十年的支持,同时也帮助谷歌云客户实现了尖端AI应用的落地。Ironwood作为新一代TPU,专为推理时代设计,将推动具备思考能力的推理型AI模型迈向大规模应用。
Ironwood的设计充分考虑了大语言模型(LLM)、专家混合模型(MoE),特别是高级推理任务所带来的复杂计算与通信需求,采用了一系列创新技术。其芯片间互连(ICI)网络实现了低延迟、高带宽的数据传输,支持全TPU集群规模的高效协同工作。此外,Ironwood通过优化内存访问与数据处理流程,显著提升了计算效率,在大规模张量操作中,能够有效减少数据移动与延迟。

在硬件规格上,Ironwood单个芯片的峰值计算能力达到4614 TFLOPS,当集群扩展至9216个芯片时,总计算能力高达42.5 exaFLOPS,是目前全球最大超级计算机“埃尔卡皮坦”的24倍之多。同时,Ironwood还在内存与网络架构上进行了全面升级,每个芯片配备192GB的高带宽内存(HBM),带宽高达7.2TB每秒,芯片间互连带宽双向提升至1.2Tbps。
为满足不同客户的需求,Ironwood提供了256芯片与9216芯片两种配置选项。此外,谷歌还为Ironwood集成了增强型稀疏核心(SparseCore),该专用加速器能够显著提升超大型嵌入处理效率,不仅适用于传统AI领域,还可拓展至金融与科学计算等领域。
Ironwood的能源效率也实现了一次飞跃。相比去年发布的第六代TPU“Trillium”(延龄草),Ironwood的性能功耗比提升了两倍,通过先进的液冷解决方案与优化的芯片设计,Ironwood在持续高强度的AI工作负载下,性能可达标准风冷的两倍,相比2018年的首款云TPU,能效提升近30倍。

为了进一步提升开发人员的使用体验,Ironwood还支持谷歌DeepMind开发的Pathways软件栈,该软件栈能够帮助开发人员轻松利用数万个Ironwood TPU的综合计算能力,实现高效的分布式计算。
谷歌表示,Ironwood代表了推理时代的一项独特突破,它提升了计算能力、内存容量、芯片间互连网络技术,并增强了可靠性。这些突破,再加上能源效率近两倍的提升,客户能够以最严苛的高性能和最低的延迟处理训练和服务工作负载,同时满足计算需求的指数级增长。
附:Google TPUv7 vs Nvidia GB200 性能对比

参考资料:https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
豫公网安备41010702003375号