

点击下方卡片,关注“慢慢学AIGC”
本文为《构建 10 万卡 GPU 集群的技术挑战》后续付费部分。
摘要
这篇文章讨论了为 100,000 个 GPU 集群设计不同类型网络所需的材料清单、交换机和收发器成本,并比较了不同网络设计的优缺点。文中提出了 4 种不同的 100,000 个 H100 GPU 集群网络设计选择:
四层 InfiniBand 网络
三层 SpectrumX 网络
三层非优化 InfiniBand 网络
三层 Broadcom Tomahawk 5 以太网网络
文章认为第 4 种 Broadcom Tomahawk 5 网络设计在总体拥有成本和网络性能之间达到了最佳平衡。