暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

总结:远观 ISC 2024

Andy730 2024-06-16
96

我只参与过一次国际超级计算大会(ISC),但我对它情有独钟,因为它相较于超级计算大会(SC)规模更小,却提供了更多交流的机会。在ISC上,还能深入了解到欧洲对高性能计算(HPC)的看法,同时对前一次SC会议的内容进行“六个月回顾”。这通常是必要的时间间隔,让业界有足够的时间消化SC上宣布或展示的内容。因此,ISC的时机恰到好处,让业界能够理解、测试并形成观点,这些观点随后会反馈到六个月后的SC会议上,如此循环往复。我认为这是一个相当有益的流程,有助于新内容的发布、消化、理解,并基于这些理解进行新的发布。

由于今年我未能亲临ISC,我决定从远处对这次会议进行总结,这意味着我所有的信息都来源于新闻发布、社交媒体以及朋友发给我的邮件。这种方式实际上别有一番趣味。

在这篇总结中,我提出了自己的观点,尽管有些受限,因为我的雇主不允许我撰写任何关于他们的内容;不过,如果必要的话,我可以提及他们的名字,但仅限于公开的公告。我给自己设定的最后一个规则是,我只讨论我认为有趣或重要到值得讨论的话题。

Exascale

Exascale是ISC上的一个热门话题,不仅因为TOP500。Exascale系统Aurora在TOP500中排名第二,这一成绩在社交媒体上引发了广泛讨论。即将到来的欧洲Exascale系统,代号为Jupiter,同样是讨论的重点,特别是关于其主要处理器和更新的时间表。这款名为Rhea-2的欧洲处理器预计将在2025年推出,整个系统计划在2026年准备就绪。该处理器基于Arm Neoverse “Zeus” V2内核,并将采用NVIDIA GPU和NVIDIA InfiniBand技术。

美国劳伦斯利弗莫尔国家实验室即将推出的“El Capitan”系统也引起了关注。该系统采用了AMD MI300A加速处理单元(APUs),并将在Dragonfly拓扑架构中使用HPE Slingshot网络。许多讨论都聚焦于它在秋季TOP500榜单中的排名,特别是它是否能超越Frontier夺得榜首。

TOP500

与Exascale讨论紧密相关的是TOP500榜单。几乎每个人都期待在ISC和SC会议上宣布新的TOP500榜单,尽管很多人认为它不是一个衡量当前系统性能的可靠基准。ISC 2024也不例外。我关注的最热门话题包括:

Aurora未能排名第一

有传闻和人们期望Argonne Aurora系统能够通过高性能Linpack(HPL)基准测试达到或接近2 exaflops(每秒进行2×10^18次浮点运算)。然而,事实并非如此。Aurora在TOP500榜单中排名第二,这一结果引起了Twitter/X等社交媒体上的广泛讨论(并出现了大量猜测)。

在ISC 2024上,Aurora系统使用了87%的节点进行提交,一些讨论表明,目前HPL在大规模应用上还未完全优化。一些人认为,如果在下一次TOP500榜单中Aurora使用整个系统并对HPL进行调优,可能会接近Frontier的表现。

一个值得关注的情况是,Aurora以38.698兆瓦的功率达到了第二名,性能/功耗比为26.15。相比之下,排名第一的Frontier使用了22.78兆瓦的功率,达到了约1.2 exaflops,性能/功耗比为52.7,这表明Aurora需要对HPL进行进一步的优化。如果Aurora的性能/功耗比能达到Frontier的水平,那么它的性能将超过2 exaflops。

在另一份榜单中,Aurora在混合精度HPL-MxP基准测试中拔得头筹,达到了10.6 exaflops,超越了Frontier的10.2 exaflops。从功耗数据来看,Aurora的性能/功耗比为273.9 Gflops,而Frontier的为449 Gflops。这显示了低精度计算的巨大潜力。

Frontier仍然排名第一

当然,Aurora未能问鼎榜首的消息也引发了人们对Frontier依旧保持领先地位的讨论,这导致了对不同架构之间优势的众多预测和其他话题的探讨。HPC社区喜欢基于TOP500榜单进行比较,进而深入探讨一种架构如何优于另一种架构。但我认为这些预测可以忽略不计,因为(1)Aurora和Frontier都是基于x86和GPU的,(2)HPL只是一个工作负载,不能仅凭一个数字就决定两个HPC系统之间的优劣。相反,我认为这两个系统以及即将推出的El Capitan系统,都展现了在达到“exascale”目标上的坚定决心。

再次强调,尽管众所周知中国拥有exascale系统,但并未有新的中国系统进入榜单。

中国并没有提交传闻中(而且不止一个)的exascale系统的结果,这一讨论已经持续了一年多。即使在美国对高端计算处理器实施禁运之前,这种讨论也未曾停歇。然而,值得注意的是,中国并没有向TOP500提交任何新的系统。

关于TOP500的最后一点,需要关注英特尔在未来几年内开发zettascale HPC的进展。我相信他们不会让世界失望,并有望在2026年达到那个性能水平(不过,这略带调侃意味)。

关于TOP500的评论

尽管很多人认为TOP500仅指HPL,但实际上它还涵盖了HPCG(高性能共轭梯度)和Green500榜单。HPCG基准测试的开发旨在补充HPL。由于HPCG的内存和计算模式与HPL不同,因此它起到了很好的补充作用。值得关注的是,HPCG的结果仅代表系统总可用浮点运算能力的一个非常低的百分比。

2024年的HPCG结果中,日本的Fugaku系统依然稳坐榜首,这在很多方面都显得尤为突出。首先,自2020年安装以来,Fugaku一直保持着领先地位。此外,Fugaka是一个纯CPU系统(无加速器),这意味着Fugaka在HPL之外的测试中展现出了极高的性能,这使得它成为一个非常重要的系统。

值得一提的是,Aurora提交的成绩排在第三,但仅使用了系统的40%。预计一旦Aurora完全启动并运行,整个系统将用于HPCG的提交。

Graph500与Green500

Graph500基准测试用于评估图处理能力,而Green Graph500则与Green500类似。由于我不是“图”领域的专家,所以我不能对结果做过多评论,也没有看到太多关于它的讨论,但它确实为我们了解大型HPC系统的特性提供了另一个有用的基准。

Green500的创建是为了衡量TOP500系统的功耗效率。它通过HPL性能除以系统使用的总功耗来计算(但这并不总是容易测量)。在ISC 2024上,Green500似乎比TOP500引发了更多的讨论。欧洲一直比北美更关注能源问题,因此这一话题可能比TOP500本身更具意义和关注度。

ISC 2024的Green500榜单相当有意思,因为排名和前几名系统发生了一些变化。排名第一的系统采用了新的NVIDIA Grace Hooper(GH200)Superchip和四轨NDR200 NVIDIA InfiniBand。它的能效达到了72.733 Gigaflops每瓦(Gflops/W)。

实际上,前十名中有八个系统是基于NVIDIA的,另外两个则是基于AMD的。这些排名和性能与之前的榜单相比有了显著变化,这表明GPU在HPL基准测试中非常节能。

我对每瓦浮点运算性能随时间的变化产生了浓厚的兴趣。第一个Green500榜单发布于2013年6月。即使在那时,排名第一的系统也使用了GPU(NVIDIA K20与QDR InfiniBand)。当时的能效是3,208.8Mflops/W(0.32Gflops/W)。与ISC 2024榜单中的第一系统相比,能效在11年内提高了约22.7倍,大约每年提高两倍。

对我来说,这种改进速度是惊人的。目前,关于HPC的一般能耗(特别是对人工智能而言)的讨论非常活跃。Andrew Jones在Twitter/X上发布了一篇精彩的帖子,探讨了HPC的能效:

HPC有助于我们理解气候变化、可持续能源,以及在交通、建筑、制造等领域提高能源使用效率。

但HPC对气候的影响如何呢?

全球电力消耗约为3TW。Top500超级计算机总计约700MW。

所以它们只占全球电力的0.02%。

LinkedIn上有一个更详尽的版本(https://www.linkedin.com/posts/andrewjones_highperformancecomputing-supercomputing-top500-activity-7196120763144228864-W1iq)。

然而,我对于这些数据的准确性持保留态度,因此我做了一些调查。我找到一个参考资料,显示2022年全球总电力消耗为25,530太瓦时(TW-hr)。我还找到另一个参考资料,指出2022年全球所有IT的能耗为240-340太瓦时(TW-hr)。如果这些数据准确,那么IT(包括所有IT)消耗了全球电力的1.33%(假设使用340TW的高值)。

根据Andrew的说法,在这340TW的全球电力消耗中,HPC仅约消耗700MW,这仅占全球总电力的0.2%。尽管这个数值令人咋舌,让我有冲动关掉所有电灯,夏天将恒温器调到26°C,冬天调到10°C以节省能源,但相较于全球电力消耗的其他部分,HPC的占比其实非常小,仅为0.2%。即使HPC的用电量在未来一年内翻倍,也只会占全球消耗的约0.4%,这还包括了用于训练AI模型的庞大计算量、所有云计算等消耗。记得那些担忧AI会大幅增加气候变化的人吗?我认为可以放心地说,气候变化中只有0.2%是由HPC引起的。在指责HPC之前,他们或许应该寻找其他更严重的环境问题。

结合TOP500和Green500榜单(表1),我们可以看到,一些排名靠前的HPC系统同时也是能效最高的。例如,Green500排名第8的Venado系统(使用NVIDIA)在TOP500中也位列第11。同样,Green500排名第9的Adastra系统(使用AMD)在TOP500中排在第20位。

系统Green500排名TOP500排名
Jedi1189
Isambard-AI  Phase 12128
Helios GPU35
Henri4328
preAlps571
HoreKa-Teal6299
Frontier  TDS754
Venado811
Adastra920
Setonix -  GPU1028
Dardel GPU11114
LUMI125
Frontier131
Alps146
MareNostrum  5 ACC158
CEA-HE168
Goethe-NHR17104
Greene-H10018410
ATOS  THX.A.B19252
Pegasus20255


HPC社区完全有理由为在能效方面取得的成就感到骄傲,但一些效率改进是出于实际需求的。没有更高的能效,这些大型系统将没有足够的电力来支撑其运行。

IO500

我特别喜欢查看IO500榜单,因为这个列表极具多样性,并且I/O是HPC工作负载的重要组成部分。此外,要记住Amdahl定律表明I/O无法帮助性能扩展。ISC 2024公布的榜单显示,榜单前列并未出现太大变化,排名最高的新入榜系统位列第15位。

我喜欢查看IO500榜单,并特别关注研究类别中排名最高的“常见”文件系统。由于我主要关注较为常见的文件系统,所以这个列表可能并不全面。同时,排名并不意味着某个文件系统优于另一个,它只是展示了这些文件系统在全球顶级I/O系统中的表现。

文件系统排名
BeeGFS43
DAOS3
CephFS89
IBM  Storage Scale(原名GPFS)26
Lustre(包括DDN  EXAScaler)23
OrangeFS115
Panasas114
VAST97
WEKA20


AI相关的讨论

有人或许会认为,欧洲、中东和非洲(EMEA)的用户更多地聚焦于HPC仿真,而对AI在HPC中的应用持保守态度。然而,从阅读的一些文章和推文中,我们可以看出HPC的讨论中AI的提及愈发频繁。

在ISC会议期间,一个引人深思的话题是:“AI是否应被视为独立的领域,还是HPC工作负载的一部分?”我认为这是一个颇具争议性的话题,尽管我已有自己的见解。这场对话的有趣之处在于,回答者究竟来自何方?他们是资深的HPC用户,还是AI领域的大系统用户?在我看来,理解这种联系有助于我们揭示答案和起源之间的关联。我个人而言,我认为多数HPC领域的人士将AI视为一种工作负载(但我是长期关注HPC的用户)。而AI领域的人士则认为AI是一个需要全新方法的新领域,尽管它看起来与HPC相似。

加速器

加速器一直是讨论的焦点,无论是在ISC 2024还是其他场合。排名最高的非加速器系统当属Fugaka,位列TOP500的第4名,它代表了仅使用CPU的系统的巅峰,其他仅使用CPU的系统则难以望其项背。

现在,我们可以看到加速器在TOP500榜单上占据主导地位,不仅在榜单内,榜单外也不乏其身影。加速器对仿真工作负载、其他类型的工作负载,尤其是AI,产生了深远的影响,并且它们将继续发挥重要作用。

在众多的加速器形式中,GPU无疑占据了主导地位。据一篇文章报道,TOP500中有193个系统使用了GPU(占比38.6%)。然而,使用GPU的系统在计算能力上占据了榜单的75.3%,这充分说明了GPU对HPL基准测试的巨大推动作用。

GPU可能带来的加速效果极具吸引力。ISC 2024期间,Jeff Hammond的一条热门推文引起了广泛关注,他谈到了为GPU重写代码的重要性:

Hammond定律:几乎没有人会为了不到2倍的性能提升而重写他们的代码,但几乎每个人都会为了超过5倍的性能提升而重写他们的代码。

这是一个显而易见的经验性陈述,我经常用它来解释编程模型的发展历史。

尽管我也见过Hammond定律的例外情况,但我相信在大多数情况下,这个定律是准确的。Jeff在HPC领域有着丰富的经验,他几乎见证了所有重要的里程碑,所以他的观点值得我们信任。

Linux基金会为HPC设立新组织

在ISC 2024上,让我略感意外的是Linux基金会(LF)宣布成立高性能软件基金会(HPSF)。HPSF的目标是“构建、推广和推进一个可移植的核心软件堆栈。”它进一步指出,它将为政府、工业和学术领域的关键项目提供一个中立平台。

HPSF旗下的初始项目包括:
  • Spack:HPC软件包管理器。
  • Kokkos:一个性能可移植的编程模型,用于以硬件无关的方式编写现代C++应用程序。
  • Viskores(前称VTK-m):一个针对加速器架构的科学可视化算法工具包。
  • HPCToolkit:从桌面系统到GPU加速超级计算机的性能测量和分析工具。
  • Apptainer:前称Singularity,是Linux基金会的一个项目,提供高性能、功能完备的HPC和计算优化的容器子系统。
  • E4S:一个经过精心挑选和优化的科学软件包分发版。

一个直接的问题是HPSF筹集的资金将如何使用。根据介绍,他们提出了以下目标:

  • 为HPC项目量身定制的持续集成资源

  • 持续构建的、即插即用的软件堆栈

  • 架构支持

  • 性能回归测试和基准测试

  • 与其他LF项目的合作,如开源安全基金会(OpenSSF)、超以太网联盟(UEC)、统一加速基金会(UXL)和云原生计算基金会(CNCF)

虽然这个列表听起来非常吸引人,但我仍有一些疑虑。首先,注意HPSF选择的项目。它们大多来自政府实验室。根据我的经验,大多数行业和学术机构并不使用这些工具,尤其是规模较小的系统,而非大型实验室系统。这是否意味着所有参与者都需要为这些实验室项目买单?

继续这个讨论,值得注意的是HPSF并没有提及这些软件包的长期维护。它主要关注确保这些工具能够协同工作并加以推广。关于支付这些工具的开发费用,并没有明确提及;此外,加入HPSF的费用相对较低($175,000)。

最后,我没有听到他们将如何衡量HPSF的有效性或设置任何具体指标。他们不应在数据收集中包含现有用户,因为这并不能衡量HPSF及其努力的影响。这意味着需要衡量净新增的“用户”。他们将如何实现这一目标?(是否有人记得过去需要自行报告Linux使用情况的时候?)

我并非唯一提出这些问题的人。我希望我的担忧以及其他人的疑虑能够在未来得到妥善解决。

-----

Source:Jeff Layton; ISC 2024 from a Distance



--【本文完】---

近期受欢迎的文章:

  1. ISC 2024要点回顾:迈向E级计算及其未来(2篇)

  2. ISC 2024主题演讲:高精度计算将成为AI模型的核心

  3. 利用CXL技术,提升AI和HPC性能

  4. Hyperion HPC-AI 市场报告(网络会议)

  5. HPC-AI市场报告:预计2024年市场将非常强劲



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论