为了深入了解欧洲最强大超级计算机的建设、运营及其应用情况,我们采访了Pekka Manninen。他是CSC(Centre for Scientific Computing,芬兰科学计算中心)先进计算设施的科技总监,负责Lumi超级计算机的技术工作。
Lumi坐落于芬兰CSC科技中心的先进计算设施内,自2021年投入使用,并于2023年达到全面运行能力。根据2023年11月发布的Top500排行榜,Lumi目前位列全球第五,是欧洲规模最大的超级计算机。

EE Times Europe:能否简要介绍一下Lumi的由来?它的名字又是如何确定的?
Pekka Manninen:Lumi的诞生凝聚了多个国家、多个层面上众多人士的决策和准备工作。但如果要特别提及一个人的话,那就是CSC的总经理Kimmo Koski。他长期以来一直在欧洲范围内积极倡导投资高性能计算(HPC)。早在欧盟委员会提出建设欧洲HPC基础设施的计划,也就是欧洲高性能计算联合计划(EuroHPC JU)之前,他就已经开始为此努力了。
EuroHPC JU启动后,Kimmo充分发挥了我们组织及合作伙伴的优势。我们一致支持将CSC位于卡亚尼市的数据中心作为项目申请地,这里本就是芬兰超级计算机的所在地。
当时,有九个国家组成联盟支持这一构想并承诺提供资金。这些国家包括芬兰、丹麦、爱沙尼亚、瑞典、挪威、比利时、捷克、瑞士和波兰。在芬兰国内,教育文化部以及经济事务和就业部是主要的出资方。多方共同努力的结果是,EuroHPC JU最终将主办权授予了Lumi联盟。随后,又有两个国家(冰岛和荷兰)加入联盟。联盟承担了总成本的50%以上,超过2.02亿欧元,剩余部分由欧盟承担。
关于Lumi这个名字,其实是我想出来的。在芬兰语中,Lumi的意思是"雪"。我觉得白色的超级计算机看起来很酷,而且雪不仅是北欧的典型象征,也代表了白色。给它命名为Lumi之后,我们又为其赋予了一个略显生硬的"反向首字母缩写":大型统一现代基础设施(Large Unified Modern Infrastructure)。
Lumi所在地原本是一座纸厂,属于全球最大的纸浆和纸张生产商之一UPM公司。由于全球纸张供过于求,UPM在2008年决定关闭这座工厂。当时纸厂的用电需求超过230兆瓦,因此我们入驻时,这里的电力容量已完全满足需求。
此外,当地的区域供热系统也位于同一区域,因此我们可以将多余的热量输送到该系统。结果是,Lumi为卡亚尼市15%到20%的家庭提供了供暖。在某些特殊时期,例如供热厂维护停机期间,我们甚至可以为整个城市供暖。
CSC芬兰公司负责运营该设施并进行系统管理。维持数据中心的日常运转只需要约10人。除此之外,还有许多其他人员从事各种工作,以确保超级计算机的实用性和生产力。我们的联盟国家负责用户支持,而专门的兴趣小组和合作团队则处理公共关系、人工智能和网络安全等事务。
EE Times Europe:Lumi的主要架构特点是什么?与其他世界级超级计算机相比如何?
Pekka Manninen:Lumi由约3000个GPU节点和2000个CPU节点构成。每个GPU节点配备四个GPU,每个CPU节点配备两个CPU。在双精度浮点(FP64)运算方面,其持续计算能力约为380 petaFLOPS。得益于我们采用了颇具雄心的机架设计,这些计算资源和所有必要的存储设备被压缩在一个相对紧凑的空间内,总面积大约相当于两个网球场。
Lumi采用了全AMD节点技术,配备AMD MI250X GPU和AMD Milan 64核CPU。计算分区和所有辅助资源,包括数据分析分区以及所有存储和数据管理解决方案,都通过HPE Slingshot网络紧密连接。Slingshot基于高基数交换机,使系统能够实现超大规模和超高性能的数据中心网络,最多只需三次交换机间跳转。它采用了优化的以太网协议,能够与标准以太网设备兼容,同时为高性能计算应用提供强大支持。
与所有超级计算机一样,Lumi具有独特性,并非照搬其他系统的设计。但其设计理念类似于目前在加州国家能源研究科学计算中心(NERSC)的Perlmutter或意大利Cineca的Leonardo。它与Lumi的合作伙伴之一瑞士国家超级计算中心(CSCS)的Piz Daint也有诸多相似之处。
相比其"大哥"位于美国田纳西州橡树岭国家实验室的Frontier,Lumi在节点类型和存储解决方案上更为多样化。但与一些其他顶级系统(如西班牙巴塞罗那超级计算中心的MareNostrum 5)相比,Lumi的同质性又更高一些。
EE Times Europe:如何决定谁可以使用Lumi?目前运行了哪些应用?
Pekka Manninen:Lumi被用于解决数十种不同的计算问题及相关应用。显然,建造大型系统的主要目的是处理小型系统无法解决的计算难题。例如,Lumi已经运行了迄今为止最精确的气候模拟,覆盖了30年的耦合地球系统模型情景,全球分辨率达到5公里。相比之下,此前的气候建模技术只能达到约100公里的全球分辨率。我们在Lumi上运行的太阳磁层建模和等离子体物理模拟也在精度和真实性方面取得了类似的突破。
科研界通常自行开发和维护应用程序,将超级计算机作为一种云服务平台使用。Lumi目前拥有约3000个用户账户和数百个项目。系统上运行的应用范围非常广泛,但资源分配高度集中,即少数几个应用程序消耗了95%的资源。
目前,Lumi约50%的计算能力用于人工智能(AI),特别是训练深度神经网络,用途广泛,尤其是大型语言模型,以及图像识别等任务。这一比例显然高于我们在2019年的预期,当时我们认为模拟计算会占据最大份额。传统的高性能计算(HPC)任务包括分子动力学和计算流体动力学(CFD),这也是我们当时认为的主要应用场景。
幸运的是,我们构建的系统非常适合AI应用。我认为,AI将影响所有科学领域,成为模拟的补充,甚至在某些领域取而代之。这种应用场景显然需要大量的计算能力和超高速的数据访问,而这些只有大型超级计算机才能提供。
我们并没有进行大量的硬件调整,但需要解决一些文化差异。AI社区对系统的期望与我们在HPC领域的习惯有所不同,例如在系统的访问方式上。
在传统HPC中,用户通常提交批处理作业;他们将作业放入队列中,机器执行作业,然后去检查结果。AI从业者则希望有更多的交互性,并希望在几周内占用机器的大部分资源。这种文化冲突需要大量的期望管理,以确保所有人都能从系统中受益。
EE Times Europe:目前设计的超级计算机能否满足未来的需求?如果不能,需要做出哪些改变?
Pekka Manninen:显然,计算需求正在迅速增加,特别是考虑到AI在科研和商业应用中的快速发展。
并非所有计算任务都适合并行处理。然而,单一串行执行单元的处理速度早已遇到瓶颈。现在没有人再考虑10 GHz的处理器了。事实上,为了构建多个执行单元,我们不得不降低时钟频率。这一点在当今的GPU中尤为明显,GPU本质上是大型的并行处理单元。
还有许多其他因素决定了非并行化工作负载的处理速度。这不仅仅是时钟频率的问题,也可能是内存访问速度,或者不同组件的访问方式,例如文件I/O。糟糕的代码会拖慢计算速度,无论计算机多么强大。这通常是算法问题,进而是软件问题。
虽然有一些计算问题永远无法在其他计算模型中运行,但这并不是很大的问题集。对于许多问题,我们仍然需要在紧密连接的节点之间,甚至在相互连接的系统之间扩展工作负载。我不确定是否需要,甚至是否可能继续增加节点数来建造更大的超级计算机。一个可能的解决方案是,将多个大型超级计算机以联合模式互操作,以加速适当的工作流。
AI是一个很好的例子,展示了非常适合并行化的计算任务。它依赖于密集的线性代数运算,有许多层次的并行性可以利用。AI计算需求是我们可以用多核CPU和GPU处理的,这没问题。GPU之所以适合AI,是因为它们在相同的功耗预算下可以提供更多的FLOPS,即每瓦特或每美元的性能比传统的x86 CPU更高。GPU的兴起恰逢其在AI领域表现优异,但实际上,GPU在科学计算中的应用早于AI的基础模型和其他极端计算需求的出现。
值得一提的是关于浮点运算,即IEEE浮点算术。在HPC领域,我们习惯于使用64位算术,但GPU实际上并不是为此设计的。它们起源于计算机游戏,在这些游戏中,像素的微小偏差并不重要,一个像素可以用4位或8位表示。将GPU引入高性能计算领域后,系统供应商和HPC社区花费了10年时间才使GPU在64位精度下表现出色。然而,随着AI的发展,有大量工作负载并不需要64位精度,因此出现了向低精度算术转变的趋势,这对传统的模拟软件在低精度算术下的表现提出了挑战。
关于未来需求的另一个话题是:我提到过在串行处理中算法软件的重要性,这在分布式处理中同样适用。超级计算中的一个最大瓶颈在于应用软件。
科学界偏爱经过测试和验证的传统软件。然而,30年前开发的编程解决方案在当今的硬件上往往表现不佳。为了跟上超级计算的发展步伐,我们需要进行代码现代化和良好的软件工程实践。
Source:Pat Brans; Lumi: CSC’s Manninen on Managing Europe’s Biggest Supercomputer—and AI’s Expectations; July 17, 2024
--【本文完】---
近期受欢迎的文章:
更多交流,可添加本人微信
(请附姓名/单位/关注领域)





