暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

ORNL如何利用ADIOS解决Frontier数据挑战

Andy730 2024-05-06
44

在组装并启动全球首台E级超算——Frontier(其运算速度超过每秒100亿亿次,Quintillion即10的18次方)的过程中,美国能源部橡树岭国家实验室(ORNL)遭遇了众多挑战,然而,其中一个核心组件的表现却格外令人满意,运作得异常顺利。

Frontier的核心能力体现在能将海量数据高效存入其文件系统Orion中。而对于那些在Frontier上执行模拟计算的科学家而言,关键更在于如何快速地完成数据的写入与提取,并能同时对这些数据进行深度分析。这一点,正是可适应I/O系统(ADIOS,Adaptable IO System)大显身手之处。

ADIOS本质上是一款I/O框架,它为科学家们提供了一种简便而灵活的方式,去定义其代码中在模拟运行期间可能涉及的数据写入、读取及处理方式。这极大简化了研究人员分析Frontier所产生的庞大数据集的过程。自2008年于ORNL初次问世以来,作为开源软件的ADIOS框架已发展成为全球HPC模拟领域不可或缺的工具,其功能不断丰富,用户群体亦日益壮大。

链接:https://csmd.ornl.gov/adios

“ADIOS始终表现出色,”橡树岭领先计算设施(OLCF)科学主任Bronson Messer表示。“在Frontier上,我们部署了一个新的并行文件系统,而ADIOS确保了这一切的顺利对接。ADIOS在高性能计算机上运行毫无问题,因此即使是新文件系统这样的重大基础设施变更,也不会影响我们的领先级项目的顺利推进。”

在ORNL的OLCF等顶尖计算设施中,ADIOS帮助计算科学家们解析项目产生的大量数据,甚至在数据完全写入之前就开始分析,使科学家们能够在模拟运行过程中就初步了解模拟结果。

“模拟产生了这些数据,但这并不意味着所有数据都必须被写入,”领导ADIOS开发工作并担任ORNL计算机科学与数学部门工作流系统组负责人的Scott Klasky表示。

“当用户仅需要部分数据时,他们可以直接获取,既可以选择将其存储,也可以直接从内存中提取并进行处理。这正是ADIOS的独到之处——它支持这些操作模式。作为首个允许科学家以统一方式处理动态数据和静态数据的技术,即使在今天,ADIOS依然保持着其技术的先进性。”

ADIOS的演进之路

Klasky在德克萨斯大学奥斯汀分校攻读物理博士期间,首次萌生了开发ADIOS这类中间件的需求。当时他正在编写模拟黑洞的应用,后来在普林斯顿等离子体物理实验室担任研发科学家时,又利用Gyrokinetic Toroidal Code来解析聚变反应堆中的湍流输运问题。

“我试图利用当时最先进的自描述、并行I/O系统之一,完成一项看似简单的任务:在一天内写出1TB的数据。”Klasky回忆道,“如今1TB对许多人来说可能微不足道,但在1999年,我们却在美国国家能源研究科学计算中心的IBM RS/6000 SP超级计算机上跨了1000个处理器运行。为了完成这一任务,我们不得不将50%的计算时间用于I/O操作。”

直到2005年Klasky来到ORNL,他才正式开始全力推进ADIOS的发展。他组建了一个团队来开发这个框架,并招募了来自乔治亚理工学院和罗格斯大学等其他机构的研究人员。其中,计算机科学家Norbert Podhorszki对项目起到了巨大的推动作用。2008年,Podhorszki加入ORNL,并开始着手开发ADIOS 1.0,旨在将OLCF的Jaguar超级计算机上运行的最大应用程序的I/O速度提高十倍。

“在ADIOS诞生之前的很长一段时间里,计算科学家就渴望通过自描述数据来简化他们的工作流程。”Podhorszki表示,“然而,之前的系统性能并不理想,因为设计上存在的瓶颈使得在将应用程序扩展到数千个进程时,整体吞吐量会迅速降低。”

“每个在HPC领域工作的人,特别是在这些大型计算机上工作的同仁们,都不得不从零开始,使用字节来构建自己的数据解决方案。他们需要在字节层面进行数据的生成和读取,这确实是一项繁琐的工作。因此,我们不禁思考,‘或许我们能找到一种更高效的解决方式。’”

然而,随着14个主要版本的相继发布,到了2015年,ADIOS的代码拼接变得日益复杂,难以管理,急需进行改进。幸运的是,2016年启动的美国能源部量子信息科学计划(ECP)为即将面世的Frontier等超算系统准备软件应用程序和技术,为ADIOS的更新提供了资金支持。

“ADIOS 2.0在2016年应运而生,其代码进行了彻底的重写,与ADIOS 1.0相比,没有沿用任何一行代码。”Podhorszki说,“我们从C语言转型至C++ 11编程语言,这一转变彻底革新了整个系统。我们的主要目标有两个:一是重新设计和实现产品,以支持即将问世的E级超算的文件系统;二是经过多年的研究,我们将分段技术提升至可供应用程序日常使用的生产级别。”

ECP项目结束时,ADIOS 2.9版本正式发布,它支持了Frontier超级计算机的旗舰应用程序,使其能够每秒产生和消耗高达数TB的数据,并充分利用了Frontier的Orion文件系统。

ADIOS在科学领域的应用

ADIOS在计算科学领域持续发挥着重要作用,被多个开发或使用重要模拟代码的团队广泛采用。例如,它支持了由ECP支持的分子动力学模拟软件堆栈——准确性、长度和时间的E级原子能力(EXAALT,Exascale Atomistic Capability for Accuracy, Length, and Time),该软件用于识别建造裂变和聚变反应堆的最佳材料。

一些使用ADIOS的代码还获得了计算机领域的重量级奖项,包括计算机协会颁发的戈登·贝尔奖(Gordon Bell Prize)。2023年,国家实验室的复杂19人团队凭借其在能源E级地球系统模型中的简单云解析E3SM大气项目,荣获了计算机协会颁发的首个气候建模戈登·贝尔奖。而一年前,来自劳伦斯伯克利国家实验室、劳伦斯利物浦国家实验室和法国替代能源和原子能委员会的16人团队,则凭借他们的动能等离子体模拟代码WarpX,获得了2022年的主要戈登·贝尔奖。这两个获奖项目均在Frontier超级计算机上运行。

“Frontier这样的机器意义何在?是为了更快速的计算吗?”Klasky表示,“我认为这并非全部。虽然计算速度很重要,但更重要的是如何利用这些数据推动科学发现。”

“如果我们能够高效地生成数据,甚至在不影响计算速度的情况下进行原地处理,那么这些大型计算机的价值将得到进一步提升。这也是为什么我们与全球众多应用团队建立了深入合作关系的原因。这种合作关系是我们取得成功的关键因素。”

许多这样的合作关系源自美国能源部的先进计算实现科学发现(SciDAC)计划。该计划旨在汇聚美国众多顶尖研究人员,共同开发新的计算方法,以解决一些最具挑战性的科学问题。作为美国能源部高级科学计算研究(ASCR)计划的一部分,SciDAC与其他能源部办公室和研究所保持紧密联系,为先进科学软件的开发提供资金支持。

“除了我们在ORNL开展的工作外,SciDAC支持了许多与我们合作的应用程序。”Klasky说,“我们通过ASCR开展合作。我们进行的一些基础研究,如数据减少或查询,都是ASCR的研究提案。当我们发现某些方法适用于特定应用程序时,我们会思考:‘我们现在能否将这些技术整合到ADIOS中,并在更多应用程序中加以应用?’”

ADIOS在工业领域的应用

ADIOS允许研究人员高效地将大规模自描述数据从存储中写入并再次存储,这一功能对模拟领域的工业公司计算科学家极具吸引力。因此,ADIOS团队经常协助公司提升其代码中的I/O效率,例如助力德国软件公司NUMECA优化其FINE/Turbo计算流体力学套件(用于涡轮机械模拟),或支持财产保险公司FM Global利用OpenFOAM进行仓库火灾建模。

“与工业界在应用程序上的合作是这项工作的一大亮点,”Podhorszki表示,“它促使我们整合研发成果,而过去我们由于专注于研究,且研究有着不同的优先级,因此并未有足够的时间来将这些成果整合到整个系统中。在这里,我们的首要任务是确保软件的稳定运行。因此,多年来与这些公司签订的合作合同,以及由此带来的软件质量的全面提升,对我们而言具有极大的价值。”

通用电气航空公司在OLCF进行的持续研究利用自制的有限元模拟来研究湍流和涡轮设计。在Podhorszki和ADIOS的帮助下,他们获得了巨大的速度提升。通用电气原本希望在一天内写入100TB的数据,但如果没有显著加快I/O速度,成本将会过高。Podhorszki的目标是提速100倍——最终实现了500倍的提速。

“现在通用电气可以写入比预期更多的数据,”Klasky表示,“而且无需修改应用程序——只需借助ADIOS就能进一步提升性能。我认为这正是ADIOS的强大之处。”

未来发展

Frontier具备超过1 exaFLOPS的卓越计算能力,因此其数据产生能力极为可观,每天能够产生约10PB的庞大数据量。然而,随着数据量的迅猛增长,这也给我们带来了新的数据管理挑战。

“几乎每天Frontier都能产生高达10PB的数据,但问题在于如何高效地处理这一庞大的数据量。”Podhorszki强调道,“因此,我们未来的挑战将有所不同。现在,我们需要聚焦于下一个问题:当数据量过大时,我们该如何应对?我们该如何支持对这些数据的处理,并从中发现其科学价值?”

Klasky提出了一个解决方案,这与我们日常使用手机拍摄大量照片后如何管理它们颇为相似。实际上,我们并不会直接将这些照片全部存储在手机上——它们最终会被上传到云服务中。然而,我们手机上的照片应用程序会提供这些照片的预览,方便我们随时查看,并根据需要选择下载或分享。

“我们能否为海量的数据集提供类似的便捷体验呢?比如那些目前存储在笔记本电脑或大型集群上的超大数据集,我们该如何处理它们?”Klasky表示,“我认为,并非所有人都需要拥有Frontier这样的超级计算机才能深入了解他们的数据内容。因此,这也是我们一直在努力的方向之一——我们究竟要如何实现这一目标?”

-----

Source:ORNL Utilizes Adaptable IO System to Enhance Data Analysis Capabilities on Frontier; April 29, 2024


--【本文完】---

近期受欢迎的文章:

  1. 深入探讨:Frontier“训练”万亿参数模型

  2. TACC的新系统及HPC的未来(PPT)

  3. AI浪潮终于开始惠及戴尔和HPE

  4. 微软公司2024年第二季度财报电话会议记录

  5. 【论文】DAOS在HPC中的应用:存储性能分析与优化



更多交流,可添加本人微信

(请附姓名/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论