暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

美国《2021-2023财年开创未来高级计算生态系统发展报告:战略规划》

Andy730 2024-07-07
379

核心内容

  • 战略目标一:确立高级计算生态系统为国家战略性资源。

  • 将高级计算生态系统视为关键的战略资源,全面覆盖政府、学术界、非营利组织及工业界,形成国家层面的战略优势。

    1. 整合各类能力与资源,构建可供集体使用的国家战略性资源。

    2. 适应新兴应用工作流程的多元化高级计算需求,这些流程自然契合特定的创新技术、系统架构及应用模式。

    3. 增强并保障国际软硬件供应链中关键高级计算组件的可用性、完整性与安全性。

    4. 加速创新计算范式、技术及能力的引入,同时整合并维护对机构任务至关重要的既有高级计算系统。

    5. 利用政府、学术界、非营利组织、工业界及国际伙伴间的交叉协同,提升效率。

  • 战略目标二:构建稳固且可持续的软件与数据生态系统。

  • 致力于打造一个既创新又可信,经过验证、易于使用且可持续发展的软件与数据生态系统。

    1. 构建一个强健且可持续的软件生态系统,将技术创新转化为国家科学与工程(S&E)领域的领导地位。

    2. 支持新型软件开发的迫切需求。

    3. 建立强大的数据生态系统,包括协作数据管理平台,实现数据的实时处理、管理、分析及跨硬件平台与地理位置的共享;增加数据在政府、学术界、非营利组织、工业界及公众间的流通,加速科研发现进程。

    4. 开发、部署、运营并推广可信服务与能力,确保资源管理既安全又高效。

    5. 探索公私合作模式(PPP)在软件与数据创新及可持续性方面的应用。
  • 战略目标三:强化基础性、应用性及转化性研发。

  • 加大对基础性、应用性及转化性研究与开发的支持力度,以驱动高级计算技术及其应用的持续进步与未来发展。

    1. 在后摩尔/冯·诺依曼时代,巩固硬件领导地位,广泛投资于各类候选技术。

    2. 推动软件及软硬件融合研究,提升解决重大问题的规模与精度。

    3. 应对数据量激增及将数据有效转化为见解所面临的挑战与机遇。

    4. 增强AI能力,包括实时性、规模化、公平性与可解释性等关键特性。

    5. 拓宽测试平台、原型及研究基础设施的可用性与访问渠道,鼓励研发适应日益复杂系统的软件工具。

    6. 应对硬件供应链安全的技术挑战,覆盖先进与可信计算生态系统中电子产品的制造、封装与集成环节。
  • 战略目标四:培育多元化、高素质且适应性强的专业人才队伍。

  • 积极培养并扩大一个多元化、具备高素质且能够快速适应变化的专业人才队伍,为建设和维护未来的高级计算生态系统提供坚实的人才基础。

    1. 打造多元化人才队伍,以实现未来高级计算生态系统的目标,支撑美国创新,引领计算科技前沿。

    2. 制定培训、技能提升及再培训策略,紧跟最先进技术并预测未来技术与解决方案的发展趋势。

    3. 提供激励措施、职业发展路径、奖励结构,并促进在职培训,以留住计算领域的专业人才、技术专家及实践者。

    4. 建立政府、学术界、非营利组织与工业界之间的协同效应,聚焦于人才发展与培训工作。

    5. 通过奖学金、学术项目、实习及学术休假等形式,在内部及外部机构项目、联邦资助的研发中心与国家实验室中,促进与任务紧密相关的在职培训。

-----

2021-2023财年开创未来高级计算生态系统发展报告:战略规划

https://www.nitrd.gov/pubs/FY2021-2023-FACE-Progress-Report.pdf

摘要

国家高级计算生态系统,这一融合了计算系统、数据存储、尖端仪器、数据仓库、可视化平台及专业人才,并通过高速网络紧密相连的综合体系,是国家科研与创新的重要支柱,对维护美国经济实力和国家安全具有不可估量的战略价值。2020年,国家科学技术委员会(NSTC)发布的《开创未来高级计算生态系统:战略规划》明确勾勒了未来高级计算生态系统(FACE)的发展愿景,为构建全国性的、多方参与的联邦战略框架奠定了基石。

自该战略规划发布以来,联邦机构积极响应,在计算、存储、数据、软件研发及人才培养等领域进行了大规模投资,不仅为FACE资源奠定了坚实基础,还提供了支撑关键应用的高品质计算平台。同时,这些投资还促进了基础、应用及转化研究的深入发展,加速了高级计算技术的未来应用步伐,并通过整合前沿技术,强化了政府、学术界与工业界之间的战略联盟。

《2021-2023财年未来高级计算生态系统(FACE)战略计划进展报告》全面总结了各机构在实现NSTC 2020年战略规划中设定的国家FACE核心目标方面所取得的重大进展,这些目标包括:
  • 战略目标一:确立高级计算生态系统为国家战略性资源。
  • 战略目标二:构建稳固且可持续的软件与数据生态系统
  • 战略目标三:强化基础性、应用性及转化性研发
  • 战略目标四:培育多元化、高素质且适应性强的专业人才队伍

本报告详细阐述了每个战略目标及其子目标下的投资布局与实施活动,并重点展示了联邦机构投资与努力的丰硕成果。

总体而言,本进展报告还传达了以下几项关键信息:
  • 联邦政府通过战略性投资及与工业界、学术界的紧密合作,在实现FACE目标上取得了显著成效,为构建强大的国家FACE资源迈出了坚实步伐。
  • 当前的FACE资源已在科学探索、工程技术、经济竞争力提升及国家安全保障等方面为美国带来了巨大福祉。
  • 为确保国家资源能够紧跟计算技术快速发展的步伐,并满足国家日益增长的高级计算需求,持续的支持与投入仍至关重要。

引言

国家高级计算生态系统不仅是美国经济与安全的核心战略支柱,也是应对当前及未来国家安全、可持续发展、医疗保健、气候变化等领域挑战的关键工具。《开创未来高级计算生态系统:战略规划》勾勒了未来高级计算生态系统(FACE)的全面蓝图,旨在奠定美国在科学与工程、经济竞争力及国家安全领域的领导地位。自该战略计划实施以来,联邦机构积极推进FACE的各项目标,致力于构建这一先进的计算生态系统。

本报告后续章节将概述联邦政府的努力成果,并聚焦于各联邦机构在支持战略计划目标方面取得的显著成就与重要进展。请注意,本报告并非对联邦努力的全面盘点,而是精选了2021-2023财年(FY)期间,FACE各项目标实现的部分亮点进行展示。报告编制所参考的材料详见表1至表4。


战略目标一:确立高级计算生态系统为国家战略性资源

将高级计算生态系统视为关键的战略资源,全面覆盖政府、学术界、非营利组织及工业界,形成国家层面的战略优势。

世界级的计算基础设施对于解决国家面临的紧迫与长远挑战至关重要。随着新型及潜在颠覆性计算技术和范式的不断涌现,以及各部门在计算规模、精度、使用模式及约束条件等方面需求的快速变化,确保这一战略资源始终处于技术创新前沿,满足国家日益增长的多样化计算需求,显得尤为关键。近年来,联邦机构已实施多项战略投资,旨在平衡稳定的生产级计算能力供给与创新计算范式的探索,以期将这些范式转化为广泛可用的资源,满足国家计算需求的快速变化与增长。

自《FY开创未来高级计算生态系统:战略规划》发布以来,各机构积极致力于构建全国性的互操作计算生态系统。然而,快速发展的计算技术前沿与机构间的异质需求为此项工作带来了挑战。尽管如此,各机构在获取与部署关键计算、网络及存储能力,建立协调访问机制,以及开发包括门户、网关和工作流工具在内的强大中间件方面取得了显著进展。同时,量子计算、神经形态计算等新兴技术领域也获得了大量投资。机构间还加强了协调合作,旨在建立统一标准,将当前松散的联合计算生态系统整合为紧密联系的互操作体系。未来,各机构需在现有基础上,通过本小节概述的战略活动,进一步推进相关工作。

整合各类能力与资源,构建可供集体使用的国家战略性资源。

联邦机构已成功获取并部署了多样化的计算、存储、网络及安全资源。国防部(DOD)、能源部科学办公室(DOE/SC)、能源部国家核安全管理局(DOE/NNSA)、国土安全部(DHS)、美国航空航天局(NASA)、国立卫生研究院(NIH)、国家科学基金会(NSF)等机构的既有投资,共同构建了包含数据、软件、网络及安全在内的多元化战略资源体系。这些资源包括NIH支持的数据共享与分析联合系统、NASA的高端计算(HEC)计划、DOE/SC的综合研究基础设施计划、DOE/NNSA的核安全高级计算和模拟(ASC)计划的企业级数据基础设施、DOD的高性能计算现代化计划(HPCMP),以及NSF的高级计算系统与服务计划、领先级计算设施(LCCF)等。

尤为值得一提的是,各机构还携手构建了一个混合计算生态系统,将本地系统与商业云资源有效融合,如NSF的CloudBank计划与NIH的STRIDES计划。在知识整合方面,各机构建立了公开可访问的数据仓库与知识图谱,以支持数据驱动的解决方案应对多样化问题。其中,多机构合作的原型开放知识网络(Proto-OKN)项目尤为突出,该项目汇聚了NSF、NIH、NOAA及美国地质调查局(USGS)的力量,并通过NSF的收敛加速器计划等投资活动,推动了开放知识网络的发展。

典型案例 1.1

  • DOE/SC的综合研究基础设施(IRI):为了应对科学用户设施产生的海量科学数据所需的近实时计算挑战,能源部科学办公室(DOE/SC)于2023年构建了综合研究基础设施(IRI)。该设施借助DOE/SC的能源科学网络(ESNet),使研究人员能够无缝且安全地整合DOE的独特数据、用户设施和计算资源。ESNet拥有超过1.5万英里的光纤链路,骨干网络速率从400Gbps到1Tbps不等。SC IRI蓝图活动汇聚了超过160名DOE实验室的专家,明确了实现这些目标所需的新型高性能数据基础设施,并于2023年7月发布了首份报告,详细记录了集成需求和未来展望。
  • NIH的科学技术研究基础设施用于发现、实验和可持续性(STRIDES)计划:该计划旨在通过降低获取商业云服务的经济和流程门槛,推动生物医学研究生态系统的现代化。自2018年7月与商业供应商建立合作以来,STRIDES计划不断扩展其伙伴关系,并于2018年9月和2021年7月进行了扩展。该计划使研究人员能够访问超过253PB的数据,享用超过5.06亿计算小时,并支持了超过1785个研究项目。
  • NSF的领先级计算投资:目前正全力支持德克萨斯大学奥斯汀分校的德克萨斯高级计算中心Frontera项目。Frontera及其后续系统Horizon共同构成了NSF领先级计算设施(LCCF)的核心,为美国研究界提供了卓越的高性能计算(HPC)能力。Frontera作为FACE计算生态系统中面向研究社区的顶尖能力系统,专为处理数千个计算节点的大型应用而设计。截至2023年,Frontera系统已提供超过7200万节点小时的计算资源,完成了超过100万个作业,四年间累计作业量更是超过580万个。

适应新兴应用工作流程的多元化高级计算需求,这些流程自然契合特定的创新技术、系统架构及应用模式。

多个机构(如DOD、DOE/NNSA、DOE/SC、DHS、NASA和NSF)已开发和发布了满足各自社区需求的工作流工具。主要活动包括NASA的高端计算(HEC)计划,该计划支持NASA所有技术任务理事会;国防部防御创新单元(DIU)开发的接口,使用户能够便捷访问DOD的计算和云资源;国土安全部科学技术理事会(DHS/S&T)的数据分析技术中心;DOE/NNSA ASC计划为NNSA生产综合体提供的模拟支持;以及NSF在科学工作流基础设施开发方面的投资,如Pegasus项目。目前,所有联邦资助的高性能计算系统均支持应用工作负载的容器化,这一举措显著提升了生产力、可移植性和性能,是迈向统一计算生态系统的重要里程碑。

典型案例 1.2

  • NSF的“Pegasus:自动化计算与数据密集型科学”项目:该项目致力于提升和强化Pegasus工作流管理系统,使科学家们能够在多种分布式计算资源上灵活协调并运行数据密集型和计算密集型任务。改进的重点在于增强Pegasus的自动化功能,以更好地支持处理大型数据集的工作流,并提升系统的易用性,降低使用门槛。这一努力极大地拓宽了Pegasus高级功能的应用范围,涵盖了从引力波物理、生物信息学到地球科学、材料科学等众多学科领域。Pegasus工作流管理系统通过其设计、实施和支持,为科学家提供了一个抽象层,使他们能够专注于构建计算任务,而不必深入了解目标计算基础设施的具体细节。得益于这些工作流抽象的支持,Pegasus已被广泛学科领域的研究人员所采用。它不仅增强了对国家计算基础设施(如开放科学网格和极端科学与工程发现环境)的访问能力,还将部署在Chameleon和Jetstream等平台,以进一步拓宽对NSF计算基础设施投资的访问渠道。通过提升系统的可用性,并与HubZero、Cyverse等计算基础设施和社区平台提供商的合作,结合教育、培训和教程活动,该项目成功地扩大了能够利用自动化进行研究的科学家群体。与Gateways Institute的合作更是确保了Pegasus接口在科学网关内的垂直集成能力,从而无缝支持新的科学社区。

  • DOE/SC于2023年启动了分布式韧性系统的新研究组合:这是一个为期五年、耗资4000万美元的重大项目,旨在解决由地理分布广泛的仪器产生的海量数据处理所带来的科学工作流挑战。该项目涵盖了五个合作团队,包括DOE国家实验室和大学研究团队,他们正在探索多种方法,如利用群体智能优化分布式资源分配,以及深化对可扩展、联合、隐私保护的机器学习的理解。这一新研究组合是对DOE/SC计算用户设施项目的有力补充,通过提供对系统资源的程序化访问,实现了科学工作流的自动化。这些项目包括橡树岭领先级计算设施的INTERSECT项目、国家能源研究科学计算中心的Superfacility项目,以及阿贡领先级计算设施的Nexus项目。其中,Superfacility项目已在2020年前帮助众多重要科学项目实现了工作流自动化,如暗能量光谱仪、直线加速器相干光源、Lux-Zeplin实验以及国家电子显微镜中心的4D扫描透射电子显微镜相机等。

增强并保障国际软硬件供应链中关键高级计算组件的可用性、完整性与安全性。

安全性在计算生态系统中占据核心地位,涉及多个层级和架构。国防部(DOD)和国家科学基金会(NSF)等众多机构正积极努力,确保已部署系统以及全球供应链中的关键高级计算组件具备高度的可用性、完整性和安全性。随着私营部门在高端计算硬件(如高端图形处理单元GPU)领域的竞争加剧,如何有效利用国际供应链来满足跨机构需求成为了一个日益重要的议题。像国防部与澳大利亚在科学计算技术方面的双边项目协议这样的努力,为国际合作奠定了坚实基础。同时,各机构也在努力保障软件基础设施的安全,例如NSF通过其安全可信的网络空间(SaTC)和网络基础设施创新的网络安全计划进行投资,资助了一系列旨在保护科学数据、工作流和基础设施的解决方案的开发工作。

典型案例 1.3

  • NSF的SaTC计划:SaTC(安全可信的网络空间)计划旨在推动网络安全与隐私保护领域的研究,它融合了计算、通信、信息科学、工程、经济学、教育、数学、统计学以及社会和行为科学等多学科的专业知识。该计划的目标与NSTC(国家科学技术委员会)发布的《联邦网络安全研究与发展战略计划》及《国家隐私研究战略》高度契合,共同致力于在享受网络系统带来的广泛社会与经济效益的同时,确保网络安全与个人隐私不受侵犯。从2021财年至2023财年,NSF通过SaTC计划向这一关键领域投入了超过2亿美元的资金。此外,作为Proto-OKN(开放知识网络原型)的一部分,NSF资助的软件供应链安全知识图谱项目正致力于构建一个统一的知识库,该知识库持续搜集并追踪来自各类在线安全论坛和文件中的软件依赖性与漏洞信息。项目与行业伙伴紧密合作,利用神经知识获取技术从官方文档、软件发布说明、错误报告、CVE(通用漏洞披露)以及在线讨论等多元化信息源中提取软件信息,并通过严格的质量控制与事实核查机制整合这些信息,以实现对知识图谱的持续更新。
  • DOE/SC与DOE/NNSA通过Exascale Computing Project的PathForward计划进行投资:自2017年至2021年,DOE/SC与DOE/NNSA联手通过PathForward计划向六大主要供应商注入资金,旨在强化面向百亿亿次超级计算机及更高性能计算硬件的生态系统。这一联邦投资总额达到2.58亿美元,并由行业承担40%的成本分担。以PathForward项目启动之初为例,当时预计百亿亿次系统中GPU计算节点的数量将达到数万级别,同时预测的数据静默损坏(SDC)故障率之高可能无法满足百亿亿次系统的严苛要求。PathForward计划因此资助了多项供应商方法与硬件的改进与实施,预期能够大幅降低SDC FIT(每十亿小时故障率),显著提升当前产品的可用性,且仅增加微量的硅片面积。
  • DOD/AFRL的SEEEP计划:Secure Extreme Embedded Exploitation and Processing On-board(SEEEP)计划旨在将先进的商业与政府拥有的处理与利用技术整合到一个安全的边缘计算系统中。该系统融合了T-CORE网络强化处理器(增强网络安全,防止在高度对抗环境中的数据泄露)以及一个坚固的分布式计算平台(在尺寸、重量和功率受限的系统中提供高性能)。T-CORE处理器在硬件层面提供了多层次的网络安全保障,无论软件执行状态如何,都能有效保护系统安全,包括采用字节级安全标记来防止未经签名或验证的代码被篡改、内存加密以及设计专用指令集架构以阻止新指令或任意指令的创建。

加速创新计算范式、技术及能力的引入,同时整合并维护对机构任务至关重要的既有高级计算系统。

为了紧跟计算技术发展的步伐,各机构纷纷在新兴计算领域进行战略性投资,并构建了一个健全的协调框架,以便用户能够便捷地访问这些先进计算能力。量子计算和神经形态计算作为两大关键技术领域,吸引了包括DOD、DOE/NNSA、DOE/SC、NASA、NIST和NSF在内的多个机构的投资。例如,劳伦斯伯克利实验室/DOE/SC与桑迪亚国家实验室/DOE/NNSA分别建立了先进的量子测试床和神经计算机等实验平台。为了促进对这些前沿测试床的访问,需要构建一个协调平台,该平台将基于现有的基础设施如DOE/SC的HPC设施、网络用户设施(ESnet)、NSF的ACCESS(领先级计算和高级网络基础设施协调生态系统)以及NASA的HEC(高性能计算)计划进行扩展与建设。

典型案例 1.4

  • DOE/SC量子计算测试平台:美国能源部科学办公室(DOE/SC)资助了两个重要的量子计算测试平台——桑迪亚国家实验室的“量子科学计算开放用户测试平台”和劳伦斯伯克利国家实验室的“高级量子测试平台”。自2020年起,这些测试平台已对外开放,供外部合作伙伴通过竞争方式使用。2023年,DOE/SC宣布为六个合作项目额外提供1170万美元的资金支持,旨在深化我们对量子计算如何、何时以及能否推动计算科学前沿发展的理解。这些项目不仅探索了当前噪声中等规模量子处理器的局限性,还致力于开发评估工具,以判断特定量子处理器能否在没有正式设备错误校正的情况下,推动计算科学的前沿进步。
  • NASA量子人工智能实验室(QuAIL):QuAIL是NASA专注于评估量子计算机对未来NASA计算挑战潜在影响的中心。该实验室坐落于艾姆斯研究中心,致力于量子应用与算法的研究、量子计算工具的开发,以及量子计算基本物理原理的探索。QuAIL还积极与国内其他量子实验室建立合作关系,如橡树岭国家实验室,以及能源部旗下的量子优势联合设计中心和超导量子材料和系统中心等。
  • 高级网络基础设施协调生态系统:服务与支持(ACCESS)计划:为了提升国家网络基础设施中心的可访问性,并加强与全国校园系统及研究社区的融合,美国国家科学基金会(NSF)设立了ACCESS计划。该计划是机构在FACE框架内推动高级计算系统访问努力的典范。通过ACCESS,NSF在过去五年内向五个领导机构及其附属机构授予了高达5200万美元的资金,以推动该计划的实施。ACCESS中的每个项目虽独立管理,但高度协作;同时,ACCESS协调办公室负责支持项目的整体运作,努力在全国范围内的高性能、创新计算资源中提供无缝体验。

利用政府、学术界、非营利组织、工业界及国际伙伴间的交叉协同,提升效率。

各机构正积极构建和参与协调机制,以汇聚多元利益相关者。构建一个强大的计算生态系统,不仅需要联邦机构间的紧密协作,还需携手美国国内的行业、学术界以及国际研究社区。众多联邦机构通过参与如NITRD HEC IWG工作组、国家量子倡议(包括DARPA、DHS、DOC、DOD、DOE、DOJ/FBI、IARPA、NASA、NIH、NSA、NSF、ODNI、OSTP、USGS和USPTO等机构的参与)以及国家人工智能研究资源(NAIRR)试点计划等,定期与学术界、非营利组织和行业进行全国乃至国际性的合作,共同推动计算科学的进步与发展。

典型案例 1.5

  • 2022年4月,美国国家科学基金会(NSF)宣布了一项超过3700万美元的重大投资计划,旨在推动智能、韧性和可靠的下一代(NextG)网络技术的研发。这一名为“RINGS”(韧性和智能下一代系统)的投资项目,构建了一个公私合作的创新模式,旨在加速科研进程,提升美国在NextG网络和计算技术领域的全球竞争力,并确保NextG技术和基础设施的安全性与韧性。此公私合作模式为研究工作注入了宝贵的经验、深刻的洞察力及丰富的资源,极大地促进了基础科研成果向能够重塑美国电信与信息技术行业格局的新技术的转化。RINGS计划作为NSF迄今为止规模最大的公私合作典范,汇聚了众多私营部门与政府机构的力量,包括美国国防部研究与工程副部长办公室及国家标准与技术研究所等。
  • COVID-19 HPC联盟:面对全球挑战,COVID-19 HPC联盟迅速集结了联邦政府、工业界与学术界的精英力量,在FACE框架下整合关键计算资源,全力支持新冠病毒研究的紧急需求。该联盟在OSTP、NSF、DOE及工业界的紧密协作下迅速成立,构建了一个前所未有的公私合作网络,成员遍布全球,共计43个,共同贡献了超过600 petaflops的超级计算能力、165,000多个计算节点、680多万个计算处理器核心以及50,000多个GPU。联盟成功支持了超过115个研究项目,对病毒的科学认知、医疗供应链的优化以及资源分配策略的改进等方面做出了巨大贡献。展望未来,国家战略计算储备被寄予厚望,旨在为未来紧急情况提供类似级别的支持能力,《国家战略计算储备:蓝图》报告深入阐述了公私合作在实现这一目标中的核心作用。
  • Exascale计算项目(ECP)工业和机构理事会(ECP-IAC):作为ECP项目的重要咨询机构,ECP-IAC汇聚了来自政府机构的高级HEC领导人与战略行业合作伙伴,共同推动对exascale计算技术的认知与采纳。该理事会成员包括国防部(DOD)、国家航空航天局(NASA)、国家科学基金会(NSF)、国家卫生研究院(NIH)以及国家海洋与大气管理局(NOAA)等五大机构,并与17家行业合作伙伴保持年度多次的深入交流,旨在通过技术分享、ECP领导层更新及反馈机制,共同推进exascale计算技术的发展与应用。


战略目标二:构建稳固且可持续的软件与数据生态系统

致力于打造一个既创新又可信,经过验证、易于使用且可持续发展的软件与数据生态系统。

在当前硬件技术日新月异的背景下,软件领域正面临着诸多挑战。美国亟需维护一个能够灵活应对日益复杂系统模拟需求的强健软件生态系统,并确保数据生态系统的稳健与灵活,以应对人工智能(AI)与机器学习(ML)技术飞速发展的双重挑战。近年来,美国能源部(DOE)的极端规模计算项目(ECP)成功构建了一个稳健的软件生态系统,为现代硬件平台上的关键任务应用程序提供了有力支持。这一成就需进一步拓展至更多应用领域,并在新一代硬件技术的发展中保持并推动这一生态系统的持续发展。

尽管在实现上述战略目标上已取得显著成效,但技术进步的加速要求我们持续努力,以维护并深化这一生态系统的发展。本战略的实施将依托于以下各节详述的子目标。

构建一个强健且可持续的软件生态系统,将技术创新转化为国家科学与工程(S&E)领域的领导地位。

构建一个强健且可持续的软件生态系统,关键在于推动软件开发的创新,并对老旧的应用程序代码、库及软件工具进行现代化改造。尽管硬件技术、软件生态系统及开发最佳实践的不断发展使得这一目标变得更为动态,但通过制定标准接口和构建可移植性框架,我们已取得了重要进展。这些框架有效地将应用程序层面的编程与底层系统细节的复杂性相隔离。多个机构如国土安全部(DHS)、国防部(DOD)、能源部国家核安全管理局(DOE/NNSA)、能源部科学办公室(DOE/SC)、美国国家航空航天局(NASA)、国家卫生研究院(NIH)及国家标准与技术研究院(NIST)等,均致力于开发并推广利用最新硬件和软件创新成果的软件,以支持一个可持续的软件生态系统。其中,由DOE/SC和DOE/NNSA支持的ECP项目在范围与贡献上尤为突出。该项目不仅创建了Kokkos、RAJA、OpenMP等可移植性框架,使应用程序能轻松适配不同平台,还积极探索了机器学习模型在软件中的应用,以及初步的人工智能驱动软件开发工具的潜力,预示着未来充分利用AI优化软件生态系统的广阔前景。

典型案例 2.1

  • DOE/SC与DOE/NNSA在ECP上的投资成效显著:这些投资共同构建了一个综合性软件生态系统,涵盖了20多个核心应用程序和80个软件包,集成了超过10种编译器和10种编程模型,能够支持从便携式笔记本电脑到超级计算机等各类硬件架构。这一努力不仅加速了美国在科学模拟和AI领域的计算能力,还充分挖掘了超级计算机的潜力,为基于现有基础构建的未来系统奠定了坚实基础。为了管理并简化这一拥有超过百万种组合的复杂生态系统,ECP创建了极端规模科学软件栈(E4S),面向整个科学和AI用户社区提供服务。E4S大大降低了DOE、其他政府机构、工业界及大学用户和开发者的使用门槛,现已提供80种不同的一键式HPC和AI产品,按主题划分为软件开发工具包。依托E4S的应用程序能够享受版本兼容性的保障,定期访问最新稳定功能,并利用高级构建环境功能将构建时间提升十倍以上。此外,E4S支持GPU架构,广泛部署于DOE和NSF的超算及预超算系统中,以及其他政府机构和工业界系统,确保了美国未来超算成功的可移植性。基于E4S的应用还能借助Kokkos、RAJA和OpenMP等可移植性框架,迅速适应包括预超算、超算及云计算在内的不同平台。
  • DOD的高性能计算现代化计划(HPCMP)同样展现出强大实力:该计划构建了一个多元化的计算生态系统,融合了硬件、软件、网络及各项服务,不仅覆盖了传统HPC工作负载所需的计算资源,还针对AI和ML的新兴需求设计了相应资产。这些资源在DOD内部、国防工业基地以及NASA和DHS等关键任务合作伙伴间共享,能够灵活适应不同安全分类级别、多种限制条件,并平衡代码开发者与用户的需求。HPCMP为DOD科学家提供了超过86 petaflops的强大计算能力。同时,该计划还构建了一个协作式数据湖生态系统,集数据收集、存储、管理及分析于一体,支持跨DOD硬件平台、网络及地理位置的实时数据处理。这些投资极大地推动了AI/ML在武器系统维护与库存管理中的应用发展。此外,HPCMP的“检测、分析和报告的网络安全环境(CEDAR)”计划,更是为设计、测试、构建及持续评估防御性网络空间操作(DCO)平台提供了强大支持。CEDAR集成了多种传感器与高速数据处理管道(超过100 Gbps),能够实时监测并防御可能威胁国防研究与工程网络及其RDT&E社区安全姿态的异常与恶意网络流量。该计划允许网络安全分析师高效收集、丰富、关联、索引及警报各类数据源,具备强大的扩展能力(每秒处理超过10万起事件),充分满足DOD RDT&E社区的安全需求。

支持新型软件开发的迫切需求。

随着新兴技术与计算范式的不断涌现,其对软件开发提出了全新而独特的需求。DOE/NNSA、DOE/SC、NASA、NIH及NSF等多个机构正积极支持新软件开发方法的探索与实践。新算法与成熟软件的研发平台日益增多,这些平台普遍配备了GPU等高性能硬件,在高端HPC系统及边缘平台上尤为常见,同时也不乏最先进的AI加速器。尽管小型系统和测试平台的访问权限逐渐普及,但大型系统的开发与测试资源仍显紧张,因其常需与大规模生产任务竞争。为此,多个机构正努力将持续集成、版本控制等行业最佳实践引入高端计算平台,包括生产及测试平台。随着软件开发工具与最佳实践的持续演进,各机构需不断采纳新技术,以适应变化。尤为值得一提的是,新兴的AI驱动软件开发工具与软件界面正为软件开发领域带来革命性变化,它们有望显著提升开发人员与用户的生产力,同时解决正确性、可溯源性、可重复性、稳健性等多个方面的挑战。

典型案例 2.2

DOE/SC的ALCF在2022年成功部署了Polaris超级计算机,为科学家和应用程序开发者搭建了一个宝贵的平台,用于测试和优化代码,为即将问世的Aurora超级计算机做好充分准备。这一举措对许多人而言,是迈向新阶段的重要桥梁,因为Aurora将采用与以往ALCF系统截然不同的软件栈。在Polaris上,开发人员能够运用诸如OpenMP和SYCL等编程模型,来测试和开发针对GPU的代码,这些模型未来也将应用于Aurora。此外,Polaris还为ALCF提供了宝贵的窗口期,在Aurora正式部署前的数月内,测试新的系统管理软件。Polaris还助力了多个重点项目,这些项目聚焦于利用AI进行科学研究,以及将大型研究设备与高性能计算紧密集成。随着Aurora的正式上线,Polaris预计将在2024年转型为ALCF的主要可视化与分析生产资源。不仅如此,DOE/SC正积极拓展超算领域的边界,通过极端HPC异构性软件栈项目,致力于开发高性能、可靠的应用程序,并推广新系统编程技术及工具,以支持基础科学研究。

  • DOD的HPCMP在FY23年推出了全新的软件开发计划——“HPCMP研究所”,旨在精准对接DOD工程、科技与分析利益相关者的特殊HEC(高性能计算)需求。这些为期三年的项目致力于产出可直接部署于HPCMP资源的软件产品,并转交给DOD用户社区使用。尽管政府、工业界及学术界的科学家与工程师均可参与资助下的研究所项目,但每项开发工作均需获得DOD赞助者的支持。预计到FY25年,将有三所研究所同时运行,以应对DOD不断涌现的关键任务需求。
  • NSF则继续通过持续科学影响网络基础设施(CSSI)计划,加大对促进科学发现的软件开发的投资力度。作为NSF数据与软件战略的核心组成部分,CSSI通过长期投资,专注于激发新思维模式的产生,并推动数据与软件服务的开发与应用实践,以深化对自然、人类及工程系统的理解。在FY21至FY23期间,CSSI计划投资总额超过1.98亿美元,资助了超过200个项目,这些项目横跨所有科学领域,专注于构建软件与数据网络基础设施。资助项目通过创新解决方案,有效应对了各学科中的紧迫需求,并为软件与数据生态系统的发展做出了重要贡献,这些生态系统与NSF在基础科学领域的其他投资形成了良好的互补效应。自2022年起,CSSI计划新增了“向可持续性过渡”的资助方向,旨在支持具有创新性的理念,确保在资助期限结束后仍能持续获得投资。

建立强大的数据生态系统,包括协作数据管理平台,实现数据的实时处理、管理、分析及跨硬件平台与地理位置的共享;增加数据在政府、学术界、非营利组织、工业界及公众间的流通,加速科研发现进程。

众多机构如DOD、DOE/SC、NASA、NIH、NIST及USGS等,均在此领域付出了巨大努力,并向公众开放了大量数据与工具。其中,部分工具以“门户”形式呈现,通过网站即可访问,这不仅提升了数据的可追溯性,还显著提高了学生与研究人员(尤其是非编程背景人员)的使用便捷性。然而,政策、法律及技术层面的数据共享障碍、关键数据集规模与更新频率的激增,以及众多领域中仍需手动管理与质量控制的过程,均对数据生态系统的构建构成了严峻挑战。未来,借助新兴的AI技术,有望大幅减少手动数据管理步骤,实现联邦级与隐私保护的建模,从而有效解决诸多现存难题。

典型案例 2.3

  • NIH持续扩展其“发现、实验和可持续性科学技术研究基础设施”(STRIDES)计划,并于2021年新增了一家主要云服务商作为合作伙伴,进一步壮大了合作阵容。STRIDES的核心原则之一是,通过这些合作伙伴关系提供的数据需符合生物医学研究社区的公认标准,以确保数据的可发现性、可访问性、互操作性和可重用性。NIH的初步工作重点是通过云端技术,使NIH的高价值数据集更加易于访问,同时利用合作伙伴在数据相关创新(如机器学习和人工智能)方面的优势,并尝试优化技术密集型研究的新途径。STRIDES计划极大地扩展了NIH研究人员以及全国2500多所学术机构中接受NIH资助的研究人员对关键基础设施和尖端云资源的访问权限。截至2021年,STRIDES的投资已促成对超过253 PB数据的访问,提供了超过5.06亿计算小时的支持,并助力了超过1785个研究项目的推进。
  • NSF的“利用数据革命”(HDR)计划——科学与工程数据密集型研究所于FY21年正式启动,旨在建立一系列HDR研究所,专注于科学和工程数据密集型研究,通过整合多样化的数据源以及开发和应用新方法、技术和数据管理及分析基础设施来引领创新潮流。该计划共资助了五个跨学科研究所,总预算超过7000万美元,这些研究所构成了FACE计划中稳健数据生态系统的重要一环。这些研究所包括俄亥俄州立大学的Imageomics研究所(专注于从生物图像中挖掘信息)、高频主动极光研究计划(HAARP)研究所(致力于开发数据科学解决方案以应对北极航行、气候变化和海平面上升等重大挑战)、数据驱动动力设计研究所(旨在实现材料发现)、加速AI算法数据驱动发现研究所(涉及高能物理、多信使天文学和神经科学领域)以及地理空间理解研究所(以增强社区韧性和环境可持续性为目标)。此外,NSF还通过开放知识网络(OKN)计划,利用最先进的知识表示技术连接可信信息。在NSF融合加速器Track A的第二阶段,五个项目获得了总计2500万美元的支持,以推动OKN的创建。同时,OSTP和NSF联合赞助的OKN创新冲刺汇聚了多部门力量,NSF启动了原型OKN计划,目前正支持18个项目,总计投资2670万美元,这些项目作为一个整体协作,创建了Proto-OKN,并与NIH、NASA、NOAA、USGS和NIJ等机构展开合作。

开发、部署、运营并推广可信服务与能力,确保资源管理既安全又高效。

多个机构,如DOE/HPCMP、DOE/NNSA、DOD/SC、NASA和NIH,均向其用户群体提供了一系列可信的服务和资源。这些服务和能力覆盖广泛,从DOE的超级计算能力到全球范围内的高端边缘计算能力,既涵盖固定位置也涉及移动平台。随着系统规模的不断扩大、地理分布的日益广泛以及硬件异构性的增加,对调度和资源分配技术的研究持续深入,以进一步提升资源利用率。尽管已取得显著进展,但确保系统和应用的安全性、韧性、长期稳定性和效率仍然是一项持续不断的挑战。

典型案例 2.4

  • DOE/SC的OLCF(橡树岭领先级计算设施)在2021年推出了CITADEL,这是一个全新的安全协议框架,旨在让研究人员能够在Summit超级计算机、Frontier百亿亿次系统以及实验室管理的其他系统上安全地处理受保护的健康信息、个人可识别信息、受《国际武器贸易条例》监管的数据以及其他需要严格隐私保护的数据。例如,在CITADEL问世之前,包含手写医生笔记的医疗记录通常无法直接在超级计算机上进行处理;尽管结构化医疗记录中的姓名和地址等信息可以自动剥离,但自由格式的笔记处理起来却复杂得多。2022年,CITADEL安全框架被成功应用于OLCF的Summit超级计算机上,实现了退伍军人健康记录的安全传输与分析,这是“现在改善结果”项目的一部分。到了2023年,基于DOE与NIH国家癌症研究所的紧密合作,研发出了一种新算法,作为癌症登月计划的关键成果之一。该算法在分类美国癌症报告方面展现出卓越性能,比传统方法快出18倍。这一创新性的案例级多任务层次自注意力网络,利用自然语言处理技术,自动编码并处理提交给全美监测、流行病学和结果登记处的癌症病理报告。
  • NSF网络安全卓越中心——Trusted Cyberinfrastructure (CI)成立于2020年,汇聚了众多网络安全领域的专家,为NSF研究生态系统提供领导力和技术支持,以应对日益严峻的网络安全挑战。Trusted CI通过建立广泛的合作伙伴关系,直接为NSF的网络基础设施项目和主要设施提供安全支持,并通过协作方式满足特定项目的安全需求。其参与的活动包括但不限于安全审查、安全架构设计、身份与访问管理以及软件安全保障等。Trusted CI还积极传播和推广网络安全最佳实践,通过官方网站、博客文章、电子邮件列表和在线聊天等方式与社区互动,并提供现场和在线网络安全培训课程。2023年,Trusted CI发布了运营技术采购供应商矩阵,旨在帮助组织更好地理解将新运营技术纳入其安全环境所涉及的风险。此外,NSF还推出了多项举措,如“通向开源生态系统”的路径程序、FAIR(可发现、可访问、可互操作、可重复使用)开放科学研究协调网络(RCN)以及地球科学开放科学生态系统,以促进值得信赖的开放系统的建设。例如,FAIR在ML、AI就绪性和可重复性RCN中发挥着重要作用,帮助研究人员深入理解FAIR数据与ML准确性和性能之间的关系,探索ML输出的可重现性及其在不同软件堆栈、硬件处理器类型和环境效应下的变化,以及数据设施如何简化研究人员在数据集中应用ML的过程,从而确保那些运行高端计算设施和数据存储库的人员及其用户能够紧跟ML技术的快速发展步伐。

探索公私合作模式(PPP)在软件与数据创新及可持续性方面的应用。

当前多个机构,如DOE/NNSA、DOE/SC、NASA和NIH等正积极与其他机构或私营部门建立合作关系,为关键任务软件包提供持续的技术支持和维护。随着工业界对高性能计算需求的不断增长,公私合作的机会也日益增多。这主要得益于高端计算能力的普及、HPC与AI技术的深度融合以及对大规模动态数据集进行精准分析需求的增加。

典型案例 2.5

  • DOE/SC通过其在ALCF的Aurora项目中的投资,以及与DOE/NNSA携手在ECP(Exascale Computing Project)框架下,与行业伙伴共同开发了一种创新的开源HPC(高性能计算)数据管理框架——分布式异步对象存储(DAOS)。该框架专为下一代非易失性内存技术量身定制,驱动了ALCF的Aurora异域尺度超级计算机的存储系统。DAOS以其高带宽、低延迟和卓越的I/O操作性能每秒(IOPS)著称,通过采用对象存储范式,有效消除了传统存储系统常见的性能瓶颈。自2016年启动投资以来,截至2020年,DAOS驱动的存储系统在IO 500系统基准测试中脱颖而出,不仅独占鳌头,还成功驱动了榜单上前17名中的8个系统。
  • NSF(美国国家科学基金会)的技术、创新和合作伙伴关系(TIP)总局于2022年正式成立,旨在激发并推动科学和工程领域的应用研究和转化,促进新兴产业的诞生,并鼓励全民参与。TIP的核心使命之一是加速关键及新兴技术(如先进制造、先进材料、先进无线技术、人工智能、生物技术、量子信息科学以及半导体和微电子等)的突破,从而加快研究成果向实际应用的转化进程,确保美国在全球竞争中的长期优势。同时,TIP还致力于通过其“从实验室到市场”的平台,加速科研成果的商业化进程。TIP通过一系列项目,如创新合作伙伴关系、创新军团、美国种子基金(也被称为小企业创新研究/小企业技术转移计划)、激活计划和“通向开源生态系统的路径”等,为研究人员、初创企业、小企业及有创业梦想的企业家铺设了一条从实验室走向社会的道路,并提供了一系列NSF资源的访问权限。这些项目不仅促进了研究成果向社会的转化,还开辟了新路径,包括构建新的开源生态系统、提升政府服务效能或推动教育创新的规模化发展。自2022年成立以来,TIP已投资设立了五个新的i-Corps中心,并积极探索与行业的合作模式,以加强在FACE(未来先进计算生态系统)相关领域的人才培养。


战略目标三:强化基础性、应用性及转化性研发

加大对基础性、应用性及转化性研究与开发的支持力度,以驱动高级计算技术及其应用的持续进步与未来发展。

当前,高性能计算领域正面临从传统的冯·诺伊曼体系结构和摩尔定律主导的思维模式,向神经形态、生物学和量子技术等新兴技术为主导的转型挑战。这一转型任务艰巨,唯有持续投入研究资源,方能实现顺利过渡。FACE倡议的第三个战略目标正是推动这一转型的关键驱动力。

在此战略目标的引领下,我们已取得了显著进展。新的计算方法正以惊人的速度被研究并日益成熟,新的人工智能和数据分析方法不断涌现,更大规模的计算能力正在部署,同时,大量的测试平台和原型系统也在被积极创建和升级。然而,要开发和部署高效、智能且可扩展的计算技术,我们仍需付出大量努力。这一战略目标的实现得到了以下子目标的坚实支撑。

在后摩尔/冯·诺依曼时代,巩固硬件领导地位,广泛投资于各类候选技术。

随着登纳德缩放定律终结和摩尔定律改进放缓,我们正积极推动对传统冯·诺伊曼计算模型的替代方案的研究,如神经形态、仿生、量子、模拟、混合和概率计算等。此外,新颖的材料和方法,如DNA存储和量子技术,也已成为我们机构投资的重要方向。尽管这些技术仍处于基础研究阶段,但我们在理解方面已取得了重要进展。DOE/SC、NIST、NSF等机构已在神经形态、仿生和模拟计算方法上进行了大量投资,特别是在机器学习的背景下。同时,许多机构也积极参与了量子导向的发展,这些发展有望通过量子信息科学彻底改变传统的计算硬件和软件。非冯·诺伊曼时代的计算转型无疑将对机构产生深远影响,因为它要求我们对硬件和软件进行重新构想,这既带来了巨大挑战,也孕育了无数创新和发现的机会。当前的软件可持续性计划和方法可能不再适用于这一新计算时代,因此必须进行适应性调整。培养掌握非冯·诺伊曼时代架构技能的人才也将是一项极具挑战性的任务(参见目标4)。此外,这些变化还将直接影响创新经济以及广大用户群体。

尽管面临诸多挑战,但鉴于计算和人工智能能力的战略重要性、日益增长的需求以及能源使用的增加,我们向这一目标迈进的决心坚定不移。已取得的研究成果更是让我们对未来的显著进展充满信心。

典型案例 3.1

  • 根据国家量子计划法案的要求,NSF和DOE已成立新的中心,专注于量子信息科学(QIS)的研究与发现。与此目标相契合,NSF在2020年宣布了量子跃迁挑战研究所的首轮三项奖励,并在次年又增加了两项奖励。同时,DOE/SC也在2020年宣布了国家量子信息科学研究中心的资助机会奖项。这些中心汇聚了跨学科团队,致力于解决量子信息科学与工程领域中最复杂、最紧迫的问题。它们与大学、国家实验室及行业紧密合作,共同探索量子前沿,推动量子信息科学技术的发展,并拓展量子信息科学的培训机会。量子计算和网络技术在提升科学、医学、工业运作等领域的关键问题解决能力方面具有巨大潜力,已成为这些研究所和中心关注的重点。这些中心在理解不同类型的量子比特和量子通信技术的基本特性和限制方面取得了显著进展。
  • 此外,DOE/SC还在2019年资助了多个机构团队,作为其量子计算加速研究计划的一部分,旨在探索量子计算的创新方法。量子计算的发展需要新的算法、系统软件、编程工具和硬件技术的支持。例如,2022年劳伦斯伯克利国家实验室的研究人员就开发出了一种新的量子误差缓解方法——噪声估计电路。当与其他三种误差缓解技术结合使用时,该电路在材料动态模拟中取得了可靠的结果。这一新的误差缓解方法将使研究人员能够运行更长、更复杂的模拟,并仍然保持结果的可靠性。这将极大地扩展量子计算机在清洁能源、人工智能等广泛领域科学发现中的潜在影响力。

推动软件及软硬件融合研究,提升解决重大问题的规模与精度。

高端计算的进步离不开硬件和软件技术的同步提升。随着系统变得越来越异构且往往地理分布广泛,这一需求变得更加迫切。新的计算范式的发展进一步加剧了这一趋势,而新的范式通常要求硬件和软件能力进行协同设计——在迭代改进的过程中紧密合作——以充分发挥新计算技术的潜力。多个机构如DOD、DOE/NNSA、DOE/SC、NASA和NSF正在支持开发利用大规模高性能计算的新颖软件算法和应用程序。例如,ECP项目在DOE/NNSA和DOE/SC的支持下,已为国家最大的exascale超级计算机准备了多个应用程序。随着系统规模的扩大,我们也在不断探索新的编程方法以充分利用资源的能力。异构硬件的日益复杂性和现代软件的复杂性增长推动了新编程方法的创新。例如,NIST正在研究基于数据流图的软件抽象方法以开发高性能计算应用程序。

典型案例 3.2

  • 美国能源部科学办公室(DOE/SC)的高级计算促进科学发现(SciDAC)计划,旨在汇聚全国顶尖的研究力量,运用应用数学与计算机科学的专业知识,创新计算方法,攻克一系列极具挑战性的科学难题。自2001年成立以来,SciDAC通过构建与ASCR、其他SC计划、DOE其他部门及联邦机构的广泛合作网络,极大地加速了科学发现的进程。SciDAC持续应对预测建模、高精度模拟、大数据集处理与管理、科学可信度提升需求及计算架构变革所带来的数学与计算挑战。目前,该计划下两个SciDAC研究所已获得超过5000万美元的资助,分别由阿贡国家实验室与劳伦斯伯克利国家实验室领衔,汇聚了计算机科学、软件开发、应用数学等领域的顶尖专家,他们不仅提供专业知识,还开发工具,助力科学家充分利用DOE的高性能计算资源。
  • 美国国家科学基金会(NSF)的软件与硬件基础(SHF)项目,则致力于通过创新方法、坚实理论、高效工具与持久原则,推动计算机软件与硬件设计、验证、操作、利用及评估领域的潜在变革性研究。这些研究可能涵盖形式化方法、编程语言、逻辑理论、新型软硬件构件或算法,旨在实现功能创新、验证加强、可用性提升及规模扩展。SHF计划全面覆盖软件科学与工程的各个层面,寻求能够重塑软件需求、设计与演进过程,以及软件密集型系统间关系的革命性理念。过去三年间,NSF已投入超过1.4亿美元,支持了多项通过SHF计划开展的研究项目,包括软硬件协同设计以提升可扩展性与内存效率、大规模并行服务器处理器的开发、并发软件验证的形式化方法,以及可逆计算等新型计算模型的探索。
  • 美国国防部高级研究计划局(DOD)的高性能计算现代化计划(HPCMP)中的计算研究与工程获取工具与环境(CREATE)项目,是专为响应DOD需求而设,专注于软件的开发、部署与维护。CREATE计划下开发的软件应用,通过优化获取流程并增强武器系统能力,为国防关键武器系统的原型设计与测试分析提供了强大支持。目前,CREATE已成功开发并部署了12款多保真度软件产品,涵盖军用飞机设计、网格与几何工具、地面车辆设计、射频天线设计及军舰设计等多个领域。此外,CREATE还推出了面向计算流体动力学的教育软件套件Genesis,惠及本科生与研究生教育。

应对数据量激增及将数据有效转化为见解所面临的挑战与机遇。

高端计算正经历从本地化、同质资源向地理分布、异构计算生态系统的转型。多家机构如DOD、DOE/NNSA、DOE/SC、NASA及NSF等,正积极支持大规模高性能计算领域的新颖软件算法与应用程序的开发利用。以ECP项目为例,该项目在DOE/NNSA与DOE/SC的资助下,已为国家顶尖的exascale超级计算机准备了多项应用。随着系统规模的扩大,探索新的编程方法以充分挖掘资源潜力成为必然。异构硬件的复杂性与现代软件的多样性,正驱动着新编程技术的不断创新。例如,NIST正致力于研究基于数据流图的软件抽象技术,以优化高性能计算(HEC)应用的开发。不仅如此,分布式计算生态系统正在形成,单个系统不断扩展的同时,地理分布的系统也在逐步整合。NASA甚至将高端计算能力引入国际空间站的Spaceborne Computer-2项目中。尽管已取得显著进展,但数据集的增长、工作负载的变化、人工智能的融入,以及分布式资源高效韧性调度与分配的复杂性,仍持续推动着对大规模计算系统的深入研究。

典型案例 3.3

  • 2021年,NASA成功将Spaceborne Computer-2送入国际空间站(ISS)。这台计算机搭载了商用现成的计算硬件,其配置与地球上的云计算硬件相似,旨在空间环境中开展云计算的试验性应用。截至2022年4月,该计算机已在ISS上顺利完成了24项科学实验,涵盖了从宇航员健康监测到太空3D打印技术挑战等多个领域。特别值得一提的是,Spaceborne Computer-2能够在几分钟内完成太空中的DNA序列分析任务,而在过去,这样的分析需要将数据传回地球,耗时数小时之久。
  • 美国国防部携手工业界,共同研发了针对高级计算生态系统边缘应用的AI芯片架构。这种创新的推理处理器实现了处理与存储的紧密集成,相较于传统计算机芯片设计,显著提升了数据流动的效率。通过部署这些处理器,DOD的AI推理应用展现出了对高带宽数据进行即时分析的强大能力,从而在技术上远远超越了市场上的最佳商业解决方案,极大地增强了DOD的任务执行能力。
  • 美国地质调查局(USGS)不仅负责管理和向公众开放关键数据集,还提供了一系列工具,帮助人们更好地查看和理解这些数据。例如,由USGS与NASA联合推出的Landsat 9任务自2022年起持续发布公共数据,每日可收集约750幅地球影像。而LandsatLook 2.0查看器等更新软件的推出,更是通过云系统极大地简化了地球影像的访问、浏览与分析过程。此外,其他类型的数据及其配套软件也得到了优化,如topoBuilder应用程序,它不仅助力地图产品爱好者及普通公众的工作与生活,还在资源管理、自然灾害风险降低、国家健康与安全以及可持续能源发展等领域发挥着重要作用。

增强AI能力,包括实时性、规模化、公平性与可解释性等关键特性。

当前,随着先进传感器和大规模处理技术的飞速发展,每日生成的数据量已高达PB级别。为了保持美国在全球数据洞察领域的领先地位,我们必须不断改进硬件和计算技术,以有效解决数据的存储、传输与处理难题。多个机构如DOD、DOE/SC、DHS/S&T、NASA、NIH和USGS等,正积极开发能够高效利用大数据的软件,并适时发布相关应用程序。同时,这些机构还向公众开放了大型数据集,促进了数据的共享与利用。

以DOE/SC为例,其公共可重复使用研究(PuRe)数据倡议不仅建立了公共数据存储库的最佳实践标准,还指定了符合这些标准的存储库。这些存储库通过大规模的系统化策划,对高质量数据进行了详尽的特征描述,非常适合用于AI训练。此外,DOE/SC还积极推广遵循最佳实践的数据存储库,为科研工作者提供了丰富的数据资源。

更广泛地说,大规模数据与AI建模能力的融合正在深刻改变我们的计算生态系统,并渗透到日常生活的方方面面。多个机构如DOE/SC、DOE/NNSA、DHS/S&T、NASA、NIH、NIST、NSF和USGS等,均报告了利用大型数据集开展的AI相关活动。其中,DOE/SC支持的研究正致力于提升AI方法的可靠性、健壮性、可解释性和可理解性;而NIST则建立了可信和负责任的AI资源中心,并发布了AI风险管理框架,为AI技术的健康发展提供了有力保障。

典型案例 3.4

  • 由美国国家科学基金会(NSF)主导的国家人工智能研究计划于2020年正式启动,该计划资助了25个顶尖研究所,并成功连接了美国及全球范围内超过500个资助与合作机构。每个研究所均获得了初步五年约2000万美元的资助,整个计划总投资高达约5亿美元,这标志着迄今为止对人工智能研究与开发领域最大规模的单一公共投资之一。此外,该计划还吸引了来自教育部、国土安全部、国防部、国家标准与技术研究院、农业部等其他联邦机构,以及众多行业合作伙伴的资金支持。这些研究所汇聚了人工智能领域的顶尖研究者,通过跨学科合作,致力于应对基础与应用启发式人工智能研究中的重大挑战,旨在培育未来的人工智能人才,并成为国家解决社会重大问题的核心力量。NSF及其合作伙伴计划通过后续的资金支持,持续推动这一进程,特别关注天文科学、材料研究,以及与国防部、国家标准与技术研究院、商业及非营利组织的深度合作。

  • 截至2023财年,美国能源部科学办公室(DOE/SC)在人工智能与机器学习研究领域的投资已超过1.65亿美元,这些资金覆盖了AI在DOE/SC项目组合中的探索性及应用启发式基础研究。该计划不仅涉及与美国技术供应商合作设计新型硬件与系统,还包括了针对AI应用的先进存储技术的研发。DOE/SC的超级计算机以其卓越的运算能力,将成为全球科学AI训练领域的重要资源之一,同时,该计划也支持了与AI相结合的建模、仿真工作负载及数字孪生技术的研发。值得一提的是,由Argonne国家实验室、加州理工学院、哈佛大学、北伊利诺伊大学、慕尼黑工业大学、芝加哥大学、伊利诺伊大学芝加哥分校及硬件公司组成的团队,成功开发了基于“大语言模型”技术的AI系统,以深入理解COVID病毒的进化动态,并因此荣获了2022年戈登贝尔高性能计算COVID-19研究特别奖。

拓宽测试平台、原型及研究基础设施的可用性与访问渠道,鼓励研发适应日益复杂系统的软件工具。

开发基础性的新计算方法、构建将这些方法转化为可用系统的系统软件,以及实现新计算进展的应用,都离不开测试平台和技术原型的支持。随着技术和方法的不断成熟,应用程序开发人员等用户群体对能够评估和构建这些技术的测试平台的需求也日益增长。为此,NSF和DOE/SC正积极提供用于原型设计和探索性研究的测试平台。例如,DOE/SC的ALCF AI测试平台就配备了多样化的AI加速器和软件堆栈。同时,开发大规模应用程序还需要规模不断扩大的测试平台,而ALCF的Polaris计算机已经为超级计算机应用程序的准备工作提供了大量资源。此外,由NSF资助的SAGE测试平台作为国家级研究基础设施,不仅支持对AI研究中新方法的评估,还评估了从智能边缘设备到中央高性能计算中心的国家级计算连续体中,AI在科学工作流程、编程及运行时环境中的应用,并整合了来自不同渠道的数据资源。

典型案例 3.5

  • DARPA于2022年启动了下一代微电子制造(NGMM)计划,旨在构建一个创新的美国中心,专注于三维异质集成(3DHI)微系统的研发与制造。当前,美国在3DHI硅基组件的研发与原型制造方面面临诸多挑战,主要包括集成设计工具的缺失以及装配、封装、测试设施的不足。此外,非硅基3DHI技术的能力也极为有限。NGMM计划的第一阶段,即Phase 0,旨在为国内3DHI制造中心的规划提供必要的信息支持。随后的阶段将依托专业知识,建立开放访问中心,以验证和成熟相关技术工艺,并确保其功能的顺利运作。
  • 与此同时,DOE/SC的ALCF AI测试平台于2022年正式向用户开放,为全球研究界提供了接触并利用世界上最尖端AI平台的机会。该测试平台的一个核心关注点在于评估基于机器学习的高性能计算应用在独特AI硬件上的可行性和性能表现。目前,测试平台的应用范围已广泛覆盖从COVID-19研究到大规模天体多物理模拟,再到预测癌症治疗等多个领域。该平台集成了来自各供应商的尖端组件,使得用户能够充分评估先进AI硬件和软件的新功能。此外,用户还可以探索专为AI应用设计的硬件在执行其他类型计算任务(如某些建模和仿真应用)时的表现。
  • SAGE项目则是由西北大学主导,并得到NSF资助的一项国家级传感器研究基础设施项目。该项目利用DOE/SC阿贡国家实验室开发的开源硬件和软件,旨在支持AI及其他科学研究。SAGE计划在加利福尼亚、科罗拉多和堪萨斯的环境测试平台,以及伊利诺伊和德克萨斯的城市环境中部署支持机器学习框架的传感器节点。同时,合作伙伴还将在澳大利亚、日本、英国和台湾等地部署SAGE测试平台,以进一步丰富科学家可用的数据集。这些测试平台上运行的可重复使用的网络基础设施,将为气候、交通和生态系统科学家提供宝贵的新数据,助力他们构建更为精准的耦合系统模型。
  • 在华盛顿特区,多个联邦机构(包括AFRL、ARL、NIWC-P、NRL、USNO、NIST、NSA等)正携手部署一个名为DC-QNet的区域量子网络。该网络被设计为一个非专有环境,用于在成员机构内外测试和评估量子网络的概念、组件、协议及体系结构。DC-QNet的建立将有力促进传感器开发、安全通信、分布式计算等跨机构合作用例的实现。

应对硬件供应链安全的技术挑战,覆盖先进与可信计算生态系统中电子产品的制造、封装与集成环节。

测试平台和原型不仅促进了软件开发的深入发展,更成为加强和多元化我国微电子供应链的关键投资工具。例如,DARPA的电子复兴计划2.0与NIST的网络安全供应链风险管理项目,均旨在提升国家安全能力和商业供应链的韧性。此外,DOE/NNSA与DOE/SC的exascale超级计算机,通过集成来自多家供应商的顶尖AI加速器,并开展合作研发与展示,显著增强了在当前至关重要的AI硬件市场中的供应链稳定性。

典型案例 3.6

  • DARPA的电子复兴计划(ERI)2.0旨在强化美国的国家安全实力与商业经济竞争力。该项目集合了一系列主题性研究,确保美国在下一代微电子领域的研发、制造中保持领先地位,并构建国家级的制造能力,专注于三维异质集成硬件的生产。此外,ERI 2.0还深入探索了复杂3D系统的制造技术和极端环境下电子器件的开发,这些关键技术的突破对于设计、制造、封装及测试即将引领变革的新方法至关重要,将极大提升美国的应对能力和国际竞争力。
  • NIST的网络安全供应链风险管理(C-SCRM)计划旨在协助组织有效管理因网络安全问题引发的供应链风险。C-SCRM不仅关注识别、评估和缓解与信息、通信及运营技术产品与服务供应链广泛分布和高度互联所带来的风险,还覆盖了系统的全生命周期,从设计、开发、分发、部署、采购、维护到最终销毁。风险管理框架(RMF)作为一个整合性流程,将安全、隐私及网络供应链风险管理活动无缝融入系统开发生命周期之中。在选择和实施基于风险的控制措施时,RMF充分考虑了效果、效率以及法律法规等外部约束条件。有效管理组织风险对于保障信息安全与隐私计划至关重要;RMF方法灵活适用于新旧系统、各类技术(如物联网、控制系统)及不同规模和行业的组织。RMF是联合任务队众多重要出版物中的一项成果。


战略目标四:培育多元化、高素质且适应性强的专业人才队伍

积极培养并扩大一个多元化、具备高素质且能够快速适应变化的专业人才队伍,为建设和维护未来的高级计算生态系统提供坚实的人才基础。

这一战略目标的愿景在于培育一支能够充分利用先进计算生态系统,开发高效工具、操作系统,并广泛服务于各类用户群体的精英团队。面对快速发展的技术环境,如AI生成模型等新兴领域,未来的工作人员需具备创新精神和技术敏锐度,以驾驭复杂的软件、数据系统及新兴方法。为确保这一未来工作力量在先进计算生态系统中持续活跃,各机构需提供丰富的职业激励与清晰的职业路径,同时加强跨政府机构、非营利组织及行业伙伴间的合作。成功实现这一目标,将构建起一个关键的培训与人才保留渠道,汇聚高技能、多元化的专家群体,共同推动美国经济、科研及国家安全的繁荣发展。该战略的实施得到了以下子目标的有力支撑。

打造多元化人才队伍,以实现未来高级计算生态系统的目标,支撑美国创新,引领计算科技前沿。

各联邦机构正加大努力,通过实施新的多样性、公平性、包容性和可访问性(DEIA)政策,以及推出面向先进计算生态系统(FACE)的专项计划,增强人才招募与保留策略。例如,DOD、DOE/SC和NASA已制定专门的DEIA政策,旨在从社会各界广泛招募并吸引顶尖人才,同时加强与美国学术机构的合作,特别是与历史悠久的黑人学院和大学(HBCUs)及少数族裔服务机构(MSIs)建立联系,吸引更多实习生参与。此外,多个机构持续资助各类奖学金项目,如NIH的数据和技术推进国家服务学者计划、DOE/SC的新能源科学工作力量(RENEW)计划、USGS的门登霍尔研究奖学金计划,以及DOE和NSF的研究生奖学金计划,这些项目均特别强调对少数群体研究人员的支持。同时,针对科学、技术、工程和数学(STEM)领域的工作力量发展,NIST的NICE计划和NSF的CyberTraining计划等研究项目也获得了广泛资助。大型中心如NSF资助的少数族裔服务-网络基础设施联盟(MS-CC)和DOE/NNSA资助的少数族裔服务机构合作计划(MSIPP)及部落教育合作计划(TEPP),为HBCUs、MSIs(包括西班牙裔服务机构HSIs)、部落学院和大学(TCUs)提供了持续的工作力量发展指导。尽管这些项目已取得显著成效,但仍需面对技术资源分配不均的问题,这进一步凸显了加强培训与招聘工作的紧迫性。为缓解这一挑战,我们需为FACE培训活动投入更多资源。

典型案例 4.1

  • RENEW项目旨在为基础薄弱的机构在DOE SC研究领域打下坚实基础。该项目充分利用SC独特的国家实验室、用户设施及研究基础设施资源,为当前在美国科学和技术领域代表性不足的学术机构中的本科生、研究生、博士后研究员及教职员工提供宝贵的培训机会。RENEW致力于培养科学家和技术人才,使他们掌握SC研究活动广泛领域所需的关键技能和专业知识。项目的主要研究员、关键人员、博士后研究员及学生将被邀请参与项目研究会议及SC范围内的专业发展活动。
  • NSF在MS-CC项目上的投资已超过2000万美元,这是一个旨在改善HBCUs(历史悠久的黑人学院和大学)、TCUs(部落学院和大学)、HSIs(西班牙裔服务机构)及其他MSIs(少数族裔服务机构)网络基础设施的合作倡议。通过与Internet2和美国印第安高等教育联盟的合作,MS-CC正在构建机制,以拓宽HBCUs、TCUs、HSIs及其他MSIs的教职员工和学生获取网络基础设施资源、资金及专业发展机会的渠道。MS-CC以联盟形式灵活运作,具备高度适应性,长期致力于根据实践成功与经验教训进行调整,以适应这些学院和大学多样化的规模和使命。MS-CC通过增加历史上未被充分代表的群体在美国科研界的参与度,激发新的思考角度,并提升国家的综合实力。MS-CC在展现HBCUs、TCUs、HSIs及其他MSIs独特专业知识和人才方面,为我国经济增长、国家安全及全球繁荣注入了强大动力。DOE/NNSA的少数族裔服务机构合作计划旨在创建并支持可持续的职业发展路径,培养能够直接贡献于核安全企业(NSE)的多元化学生人才库。获奖者与DOE/NNSA NSE紧密合作,调整课程与教育重点以契合NSE的兴趣领域,并通过学生实习项目、新课程开发、科学家之间的交流互动、邀请教职员工参加研究会议与活动,以及促进NSE设施的访问权限,增强他们在STEM领域的研究能力。在2022财年,该计划吸引了来自56所MSIs的245名实习生,并支持了来自多元化背景的1000多名学生。

制定培训、技能提升及再培训策略,紧跟最先进技术并预测未来技术与解决方案的发展趋势。

联邦机构正聚焦于为新入学的学生及研究人员设计培训与职业激励政策,同时提升他们对尖端计算设施的应用能力。多家机构提供丰富的培训与职业发展机会,如NASA的STEM参与计划,为少数族裔及服务不足的群体提供奖学金支持;DOE计算科学研究生奖学金项目自1991年起由DOE/SC与DOE/NNSA联合设立,为致力于解决复杂科学与工程问题的博士生提供利用高性能计算资源的机会;DOE/SC的计算用户设施则提供了一系列新兴技术培训项目及新型超级计算系统的体验;USGS为研究人员提供了覆盖不同技能水平的培训机会,从基础软件工程到HPC 101研讨会等;而DOE/NNSA ASC的核威慑AI计划则致力于为现有及新入职的实验室人员提供技能提升与跨学科团队合作的机会。尽管现有项目已取得显著成效,但鉴于技术环境的快速变化,包括多样化的计算范式及日新月异的软件与AI领域,这些努力需持续更新,以确保战略目标的顺利实现。

典型案例 4.2

  • DOE计算科学研究生奖学金(CSGF)计划自1991年起便享誉全国,它支持博士生利用高性能计算资源进行前沿科学和工程探索。该计划不仅是DOE的旗舰项目,也是国家高性能计算工作力量的重要培养基地。DOE CSGF为获奖者提供学费和年度津贴,同时要求他们攻读结合科学、工程学科与计算机科学、应用数学的认证课程。此外,学生还需在DOE的国家实验室完成为期12周的实习。截至目前,DOE CSGF已授予565个奖学金,包括107名当前在读的奖学金获得者。随着时间的推移,获奖者的性别分布及研究领域日益多元化。其中,数学/计算机科学专业的获奖者致力于应用数学、统计学、计算机科学、计算机工程或计算科学等领域的博士学位,或同等学术水平的学位,他们的研究兴趣聚焦于如何更有效地利用新兴的高性能计算系统。这一专业方向鼓励学生将高性能计算视为一种普遍适用的技术挑战,而非局限于特定的科学或工程应用。
  • NSF于2021年推出了CSGrad4US奖学金计划,旨在支持在美国、其领土、自治区或波多黎各的大学校园内攻读计算机科学领域研究型博士学位的研究生。作为另一个国家公认的计算机学科研究支持项目,该计划为期三年,通过为攻读计算学科博士学位的本科生提供资金支持与指导,助力他们的学术成长。自启动以来,CSGrad4US奖学金计划已历经三个申请周期,共有169人次获得资助。其中,70人最近加入了CSGrad4US导师计划,他们将与导师一对一配对,并通过一系列导师会议和活动展开合作。目前,已有68名CSGrad4US奖学金获得者正式开启了他们的博士学习生涯。

提供激励措施、职业发展路径、奖励结构,并促进在职培训,以留住计算领域的专业人才、技术专家及实践者。

联邦机构已专门规划了领导力提升项目及暑期实习计划,旨在扶持并留住联邦先进计算生态系统(FACE)活动中的杰出领导人才。例如,NASA推出了多项职业发展计划,如领导力发展计划等,这些计划对于培养未来的领导者至关重要;国防部则扩展了工作力量发展战略,不仅在HBCU/MIs的DOD网站上举办夏季教职任命活动,还设立了数字人才管理论坛,以全部门之力应对招聘、发展与留住数字人才的挑战。USGS则通过举办研讨会和开设新课程,不断引入最新工具和技术,反映现场高性能计算系统的升级,满足研究人员日益增长的需求。NIST则拥有活跃的博士后计划、暑期本科研究奖学金计划及暑期高中实习计划,为有志青年提供了丰富的研究机会。此外,许多机构还针对初级研究人员设立了专项计划,如DARPA的青年教师奖(YFA)计划及DOE、NSF的早期职业计划等。NSF的加强网络基础设施专业生态系统计划更是专注于支持网络基础设施专业人员更深入地融入研究工作,同时推动教育、培训与认证工作,以满足CI工作力量的发展需求。

然而,在机构和大学中留住计算专业人才始终是一项艰巨的任务,尤其是面对私营部门的激烈竞争。因此,需要持续的努力来维持FACE工作力量的稳定。NSF资助的研究计算和数据计算专业人士职业中心(RCD-Nexus)就是一项专为计算专业人员打造职业资源的专项举措。未来,各机构还需加大投资力度,以产生更广泛的影响。在这个竞争激烈的劳动力市场中,吸引能够有效应对FACE计划需求的人才将是一项长期挑战,需要额外的投资与努力。

典型案例 4.3

  • DARPA通过其青年教师奖(YFA)计划,自2006年起便为新兴研究人员提供资金支持,这一前瞻性的举措旨在让处于初级职位的研究人员熟悉国防部中与国家安全紧密相关的工作领域。
  • 研究计算与数据资源及职业中心(RCD-Nexus),作为NSF资助的网络基础设施中心卓越试点项目,致力于打造一个综合性的平台,为机构和个人提供所需的产品、工具、服务和社群支持,以构建并维持高效的研究计算与数据运营体系。该项目的核心在于推动新兴RCD专业人才队伍的发展,并在他们的整个职业生涯中提供持续的支持。自2021年5月成立以来,RCD-Nexus已着手研究为CI专业人士定制职业发展路径的策略,特别关注女性研究人员的成长,并开发了一套RCD能力模型,该模型日益受到包括服务于少数族裔机构的学术界的青睐。此外,中心还成立了多个兴趣小组,专注于RCD员工队伍建设与学生工作力量的发展,并制定了人力资源职位家族矩阵,该矩阵已被全国范围内的RCD招聘经理广泛采纳。

建立政府、学术界、非营利组织与工业界之间的协同效应,聚焦于人才发展与培训工作。

为了培育能够敏锐预见并有效利用新兴计算技术的人才队伍,各部门在人才发展方面的努力必须协调一致。为此,各机构正积极与利益相关方携手合作,共同开发培训资源和机会,以培养出精通联邦先进计算生态系统(FACE)的专业人才。例如,国土安全部科技局(DHS/S&T)携手奥克里奇科学与教育研究所(ORISE)和美国科学促进会,通过S&T培训计划为博士及专业人士提供奖学金,以增强他们在解决实际任务问题中的技能。同时,NSF与DOE联合设立的Better Scientific Software(BSSw)奖学金计划,则致力于推广和实践那些能够提升科学代码开发者生产力和软件可持续性的方法、流程和工具。

典型案例 4.4

  • Better Scientific Software (BSSw) Fellowship,由NSF和DOE联合资助,致力于促进并推广提高科学应用程序和库开发者生产力以及软件可持续性的实践、流程与工具。通过汇聚行业、学术界及政府专家的智慧,该计划制定了科学软件开发的最佳实践标准,这些标准被广泛采纳于各行各业,并根据科学和工程应用的具体需求进行了优化与强化。例如,由DOE支持的极限规模应用软件互操作设计(IDEAS)项目,便是对开发方法进行了深入量化分析的成功案例。自2021年至2023年间,BSSw Fellowship已资助了16名奖学金获得者及16名荣誉提名者,他们来自学术界、DOE实验室及非营利组织等多个领域,共同构成了日益壮大的BSSw校友网络,这些校友作为领导者、导师及顾问,积极提升科学软件生产与可持续性追求的可见度与影响力。
  • 数据与技术进步(DATA)国家服务学者计划由NIH于2020年发起,旨在支持致力于生物医学研究的数据科学家,并鼓励他们携手学术界与行业的专家,共同参与NIH的高影响力项目。自计划启动以来,已有21名学者获得资助,他们引进了数据与计算科学领域的顶尖人才,在为期1至2年的时间内,针对大规模生物医学数据集展开研究,以推动人类健康与福祉的改善。
  • 数据科学团队(DSC)作为NSF“利用数据革命”(HDR)生态系统的重要组成部分,致力于通过构建地方、州及国家层面的数据革命能力,解锁数据在科学与社会服务中的巨大潜力。DSC积极参与数据科学学生及专业人士在现实世界数据科学项目中的实践,助力构建强大的国家数据科学基础设施与工作力量。2020年,DSC共授予了10个奖项,总金额高达1500万美元,用于支持跨州大学、少数族裔服务机构的本科及研究生学生,促进计算机科学、数学、统计学及其他科学学科的交叉融合。此外,NSF还通过NSF引擎与融合加速器等项目,在全国范围内推动创新生态系统的形成与发展,而创业产业所展现的创新活力亦是NSF服务的重点对象之一。在这些领域,对高性能计算系统、数据基础设施及人工智能计算基础设施的访问权限,以及高素质人才的支持显得尤为关键。NSF正积极与这些社区互动,以更精准地把握其在未来先进计算生态系统培训方面的需求。

通过奖学金、学术项目、实习及学术休假等形式,在内部及外部机构项目、联邦资助的研发中心与国家实验室中,促进与任务紧密相关的在职培训。

随着计算技术领域的日新月异,现有员工也需不断充实自我,通过实践操作来更新知识体系。许多联邦机构已设立了多层次的支持计划,如DHS/S&T提供的奖学金机会等。此外,通过《政府间人员法案》(IPA)的灵活调配,联邦机构还邀请行业专家与学术教师以临时任职的方式加入,为机构注入新鲜血液。同时,各机构还加大了对教育课程及培训材料的投资力度,如NSF的CyberTraining项目、DOE/NNSA的MSIPP与TEPP计划等,均旨在提升人员素质。跨学科研究培训项目同样受到重视,如NIST的培训与多样性计划、DOD的ORISE研究参与计划等,均致力于培养全面发展的人才。此外,DOE/SC、DOE/NNSA、NASA、NIH、NIST及NSF等机构还定期举办黑客马拉松等活动,围绕计算与数据科学主题,为员工提供实战演练的机会。例如,DOE/NNSA的劳伦斯利弗莫尔国家实验室便成功举办了计算黑客马拉松,鼓励员工探索新技能,激发创新思维。

典型案例 4.5

DOD的ORISE研究参与计划是一项精心设计的教育与培训计划,专为大学生、应届毕业生及大学教师提供参与DOD特定研究与开发活动的机会。该计划的参与者范围广泛,包括在美国认可的大学或学院就读的科技、工程、数学(STEM)或相关专业的学生,以及在过去五年内获得STEM学位的研究生、博士后,或是全职在美国认可高校任教的教职员工。每位参与者都会在指定的DOD设施中担任客座研究员,被寄予厚望投入时间与精力进行研究活动,发表研究成果,参与并展示于各类科学会议,同时融入DOD设施的技术氛围中。值得注意的是,不同的DOD设施常通过此计划与其他联邦机构展开合作。例如,美国陆军航空医学研究实验室的项目便由美国陆军医学研究与发展司令部和DOE之间的跨机构协议共同管理。类似地,DOD HPCMP也通过ORISE赞助了两个暑期研究项目:高性能计算实习计划和教职工沉浸体验,这两个为期10周的项目与全国多个DOD主办组织合作,旨在深化DOD与学术界的联系,强化研究能力,并激励更广泛的高端计算参与。
  • 自2020年起,NASA携手DOE实验室及工业合作伙伴(OpenACC),每年举办代码黑客马拉松活动,旨在帮助工作人员有效掌握新兴计算技术和资源,特别是通用图形处理单元(GPU),从而提升科学与工程开发的精确度和效率。该活动旨在加速关键代码的优化进程,这些代码与传统高性能计算(HPC)应用或AI/ML技术紧密相关,同时营造一个快速协作的学习环境。黑客马拉松以虚拟形式进行,包含多日的密集编码活动,将应用团队与编程及代码性能专家紧密合作,使团队能够通过实践掌握必要的工具和技术,积累移植和优化代码的实际经验,为新技术全面融入项目奠定坚实基础。
  • NIST则通过诸如NIST暑期本科生研究奖学金和暑期高中实习等项目,为学生提供广泛科学与工程领域的研究机会。这些项目让学生有机会与NIST的专业人员并肩工作,参与能够锻炼其未来职业生涯所需技能的项目。


最近的资金情况

为了量化联邦机构在FACE领域努力的增长情况,本报告参考了NITRD计划中的两个关键组成部分(PCA):高能力计算系统(EHCS)的启用研究与开发,以及高能力计算基础设施与应用(HCIA)。PCA是联邦机构每年报告其网络与信息技术研发成果的主要平台。EHCS PCA专注于推动高能力计算新方法的进步与转化,涵盖新型计算范式、硬件架构、算法、软件、数据分析、系统性能、可靠性、信任度、透明度、能效等多个领域的研究与开发,以支持极端数据和计算密集型工作负载。而HCIA PCA则聚焦于高能力计算系统和基础设施的操作、集成与利用,以支持计算密集型和数据密集型应用工作流,包括软件与服务、通信、存储与数据基础设施、协调服务及其他必要资源,旨在高效利用高能力计算资源。尽管FACE努力涉及多个联邦机构报告的PCA,但EHCS和HCIA PCA与FACE努力最为紧密相关,是评估该领域增长与承诺的重要指标。表A展示了相关机构在FY21至FY23年间报告的资金情况(以百万美元为单位)。尽管各机构年度资金有所波动,但EHCS和HCIA PCA的总资金从FY21到FY23年增长了超过20%,凸显了联邦机构在这一关键领域的持续投入与坚定承诺。表A 略)

结论

联邦政府已进行战略性投资,并与行业及学术界建立了至关重要的合作伙伴关系,以推动FACE目标的实现,取得了向构建强大FACE国家战略资源迈出的重要步伐。美国从现有的FACE资源中受益匪浅,不仅促进了科学工程的快速发展,提升了经济竞争力,还加强了国家安全。然而,为确保这一国家战略资源能够紧跟计算技术格局的快速发展步伐,并满足国家对先进计算日益增长的需求,持续的支持与投入至关重要。


--【本文完】---

近期受欢迎的文章:

  1. DOE推出新策略,强化美国在AI领域全球领导地位

  2. 美国联邦政府数据成熟度报告

  3. 美国商务部长在里根国防论坛上就中国和芯片政策的访谈(全文)

  4. 美国国防部《数据、分析和人工智能发展战略》

  5. 美国发布首个关于AI监管的行政命令(附全文翻译)



更多交流,可添加本人微信

(请附姓名/单位/关注领域)

文章转载自Andy730,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论