作者简介
郭亮
中国信息通信研究院云计算与大数据研究所副总工程师,正高级工程师,主要从事算力基础设施相关的政策支撑、技术研究和标准制定工作。
赵精华
中国信息通信研究院云计算与大数据研究所数据中心部助理工程师,主要从事数据中心相关的政策支撑、产业咨询、技术研究和标准制定等工作。
赵继壮
中国电信股份有限公司研究院AI研发中心赋能平台团队总监,高级工程师,主要从事AI研发等工作。
论文引用格式:
郭亮, 赵精华, 赵继壮. 异构AI算力操作平台的架构设计与优化策略[J]. 信息通信技术与政策, 2022,48(3):7-12.
异构AI算力操作平台的架构设计与优化策略
郭亮1 赵精华1 赵继壮2
(1. 中国信息通信研究院云计算与大数据研究所,北京 100191;2. 中国电信研究院AI研发中心,北京 102200)
摘要:异构AI算力操作平台是高效可靠处理与运用多元化数据的重要承载,能够满足各类上层应用对计算资源、计算能力的多样化需求。阐述了异构AI算力操作平台的形成机制、技术架构和功能组成,并从技术能力提升、应用生态完善、评价标准规范3个方面,提出异构AI算力操作平台的优化路径和发展建议。
关键词:异构AI算力操作平台;异构适配;技术融合;智慧应用
中图分类号:TP393.0 文献标志码:A
引用格式:郭亮, 赵精华, 赵继壮. 异构AI算力操作平台的架构设计与优化策略[J]. 信息通信技术与政策, 2022, 48(3):7-12.
DOI:10.12267/j.issn.2096-5931.2022.03.002
0 引言
随着数字经济的发展和万物互联的推进,数据量已呈爆炸式增长,算力之争成为人工智能竞争的重要组成部分,数据量的快速增长和数据采集来源的日益多样,使得非结构化数据不断涌现。如何高效可靠地处理与运用这些多元化数据,成为大数据时代亟待解决的核心挑战之一。异构算力平台能够充分发挥硬件优势,适配算法模型对于硬件特性的需求,适应复杂多元的数据形态,满足各类上层应用对计算资源、计算能力的多样化需求。
1 异构AI算力
1.1 异构AI算力概念界定
算力是指设备、集群、平台等计算数据的能力,是数字社会发展的重要资源,广泛应用于国防科技、行业转型和移动消费领域[1]。人工智能算力能够解决场景多样化、数据巨量化、部署规模化所带来的挑战,满足实时数据快速增长、非结构化数据加快形成等数据变化产生的新要求,持续不断为人工智能负载提供高并发、高效率的计算能力[2]。异构算力是指CPU、GPU、FPGA、ASIC等多种算力协同的处理体系,能够满足不同场景中的应用需求,实现计算效力最大化[3]。基于此,本文将异构AI算力定义为针对超大规模数据的计算能力,包括E级超算、高性能计算、智能计算等多种AI算力,通过GPU、FPGA、ASIC等异构算力应用于多种AI应用场景。
1.2 异构AI算力部署要求
国家高度重视异构AI算力发展水平,明确异构数据协同融合策略,提升算力设施与异构算力适配能力。《“十四五”大数据产业发展规划》从异构数据融合关联和模式创新、产品异构数据兼容能力、大规模数据采集加工、多模态数据分析治理和应用优化等方面,提出多维度异构数据发展策略和相关系统研发方向[4];《“十四五”信息通信行业发展规划》 明确提出异构算力融合理念,重点关注多元算力应用的重点领域,应当在算法框架、算法模型库、人工智能算法平台等多个方面加强多元异构智能设施应用、计算资源集约高效部署和海量异构数据处理能力[5];《江西省“十四五”新型基础设施建设规划》明确要加快多元算力协同,建立起多元协同、数网融合的算力体系,大力支持企业对于多元异构算力的部署、服务和应用[6]。
1.3 异构AI算力发展局限
1.3.1 异构芯片适配标准尚需统一
算法适配专有化程度高,不同加速芯片适配技术繁杂多样。随着华为、寒武纪等公司推出自主化加速芯片,算法在多种加速芯片上的应用需求越来越高。由于算法在加速卡上使用需要针对加速卡作专有化的算法适配,一个算法需要进行多次适配[7]。虽然各大厂商都在算法适配相关的技术研发上投入大量研发能力,但依然存在不同自主加速芯片的算法适配在算子匹配、算子开发等方向都有自己独有的技术能力,训练和开发的人工智能模型也有多种智能加速芯片选项,尚未形成协同统一的解决方案,针对算法和多种加速卡连通的算法适配标准尚需加强[8]。
1.3.2 异构硬件移植适配亟待优化
异构算力硬件差异明显,GPU算法移植适配过程中存在精度减弱、算子适配度低、移植适配后GPU性能和运行差距较大等问题。异构AI芯片生态的不断完善与丰富,异构AI芯片的软硬件技术趋于成熟,异构算力硬件有极低功耗、多种形态、支持多模态数据、算力强劲、成本较低等诸多优点,使得异构算力成为智能计算中心主要算力单元。但是,现有异构算力硬件之间存在较大的差异,在GPU上训练的算法无法直接在异构算力上运行。因此,需要将GPU上的算法向自主AI芯片进行移植适配[9],而在移植适配过程中,存在算法移植后精度下降、部分算子不支持、算法移植适配后性能不理想等诸多问题。移植适配后,性能和运行在GPU上也可能存在一定的差距,还需要将通过各种方式进行性能优化,充分发挥异构算力独有的优势,保证各个加速芯片对算法以及模型的性能达到最大化。
1.3.3 软件生态技术应用相对薄弱
国产软件生态相对薄弱,自研AI框架、操作系统、数据库、中间件应用较少,尚未成为主流。TensorFlow、Pytorch等国外深度学习框架占据较大份额,国产PaddlePaddle、MindSpore等自研软件框架尚未成为主流[10];国产操作系统自研水平明显提升,但从总体上看,国外操作系统仍呈现垄断地位,且国产操作系统大多是在国外上游开源社区的基础上进行二次开发;主流关系型数据库产品均来自国外,Oracle、mysql、sqlserver等国外数据库应用范围广、市场份额高、行业影响大,而达梦、南大通用、人大金仓等国产数据库使用率较低道[11];国产中间件市场发展加快,但国外企业中间件市场份额过半,仍位于第一梯队,国产中间件技术水平与IBM、Oracle相比,存在一定差距。
2 异构AI算力操作平台架构
2.1 异构AI算力操作平台定义
异构AI算力操作平台是一个面向多元人工智能算力的异构融合适配平台,能够实现硬件性能与计算要求有效对接、异构算力与用户需求有效适配、异构算力在节点间灵活调度、多元算力智能运营与开放共享,将各类异构算力协同处理来发挥最大的计算效力,为多样化AI应用场景提供高性能、高可靠的算力支撑。异构算力操作平台由硬件支撑平台、异构AI算力适配平台、异构AI算力调度平台、智能运营开放平台四个部分组成(见图1),依托软硬结合的融合架构,解决多种架构导致的兼容性差、效率低下问题,通过软件定义方式,实现硬件资源分类整合、池化重构和智能分配。


本文刊于《信息通信技术与政策》2022年 第3期

主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!

推荐阅读
你“在看”我吗?









