作者简介
郭 亮
中国信息通信研究院云计算与大数据研究所副总工程师,主要从事数据中心产业咨询、标准制定等工作,主要研究领域为数据中心网络、服务器等创新技术。
吴美希
中国信息通信研究院云计算与大数据研究所高级业务主管,主要从事数据中心政府支撑、产业咨询、技术研究和标准制定等工作,主要研究方向为边缘数据中心、绿色数据中心、数据中心算力等。
王 峰
中国电信股份有限公司研究院教授级高级工程师,长期从事云计算、大数据、人工智能等新兴信息技术领域的技术研发和产品创新工作。
龚 敏
英特尔(中国)有限公司高级技术经理,主要从事数据中心事业群平台应用、推广及生态建设工作,主要研究领域为通信及边缘计算。
论文引用格式
郭亮, 吴美希, 王峰, 等. 数据中心算力评估:现状与机遇[J]. 信息通信技术与政策, 2021,47(2):79-86.
数据中心算力评估:现状与机遇
郭亮1 吴美希1 王峰2 龚敏3
(1. 中国信息通信研究院云计算与大数据研究所,北京 100191;2. 中国电信股份有限公司北京研究院,北京 102200;3. 英特尔数据平台事业群,深圳 518000)
摘要:对我国算力及算力能效的研究现状进行了综述,包括SPEC CPU、SPEC Power、MLperf等数据中心单服务器的算力,TOP500和 Green500等超算的算力,以及电能使用效率(PUE)。通过分析,提出一种数据中心算力和算效的衡量方式,并据此测算出我国当前的数据中心算力和算效的水平。
关键词:数据中心;算力;算效
中图分类号:TP393 文献标识码:A
引用格式:郭亮, 吴美希, 王峰, 等. 数据中心算力评估:现状与机遇[J]. 信息通信技术与政策, 2021,47(2):79-86.
doi:10.12267/j.issn.2096-5931.2021.02.014
0 引言
2020年3月4日,中共中央政治局常务委员会召开会议,明确指出“加快5G网络、数据中心等新型基础设施建设进度”,将数据中心纳入“新基建”范畴。2020年4月20日,国家发展和改革委员会(简称“国家发改委”)明确新型基础设施的范围,数据中心作为算力基础设施成为信息基础设施的重要组成部分[1]。人工智能、云计算、大数据的发展离不开网络和数据中心,5G和工业互联网的发展也离不开数据中心,甚至对数据中心的依赖程度会更高[2]。数据中心算力水平的提升将会带动全社会总体算力的提升,满足各行业的算力需求。对数据中心算力及算效进行衡量与评估将为数据中心产业发展提供重要的指导,数据中心监管部门、运营商及相关从业人员能够根据数据中心算力和算效情况判断行业发展趋势。同时,为数据中心未来算力规划和部署提供思路。
1 研究现状
以往的算力研究更加关注对超算及常规服务器算力的测试及评估,对数据中心的算力测试及评估研究则相对较少。
1.1 超算算力评估
在超算性能评价方面,普遍用计算速度,即浮点运算速度(FLOPS)来衡量超算的算力性能。国际知名排行榜TOP500,主要以超算系统运行LINPACK基准测试所能达到的最高性能对500个超算系统进行排名,TOP500排行榜每年6月和11月更新一次[3]。同时,超算的能耗问题也受到了广泛的关注。2007年,Green500榜单发布,该榜单以用电效率为评估指标对500个超算进行排名[4]。从TOP500到Green500,超算算力评价指标逐渐从以运算速度为主转变为运算速度和用电效率兼顾,这充分说明世界各国在先进算力竞争中从一味追求运算速度向追求算力能效进行理性转变。
1.2 常规服务器算力评估
1.2.1 SPEC CPU
SPEC CPU是一套行业标准的针对常规服务器的CPU密集型基准测试套件,该测试套件由全球权威性能评估机构“标准性能评估机构”(Standard Performance Evaluation Corporation,SPEC)推出[5]。最新版本SPEC CPU 2017[6]主要通过4个套件的43个测试项目,对CPU整点运算能力、浮点运算能力、整型并发速率和浮点并发速率进行测试。SPEC CPU套件将会根据测试结果为CPU整数运算及浮点运算能力进行打分,用户能够通过打分结果直观地看出不同CPU的性能差异。
1.2.2 SPEC Power
SPEC早在2006年就成立了SPEC Power工作组,目标是研究和开发可用的能源效率基准测试工具。2007年,SPECpower_ssj2008[7]在美国环保总署和能源使用效率协会赞助下推出。SPEC Power委员会在2013年正式发布的服务器效率评级工具[8](Server Efficiency Rating Tool,SERT),由数十个被称为Worklet的负载组件组成,在运行时分别对服务器的CPU、内存、存储组件进行测试。
1.2.3 MLPerf
MLPerf[9]起源于2018年,是业内首套测量机器学习软硬件性能的基准套件。该基准套件囊括了一组关键的机器学习训练和推理的工作负载,代表了重要的生产级别用例。对于训练,涵盖了图像和自然语言处理以及推荐系统和强化学习共7个测试项目[10];对于推理,涵盖了图像、自然语言处理2种计算任务在4个应用场景下的测试项目。截止到2020年4月,MLPerf已经发布了两轮训练(Training)测试结果以及一轮推理(Inference)测试结果。2020年7月,MLPerf发布了第三个版本MLPerf Training v0.7基准测试[11]。
1.2.4 服务器能效规范
开放数据中心委员会[12](Open Data Center Committee,ODCC)于2019年发布了《服务器能效评测规范》[13],该测试规范将服务器能效定义为服务器计算性能与功耗的比值,并将服务器综合能效视为电源模块效率、服务器空闲能效及服务器工作能效的加权平均数。在服务器空闲及工作能效测试过程中,该测试规范将服务器性能测试划分为CPU、内存及存储3个部分,利用Benchmark软件对服务器各部分性能及功耗值进行记录,在不同负载条件下得到服务器空闲和工作状态功耗。
1.3 电能利用效率评估
电能利用效率(Power Usage Effectiveness,PUE)[14]是绿色网格(the Green Grid,TGG)发布的一项用于评价数据中心能效的指标,该指标已经得到了业界的广泛认可。PUE在数值上等于数据中心总耗电与IT设备耗电的比值,在整个数据中心中,IT设备是对外提供服务的主体设备,是产生算力的主要源泉。PUE值越小表明数据中心IT设备能耗占比越高,有更多电能被用于产生算力资源。尽管数据中心能效与算力具有关联,但这并不意味着提升数据中心能效水平就一定能够提升数据中心算力能效,数据中心算力能效除了与电能供给有关,还与IT设备的硬件性能、虚拟化技术的应用等因素有关。数据中心算力评估与超算、常规服务器算力评估有很大不同,数据中心算力水平不仅取决于服务器的算力,同时受到存储及网络设备算力水平的影响,计算、存储及网络传输能力相互协同能够促使数据中心算力水平的提升。单独讨论服务器能力并不能反映数据中心的实际算力水平。目前,尚无针对数据中心算力评估的完整体系,构建一套算力及算效评估体系将成为当前数据中心算力研究的重点。
2 算力及算效指标
2.1 算力的定义
数据中心算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。在服务器主板上,数据传输的顺序依次为 CPU、内存、硬盘和网卡,若针对图形则需要GPU。从广义上讲,数据中心算力是一个包含计算、存储、传输(网络)等多个内涵的综合概念,是衡量数据中心计算能力的一个综合指标。数据中心算力由数据处理能力、数据存储能力和数据流通能力3项指标决定。其中,数据处理能力又可以区分为以CPU为代表的通用计算能力和以GPU为代表的高性能计算能力。综上,数据中心算力指标包含四大核心要素,即通用计算能力、高性能计算能力、存储能力、网络能力。
2.1.1 通用计算能力
2.1.2 高性能计算能力
随着近年来硅芯片逼近物理的极限和经济成本高升,摩尔定律已趋近失效,单纯使用通用处理器无法满足人工智能等新型数字化技术对高性能计算的需求。因此,GPU、FPGA、ASIC或其他加速器支撑的高并行、高密集计算能力的异构高性能计算成为未来更复杂AI应用的必然选择。
(1)GPU
截至目前,全球人工智能的计算力主要是以GPU芯片为主,GPU能够提供强大而高效的并行计算能力。对于海量训练数据,GPU训练深度神经网络所使用的训练集更大,所耗费的时间更短,占用的数据中心基础设施也更少。此外,GPU还被广泛用于云端进行分类、预测和推理,从而在耗费功率更低、占用基础设施更少的情况下能够支持远比从前更大的数据量和并发吞吐量。
(2)FPGA
现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA),作为一种高性能、低功耗的可编程芯片,可以根据客户定制来做针对性的算法设计。FPGA灵活性介于CPU、GPU等通用处理器和专用集成电路ASIC之间,在硬件固定的前提下,允许使用者灵活使用软件进行编程。近年来,随着深度学习等计算密集型业务的发展,FPGA由于并行计算方面的优秀特性受到了互联网企业越来越多的关注,并开始研究如何在数据中心中发挥FPGA的优势。
(3)ASIC
特殊应用专用集成电路(Application Specific Integrated Circuit,ASIC)是为了某种特定的需求而专门定制的芯片。ASIC芯片的计算能力和计算效率都可以根据算法需要进行定制,所以ASIC具有以下几个方面的优越性:体积小、功耗低、计算性能高、计算效率高、芯片出货量越大成本越低。但是缺点也很明显:算法是固定的,一旦算法变化就可能无法使用。
2.1.3 存储能力
目前,数据中心的特点是数据量爆炸性增长,数据总量呈指数上升,传得快、无篡改是存储关心的问题,亦是算力关心的问题。数据存储能力由存储容量、存储性能、存储安全三方面共同决定。数据中心存储系统不仅要有大量的现实容量,还应该具有良好的可扩展性,能根据数据量的增长提供无缝的、不停机的容量扩充。数据是具有时效性的,及时获得所需数据非常关键,对于ICP而言,较高的访问速度是服务质量的重要指标。对于宽带应用,存储系统的带宽要与网络带宽相适应。因此,存储系统的响应速度和吞吐率对于数据中心存储系统的整体性能非常关键。数据中心存储系统存储了企业大量的关键数据,必须保证这些数据始终是安全可用的,在任何情况下数据都不能丢失。系统应具有快速故障恢复能力,保证数据始终保持完整性和一致性。
2.1.4 网络能力
在数据中心中,网络起着承上启下的作用,将计算和存储资源连接在一起,并以服务的形式对内部及外部提供数据访问能力。带宽、延迟、丢包率都是数据中心网络关注的重点。带宽越高意味着数据中心可以具有更强的处理能力,可以完成更多的业务应用。网络延迟也是体现数据中心网络性能的重要参数,网络延迟和网络延迟的抖动越小,网络性能越好。数据在网络中是以数据包为单位传输的,丢包率是数据包丢失部分与所传数据包总数的比值,丢包率越低,网络性能越好。
2.2 数据中心算力模型(CP)
2.2.1 方法
目前,数据中心内部的服务器芯片类型以CPU和GPU这两个类型为主。前者主要用作执行一般任务,后者主要承担图形显示、大数据分析[14]、信号处理、人工智能和物理模拟等计算密集型任务。FLOPS为每秒执行的浮点运算次数,是对计算机性能的一种衡量方式。在计算机系统的发展过程中,曾经提出过多种方法表示计算能力,目前为止使用最广泛的是“浮点运算次数表示法”。FLOPS的概念最早由Frank H.McMahon[15]在其报告中提出。国内外不少文献以及服务器产品参数都采用浮点运算次数对算力进行描述,例如Yifan Sun[16]使用FLOPS作为度量标准,以评估CPU和GPU的单精度和双精度计算能力。“浮点运算次数表示法”利用科学计数法来表达,包含3种常见类型。
(1)双精度浮点数(FP64):采用64位二进制来表达一个数字,常用于处理的数字范围大而且需要精确计算的科学计算。
(2)单精度浮点数(FP32):采用32位二进制来表达一个数字,常用于多媒体和图形处理计算。
(3)半精度浮点数(FP16):采用16位二进制来表达一个数字,适合在深度学习中应用。
本文使用“每秒浮点运算次数”(Floating-point Operations Per Second,FLOPS)来评估数据中心的通用算力和高性能算力。同时,与 Linpack仅关心双精度的浮点计算(FP64)能力不同,将给出双精度(FP64)和单精度(FP32)浮点计算能力算法,以便更加清晰地辅助判断数据中心适合的计算场景:用双精度浮点计算能力评估数据中心的高性能计算能力;用单精度浮点数计算能力评估数据中心的通用计算能力。除了双精度(FP64)和单精度(FP32)之外,其他的计算精度也越来越广泛地被用于计算领域。对于人工智能来说,半精度(FP16)大有后来居上的趋势。主流的AI芯片和AI软件都已经支持半精度(FP16)用于深度学习训练。同时,INT8也越来越多用于深度学习推理领域。在本文中,目前仅采用双精度(FP64)和单精度(FP32)两种精度衡量数据中心算力和算效,未来考虑加入更多的精度以更加全面地衡量数据中心的算力。
2.2.2 模型
数据中心算力(Computational Power,CP)的模型如下。
CP = f(通用算力,高性能算力,存储能力,网络能力)
(1)通用算力计算方法
通用算力=∑(某型号CPU服务器存数×该型号服务器CPU算力)
以Intel主流CPU型号为例,理论计算能力如表1所示。
表1 Intel主流CPU服务器算力[17]






本文刊于《信息通信技术与政策》2021年 第2期

主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!

http://ictp.caict.ac.cn/
推荐阅读
你“在看”我吗?










