
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2018,29(12):3921−3932 [doi: 10.13328/j.cnki.jos.005309] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
面向国产申威 26010 众核处理器的 SpMV 实现与优化
∗
刘芳芳
1,2
,
杨
超
1,3, 5
,
袁欣辉
4
,
吴长茂
1
,
敖玉龙
1,2,5
1
(中国科学院 软件研究所 并行软件与计算科学实验室,北京 100190)
2
(中国科学院大学,北京 100049)
3
(计算机科学国家重点实验室(中国科学院 软件研究所),北京 100190)
4
(国家并行计算机工程技术研究中心,北京 100190)
5
(北京大学 数学科学学院,北京 100871)
通讯作者: 杨超, E-mail: chao_yang@pku.edu .cn
摘 要: 世界首台峰值性能超过 100P 的超级计算机——神威太湖之光已经研制完成,该超级计算机采用了国产
申威异构众核处理器,该处理器不同于现有的纯 CPU,CPU-MIC,CPU-GPU 架构,采用了主-从核架构,单处理器峰值
计算能力为 3TFlops/s,访存带宽为 130GB/s.稀疏矩阵向量乘 SpMV(sparse matrix-vector multiplication)是科学与工程
计算中的一个非常重要的核心函数,众所周知,其是带宽受限型的,且存在间接访存操作.国产申威处理器给稀疏矩
阵向量乘的高效实现带来了很大的挑战.针对申威处理器提出了一种 CSR 格式 SpMV 操作的通用异构众核并行算
法,该算法从任务划分、LDM 空间划分方面进行精细设计,提出了一套动静态 buffer 的缓存机制以提升向量 x 的访
存命中率,提出了一套动静态的任务调度方法以实现负载均衡.另外还分析了该算法中影响 SpMV 性能的几个关键
因素,并开展了自适应优化,进一步提升了性能.采用 Matrix Market 矩阵集中具有代表性的 16 个稀疏矩阵进行了测
试,相比主核版最高有 10 倍左右的加速,平均加速比为 6.51.通过采用主核版 CSR 格式 SpMV 的访存量进行分析,
测试矩阵最高可达该处理器实测带宽的 86%,平均可达到 47%.
关键词: 稀疏矩阵向量乘;SpMV;申威 26010 处理器;异构众核并行;自适应优化
中图法分类号: TP3
03
中文引用格式: 刘芳芳,杨超,袁欣辉,吴长茂,敖玉龙.面向国产申威 26010 众核处理器的 SpMV 实现与优化.软件学报,2018,
29(12):3921−3932. http ://www.jos.org.cn/1000-9825/5309.ht m
英文引用格式: Liu FF, Yang C, Yuan XH, Wu CM, Ao YL. General SpMV implementation in many-core domestic sunway
26010 processor. Ruan Jian Xue Bao/Journal of Software, 2018,29(12):3921−3932 (in Chinese). http://www.jos.org.cn/1000-
9825/5309.htm
General SpMV Implementation in Many-Core Domestic Sunway 26010 Pro cessor
LIU Fang-Fang
1,2
, YANG Chao
1,3,5
, YUAN Xin-Hui
4
, WU Chang-Mao
1
, AO Yu-Long
1,2,5
1
(Institute of Software, The Chinese Academy o f Sci ences, Beijing 100190 , China)
2
(University of Chinese Academy of S ciences, Beijing 10 0049, Chin a)
3
(State Key Laboratory of Comput er Science (Ins titute of Software, The Chinese Academy of Sciences), Beijing 100190, Ch ina)
4
(National Research Center of Parallel Computer Engineering and Technology, Beijing 100190, China)
5
(School of Mathematical Sciences, Peking University, Beijing 100871 , China)
Abstra ct : The fastest supercomputer in the world—Sunway TaihuLight with performance of more th an 100P has been released. It makes
use of heterogeneous many-core processors which is different from the existing pure CPU, CPU-MIC, CPU-GPU architecture. Each
∗ 基金项目: 国家重点研发计划(2016YFB0200603); 国家自然科学基金(91530323)
Foundation item: Nation al Key R&D Program (2016YFB0200603); National Natural Science Foundation of China (91530323)
收稿时间: 2017-01-11; 采用时间: 2 017-05-01
评论