基于Intel Xeon Phi的稀疏矩阵向量乘性能优化被引量：1

Efficient Sparse Matrix-vector Multiplication on Intel Xeon Phi

下载PDF

导出

摘要稀疏矩阵向量乘(Sp MV)是线性求解系统等科学计算中重要的计算核心.鉴于传统的稀疏矩阵向量乘算法在Intel Xeon Phi众核集成架构上存在SIM D利用率低,不规则访存开销高及负载不均衡的问题,难以发挥其运算能力.本文针对Intel Xeon Phi的体系结构特点,提出了一种通用的分块压缩存储表示的稀疏矩阵向量乘并行算法:(1)在ELLPACK存储格式基础上按列分块及压缩矩阵,增加非零元的密度,提高SIMD利用率;(2)通过精心的数据重排,保留矩阵非零元本身的局部性,从而提高数据重用率,降低访存开销;(3)将矩阵压缩后划分成近似等大的矩阵块并静态等量分配到不同核上计算,使各核负载均衡.实验结果表明,与Intel Xeon Phi上已有的MKL数学库中的CSR算法相比,本算法获得了更高的计算访存比,性能比M KL的CSR算法平均快2.05倍. Sparse matrix-vector multiplication（ Sp M V） plays a key role in many scientific computing applications such as linear solver systems.Traditional Sp M V algorithms meet lowSIM D utilization,high overhead of irregular memory access and load imbalance on Intel Xeon Phi.This paper introduces a newparallel Sp M V algorithm with a newblocked compressing format,which focused on main architecture features of Intel Xeon Phi.These methods include（1） Column blocking and compressing based on ELLPACK format to improve the density of non-zeros,to improve SIM D utilization;（2） With carefully data re-organization,retain the locality of matrix non-zeros,and improve data reuse ratio,to decrease memory access overhead;（3） After compressing,partition the matrix into equal size of matrix blocks,and distribute them to different cores to make them load balance.Furthermore,we demonstrate that compared with the CSR kernel of Intel M KL,our implementation on Intel Xeon Phi achieves higher ratio of the number of floating point operations to the number of memory accesses,and our implementation is 2.05 faster than the CSR kernel of M KL on average.

作者张爱民安虹姚文军梁伟浩江霞李丰

机构地区中国科学技术大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2016年第4期818-823,共6页 Journal of Chinese Computer Systems

基金国家"八六三"高技术研究发展计划项目(2012AA010901 2012AA010902)资助

关键词稀疏矩阵向量乘数据布局重组 INTEL XEON PHI 分块压缩存储 sparse matrix-vector multiplication data layout re-organization Intel Xeon Phi blocked compressing storage

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1袁娥,张云泉,刘芳芳,孙相征.SpMV的自动性能优化实现技术及其应用研究[J].计算机研究与发展,2009,46(7):1117-1126. 被引量：15
2邹燕燕,安虹,崔慧敏,周军蕊.矩阵形状无关的并行编译优化[J].小型微型计算机系统,2014,35(7):1518-1522. 被引量：2

二级参考文献17

1袁伟,张云泉,孙家昶,李玉成.国产万亿次机群系统NPB性能测试分析[J].计算机研究与发展,2005,42(6):1079-1084. 被引量：13
2董春丽,韩林,赵荣彩.并行编译中一种线性数据和计算划分算法[J].计算机工程,2006,32(24):26-28. 被引量：5
3Vuduc Wilson.Automatic Performance of Sparse Matrix Kernels[D].Berkeley,CA:University of California,2003.
4Im Eun Jin,Yelick Katherine.Optimizing sparse matrix computations for register reuse in SPARSITY[G] //LNCS 2073,Proc of the Int Conf on Computational Science.Berlin,Springer,2001,127-136.
5Im Eun Jin,Yelick Katherine,Vudue Wilson.Sparsity,Optimization framework for fparse matrix kernels[J].International Journal of High Performance Computing Applications,2004,18(1):135-158.
6Vuduc Wilson,Demmel James,Yelick Katherine,et al.Performance optimizarions and bounds for sparse matrixvector multiply[C] //Proc of Supercomputing.Los Alamitos,CA:IEEE Computer Society,2002= 1-35.
7Vuduc Wilson,Demmel James,Bilmes Jeff.Statistical models for empirical search-based performance tuning[J].International Journal of High Performance Computing Applications,2004,18(1):65-94.
8Demmel James,Yelick Katherine.Berkeley Benchmarking and OPtimization Project[OL].2006 [2007-11-20],http:// bebop.cs.berkeley.edu/.
9Voduc Wilson,Demmel James,Yelick Katherine.OSKI,A library of automatically tuned sparse matrix kernels[C] //Proc of SciDAC 2005:Journal of Physics,Conference Series.Philadelphia,PA:IOP,2005:521-530.
10Davis Tim.University of Florida sparse matrix collection[OL].2006[2007-11-20].http://www.else.ufl.edu/ research/sparse/matrices/.

共引文献15

1孙相征,张云泉,王宣强,王磊.数值软件自适应性能优化搜索过程评价技术研究[J].计算机研究与发展,2010,47(4):679-686. 被引量：2
2陆平静,李宝,车永刚,庞征斌.一种基于代码隔离的大程序迭代编译优化方法[J].上海交通大学学报,2013,47(1):133-137.
3许彬彬,戴清平,朱敏,谢端强.基于哈夫曼编码的稀疏矩阵的存储与计算[J].计算机工程与科学,2013,35(11):134-138. 被引量：3
4罗红兵,张晓霞,王伟,武林平.科学计算应用程序单核指令级优化研究[J].计算机研究与发展,2014,51(6):1263-1269. 被引量：4
5阳王东,李肯立,石林.一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现[J].计算机科学,2014,41(7):290-296. 被引量：5
6刘芳芳,杨超.一种提高SpMV向量化性能的新型稀疏矩阵存储格式[J].数值计算与计算机应用,2014,35(4):269-276. 被引量：4
7阳王东,李肯立.准对角矩阵与向量相乘在CPU+GPU异构集群上的实现与优化[J].小型微型计算机系统,2015,36(7):1659-1664. 被引量：2
8陆平静,李宝,易任娇,张英,王绍刚,庞征斌.一种基于改进模拟退火算法的程序性能优化参数搜索算法[J].计算机工程与科学,2015,37(7):1227-1232. 被引量：5
9陶袁,祝明发.多核及众核体系结构下线性代数算法研究进展[J].吉林师范大学学报（自然科学版）,2015,36(3):32-40.
10黄敏,丁萍,罗海飚.共轭梯度法在GPU及Xeon Phi下的并行优化及比较[J].华南理工大学学报（自然科学版）,2015,43(11):35-46. 被引量：1

同被引文献5

1薛永江,宋庆增,王瑞昆.浮点矩阵向量乘法的FPGA设计与优化[J].微电子学与计算机,2013,30(11):64-67. 被引量：2
2邬贵明,王淼,谢向辉,窦勇,郭松.面向定制结构的稀疏矩阵分块方法[J].计算机科学,2015,42(11):63-64. 被引量：1
3苏锦柱,邬贵明,贾迅.二元域大型稀疏矩阵向量乘的FPGA设计与实现[J].计算机工程与科学,2016,38(8):1530-1535. 被引量：4
4李政,冯春生,张晨松.一种针对GPU上的油藏数值模拟的高效SpMV[J].数值计算与计算机应用,2016,37(4):315-324. 被引量：2
5吴长茂,杨超,尹亮,刘芳芳,孙乔,李力刚.基于CPU-MIC异构众核环境的行星流体动力学数值模拟[J].数值计算与计算机应用,2017,38(3):197-214. 被引量：1

引证文献1

1肖汉,周清雷,姚鹏姿.一种面向OpenCL架构的矩阵-向量乘并行算法与实现[J].小型微型计算机系统,2019,40(1):26-30. 被引量：2

二级引证文献2

1蔺丽华,张美春,王佳仪,李敏,门浩.基于BWDSP1042的复数矩阵向量乘的优化与实现[J].计算机应用与软件,2023,40(3):298-301.
2张淮声,余莉,陈翔翔.基于样板的GPU线程快速构造方法[J].集成电路应用,2024,41(5):18-21.

1徐嘉莉.一种基于矩阵压缩的Apriori优化算法[J].微计算机信息,2009,25(12):213-215. 被引量：4
2罗丹,李陶深.一种基于压缩矩阵的Apriori算法改进研究[J].计算机科学,2013,40(12):75-80. 被引量：46
3李蓉蓉.基于DCT图像压缩过程的分析与研究[J].数字技术与应用,2012,30(7):93-93.
4肖驰,田小霞.基于分块的压缩重建方法[J].西北师范大学学报（自然科学版）,2016,52(6):51-55.
5方玮玮.关联规则挖掘算法改进研究[J].铜陵学院学报,2012,11(6):104-106.
6李卫华,刘卫国.一种基于压缩矩阵的Apriori改进算法[J].计算机系统应用,2008,17(3):27-30. 被引量：9
7付沙,廖明华,宋丹.基于压缩矩阵方式的Apriori改进算法[J].微电子学与计算机,2012,29(6):28-32. 被引量：15
8罗芳,李志亮.一种基于压缩矩阵的Apriori改进算法[J].科技资讯,2010,8(4):19-19. 被引量：2
9黄梅.单链表的形象化理解[J].信息技术,2001,25(11):26-28. 被引量：1
10张英丽,顾玉宛,解世艳,曹黎.树的邻接矩阵[J].江苏工业学院学报,2009,21(2):47-49.

小型微型计算机系统

2016年第4期

浏览历史

内容加载中请稍等...

基于Intel Xeon Phi的稀疏矩阵向量乘性能优化被引量：1

参考文献2

二级参考文献17

共引文献15

同被引文献5

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Intel Xeon Phi的稀疏矩阵向量乘性能优化 被引量：1

参考文献2

二级参考文献17

共引文献15

同被引文献5

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于Intel Xeon Phi的稀疏矩阵向量乘性能优化被引量：1