一种提高SpMV向量化性能的新型稀疏矩阵存储格式被引量：4

A NEW SPARSE MATRIX STORAGE FORMAT FOR IMPROVING SPMV PERFORMANCE BY SIMD

导出

摘要稀疏矩阵向量乘(SpMV)是科学与工程计算中一个重要的核心函数,但在当前基于存储器层次结构的计算平台上,传统CSR(Compressed Sparse Row)存储的稀疏矩阵向量乘性能较低,运行效率往往远低于硬件浮点峰值的10%.目前现有的处理器架构一般都采用SIMD向量化技术进行加速,但是传统CSR格式的稀疏矩阵向量乘由于访存的不规则性,不能直接采用向量化技术进行加速,为了利用SIMD技术,对具有局部性特征的稀疏矩阵,提出了新的稀疏矩阵存储格式CSRL(Compressed Sparse Row with Local information),该格式可以减少SpMV时内存访问次数,并且能够充分利用硬件的SIMD向量化技术进行读取和计算,提高了SpMV性能.实验表明,该方法相比国际著名商业库Intel MKL10.3版平均性能提升达到29.5%,最高可达89%的性能提升. Sparse matrix-vector multiplication （SpMV） is an important computational kernel in scientific and engineering applications. The performance of SpMV by using traditional CSR format is often far below 10% of the peak performance on modern processors with memory hierarchy. When using tile CSR format for SpMV, it is often hard to directly take advantage of the SIMD acceleration technology on mordern processors, due to irregular memory access pattern. In order to use the SIMD technology, a new storage format for sparse matrices, CSRL （Compressed Sparse Row with Local information）, is proposed.The CSRL format has locality characteristic, and is SIMD-friendly. The new format reduces the nun, her of memory access and improves the SpMV performance. Experiments show that, compared with the implementation in Intel MKL library （version 10.3）, the SpMV based on the CSRL format gains an average of 29.5% and maximum of 89%performance improvement.

作者刘芳芳杨超

机构地区中国科学院软件研究所并行软件与计算科学实验室中国科学院软件研究所计算机科学国家重点实验室

出处《数值计算与计算机应用》 CSCD 2014年第4期269-276,共8页 Journal on Numerical Methods and Computer Applications

基金国家自然科学基金项目(61170075 91130023) 国家973项目2011CB309701 国家863项目2012AA010903资助

关键词稀疏矩阵稀疏矩阵向量乘向量化局部性 CSRL Sparse matrix S1MD SpMV CSRL

分类号 O151.21 [理学—基础数学]

引文网络
相关文献

参考文献12

1Saad Y. Iterative methods for sparse linear systems[M]. SIAM, 2003.
2Vuduc R, Demmel J W, Yelick K A. OSKI: A library of automatically tuned sparse matrixkernels[C]. Journal of Physics: Conference Series. IOP Publishing, 2005, 16(1): 521.
3Willcock J, Lumsdaine A. Accelerating sparse matrix computations via data compression[C].Proceedings of the 20th Annual International Conference on Supercomputing. ACM, 2006, 307-316.
4Kourtis K, Goumas G, Koziris N. Optimizing sparse matrix-vector multiplication using index andvalue compression[C]. Proceedings of the 5th conference on Computing Frontiers. ACM, 2008,87-96.
5Kourtis K, Karakasis V, Goumas G, et al. CSX: an extended compression format for SpMV onshared memory systems[C]. Proceedings of the 16th ACM Symposium on Principles and Practiceof Parallel Programming. ACM, 2011, 247-256.
6Sun X, Zhang Y, Wang T, et al. CRSD: application specific auto-tuning of SpMV for diagonalsparse matrices[M]. Euro-Par 2011 Parallel Processing. Springer Berlin Heidelberg, 2011, 316-327.
7Li J, Tan G, Chen M, et al. SMAT: an input adaptive auto-tuner for sparse matrix-vector multiplication[C]. Proceedings of the 34th ACM SIGPLAN Conference on Programming LanguageDesign and Implementation. ACM, 2013, 117-126.
8Im E J, Yelick K. Optimizing sparse matrix computations for register reuse in SPARSITY[M].Computational Science—ICCS 2001. Springer Berlin Heidelberg, 2001, 127-136.
9D'Azevedo E F, Fahey M R, Mills R T. Vectorized sparse matrix multiply for compressed rowstorage format[M]. Computational Science—CICCS 2005. Springer Berlin Heidelberg, 2005, 99-106.
10Williams S, Oliker L, Vuduc R, et al. Optimization of sparse matrix-vector multiplication onemerging multicore platforms[J]. Parallel Computing, 2009, 35(3): 178-194.

二级参考文献12

1袁伟,张云泉,孙家昶,李玉成.国产万亿次机群系统NPB性能测试分析[J].计算机研究与发展,2005,42(6):1079-1084. 被引量：13
2Vuduc Wilson.Automatic Performance of Sparse Matrix Kernels[D].Berkeley,CA:University of California,2003.
3Im Eun Jin,Yelick Katherine.Optimizing sparse matrix computations for register reuse in SPARSITY[G] //LNCS 2073,Proc of the Int Conf on Computational Science.Berlin,Springer,2001,127-136.
4Im Eun Jin,Yelick Katherine,Vudue Wilson.Sparsity,Optimization framework for fparse matrix kernels[J].International Journal of High Performance Computing Applications,2004,18(1):135-158.
5Vuduc Wilson,Demmel James,Yelick Katherine,et al.Performance optimizarions and bounds for sparse matrixvector multiply[C] //Proc of Supercomputing.Los Alamitos,CA:IEEE Computer Society,2002= 1-35.
6Vuduc Wilson,Demmel James,Bilmes Jeff.Statistical models for empirical search-based performance tuning[J].International Journal of High Performance Computing Applications,2004,18(1):65-94.
7Demmel James,Yelick Katherine.Berkeley Benchmarking and OPtimization Project[OL].2006 [2007-11-20],http:// bebop.cs.berkeley.edu/.
8Voduc Wilson,Demmel James,Yelick Katherine.OSKI,A library of automatically tuned sparse matrix kernels[C] //Proc of SciDAC 2005:Journal of Physics,Conference Series.Philadelphia,PA:IOP,2005:521-530.
9Davis Tim.University of Florida sparse matrix collection[OL].2006[2007-11-20].http://www.else.ufl.edu/ research/sparse/matrices/.
10张云泉.面向数值计算的并行计算模型DRAM(h.k)[C]//863计划智能计算机主题学术会议论文集:智能计算机研究进展.北京,清华大学出版社,2001:218-225.

共引文献14

1孙相征,张云泉,王宣强,王磊.数值软件自适应性能优化搜索过程评价技术研究[J].计算机研究与发展,2010,47(4):679-686. 被引量：2
2陆平静,李宝,车永刚,庞征斌.一种基于代码隔离的大程序迭代编译优化方法[J].上海交通大学学报,2013,47(1):133-137.
3许彬彬,戴清平,朱敏,谢端强.基于哈夫曼编码的稀疏矩阵的存储与计算[J].计算机工程与科学,2013,35(11):134-138. 被引量：3
4罗红兵,张晓霞,王伟,武林平.科学计算应用程序单核指令级优化研究[J].计算机研究与发展,2014,51(6):1263-1269. 被引量：4
5阳王东,李肯立,石林.一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现[J].计算机科学,2014,41(7):290-296. 被引量：5
6阳王东,李肯立.准对角矩阵与向量相乘在CPU+GPU异构集群上的实现与优化[J].小型微型计算机系统,2015,36(7):1659-1664. 被引量：2
7陆平静,李宝,易任娇,张英,王绍刚,庞征斌.一种基于改进模拟退火算法的程序性能优化参数搜索算法[J].计算机工程与科学,2015,37(7):1227-1232. 被引量：5
8陶袁,祝明发.多核及众核体系结构下线性代数算法研究进展[J].吉林师范大学学报（自然科学版）,2015,36(3):32-40.
9黄敏,丁萍,罗海飚.共轭梯度法在GPU及Xeon Phi下的并行优化及比较[J].华南理工大学学报（自然科学版）,2015,43(11):35-46. 被引量：1
10阳王东,李肯立.基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化[J].计算机工程与科学,2016,38(2):202-209. 被引量：7

同被引文献22

1张永杰,孙秦.稀疏矩阵存储技术[J].长春理工大学学报（自然科学版）,2006,29(3):38-41. 被引量：14
2白洪涛,欧阳丹彤,李熙铭,李亭,何丽莉.基于GPU的稀疏矩阵向量乘优化[J].计算机科学,2010,37(8):168-171. 被引量：13
3程俊霞,任健.含曲率的水平集方程在非结构四边形网格上的数值离散方法[J].数值计算与计算机应用,2011,32(1):33-40. 被引量：1
4高毅,王成山,李继平.改进十字链表的稀疏矩阵技术及其在电力系统仿真中的应用[J].电网技术,2011,35(5):33-39. 被引量：14
5宋庆增,顾军华.稀疏矩阵向量乘的FPGA设计与实现[J].计算机工程,2011,37(23):214-216. 被引量：3
6蔡自兴,郑金华,朱珍民.稀疏矩阵乘法运算的并行算法[J].湘潭大学自然科学学报,2000,22(1):1-3. 被引量：3
7王迎瑞,任江勇,田荣.基于GPU的高性能稀疏矩阵向量乘及CG求解器优化[J].计算机科学,2013,40(3):46-49. 被引量：7
8吴洋,赵永华,纪国良.一类大规模稀疏矩阵特征问题求解的并行算法[J].数值计算与计算机应用,2013,34(2):136-146. 被引量：5
9HU XiaoZhe,XU JinChao,ZHANG ChenSong.Application of auxiliary space preconditioning in field-scale reservoir simulation[J].Science China Mathematics,2013,56(12):2737-2751. 被引量：4
10李佳佳,张秀霞,谭光明,陈明宇.选择稀疏矩阵乘法最优存储格式的研究[J].计算机研究与发展,2014,51(4):882-894. 被引量：10

引证文献4

1李政,冯春生,张晨松.一种针对GPU上的油藏数值模拟的高效SpMV[J].数值计算与计算机应用,2016,37(4):315-324. 被引量：2
2张玉州.“数据结构”课程中稀疏矩阵运算器的实现[J].安庆师范大学学报（自然科学版）,2017,23(1):98-101. 被引量：1
3任志国,侯永艳.基于伪地址存储结构的稀疏矩阵快速转置算法[J].工业仪表与自动化装置,2019,0(5):125-128.
4曹亚松,刘胜.面向稀疏矩阵向量乘的DMA设计与验证[J].计算机与数字工程,2019,47(11):2686-2690.

二级引证文献3

1肖汉,周清雷,姚鹏姿.一种面向OpenCL架构的矩阵-向量乘并行算法与实现[J].小型微型计算机系统,2019,40(1):26-30. 被引量：1
2陈元科,张冬梅,崔书岳,张宇洋.多重介质油藏数值模拟异构并行算法研究[J].计算机工程与科学,2020,42(10):1880-1886.
3许春荣,买买提依明·哈斯木.案例教学模式下的稀疏矩阵的概念与应用[J].电脑迷,2023(17):79-81.

1董德基,徐静文.CSRL与HUMBLE：对应特定问题的专用通用工具[J].日本的科学与技术,1989(1):18-25.
2巨新刚,杨靓,秦昳,黄士坦.图像匹配中的数据存储方法[J].武汉大学学报（工学版）,2011,44(3):399-403.
3张桂兰,王飞超,冯玲.Linux环境下组播网络的分析与实现[J].山东教育学院学报,2007,22(4):57-60. 被引量：1
4李璞,孙亚辉.64位环境SIMD性能优化技术研究[J].计算机与信息技术,2007(4):81-83. 被引量：1
5钮俊,曾国荪.云计算环境下聚合服务的随机模型检测[J].计算机科学,2012,39(10):31-34.
6庞周.Windows平台下的WDM分层驱动模型[J].信息安全与技术,2011,2(5):23-25.
7罗晓军.SIMD技术在数字图像处理中的应用分析[J].计算机光盘软件与应用,2012,15(3):10-11.
8游贵荣.游戏搜索算法中估价函数的构造策略[J].福建商业高等专科学校学报,2005(6):82-85.
9鲁礼炳,王明芬.防止应用程序开启多个实例的若干方法[J].电脑知识与技术（过刊）,2003(32):46-48.
10王秀英.基于ISAPI Filter的IIS防火墙设计与开发[J].信息安全与通信保密,2016,14(8):101-104.

数值计算与计算机应用

2014年第4期

浏览历史

内容加载中请稍等...

一种提高SpMV向量化性能的新型稀疏矩阵存储格式被引量：4

参考文献12

二级参考文献12

共引文献14

同被引文献22

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种提高SpMV向量化性能的新型稀疏矩阵存储格式 被引量：4

参考文献12

二级参考文献12

共引文献14

同被引文献22

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

一种提高SpMV向量化性能的新型稀疏矩阵存储格式被引量：4