一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现被引量：5

Quasi-diagonal Matrix Hybrid Compression Algorithm and Implementation for SpMV on GPU

下载PDF

导出

摘要稀疏矩阵与向量乘(SpMV)属于科学计算和工程应用中的一种基本运算,其高性能实现与优化是计算科学的研究热点之一。在微分方程的求解过程中会产生大规模的稀疏矩阵,而且很大一部分是一种准对角矩阵。针对准对角矩阵存在的一些不规则性,提出一种混合对角存储(DIA)和行压缩存储(CSR)格式来进行SpMV计算,对于分割出来的对角线区域之外的离散非零元素采用CSR存储,这样能够克服DIA在不规则情况下存储矩阵的列迅速增加的缺陷,同时对角线采用DIA存储又能充分利用矩阵的对角特征,以减少CSR的行非零元素数目的不均衡现象,并可以通过调整存储对角线的带宽来适应准对角矩阵的不同的离散形式,以获得比DIA和CSR更高的压缩比,减小计算的数据规模。利用CUDA平台在GPU上进行了实验测试,结果表明该方法比DIA和CSR具有更高的加速比。 Sparse matrix-vector multiplication（SpMV） is of singular importance in sparse linear algebra,which is an im- portant issue in scientific computing and engineering practice. Much effort has been put into accelerating the SpMV and a few parallel solutions have been proposed. In this paper we focused on a special SpMV, sparse quasi-diagonal matrix multiplication（SQDMV）. The sparse quasi diagonal matrix is the key to solve many differential equation and very little research is done on this field. We discussed data structures and algorithms for SQDMV that were efficiently implemen- ted on the CUDA platform for the fine-grained parallel architecture of the GPU. We presented a new diagonal storage format HDC, which overcomes the inefficiency of DIA in storing irregular matrix and the imbalances of CSR in storing non-zero element. Further, HI）C can adjust the storage bandwidth of the diagonal to adapt to different discrete degree of sparse matrix, so as to get higher compression ratio than the DIA and CSR, reduce the computation complexity. Our im- plementation in GPU shows that the performance of HDC is better than other format especially for matrix with some discrete points outside the main diagonal. In addition, we combined the different parts of HDC to a unified kernel to get better compress ration and higher speedup ratio in GPU.

作者阳王东李肯立石林

机构地区湖南城市学院信息科学与工程学院国家超级计算长沙中心

出处《计算机科学》 CSCD 北大核心 2014年第7期290-296,共7页 Computer Science

基金国家自然科学基金重点项目(61133005) 国家自然基金项目(61070057) 国家科技支撑计划项目(2012BAH09B02) 教育部科技创新工程重大项目培育资金项目(708066) 教育部博士点基金(20100161110019) 教育部新世纪优秀人才支持计划(NCET-08-0177) 湖南省教育厅重点科研项目(13A011)资助

关键词图形处理芯片稀疏矩阵稀疏矩阵与向量相乘 CUDA GPU, Sparse matrix, SpMV, CUDA

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献27

1Amestoy P R,Davis T A,Duff I S.An approximate nminimmum degree ordering algorithm[J].SIAM Journal on Matrix Analysis and Applications,1996,17 (4):886-905.
2袁娥,张云泉,刘芳芳,孙相征.SpMV的自动性能优化实现技术及其应用研究[J].计算机研究与发展,2009,46(7):1117-1126. 被引量：15
3白洪涛,欧阳丹彤,李熙铭,李亭,何丽莉.基于GPU的稀疏矩阵向量乘优化[J].计算机科学,2010,37(8):168-171. 被引量：14
4王伟,陈建平,曾国荪,俞莉花,谭一鸣.大规模稀疏矩阵的主特征向量计算优化方法[J].计算机科学与探索,2012,6(2):118-124. 被引量：3
5Baskaran M M,Bordawekar R.Optimizing sparse matrix-vector multiplication on GPUs[R].Technical report IBM Research Report RC24704(W0812-047),2008.
6Bell N,Garland M.Effcient sparse matrix-vector multiplication on cuda[R].NVIDIA Technical Report NVR-2008-004.Demcember 2008.
7Shan Y,Wu T,Wang Y,et al.Fpga and gpu implementation of large scale spmv[C]// Proceedings of IEEE 8th Symposium on Application Specific Processors (SASP ' 10).Anaheim,California,USA,June 2010:67-70.
8王迎瑞,任江勇,田荣.基于GPU的高性能稀疏矩阵向量乘及CG求解器优化[J].计算机科学,2013,40(3):46-49. 被引量：7
9Monakov A,Lokhmotov A,Avetisyan A.Automatically tuning sparse matrix-vector multiplication for gpu architectures[C]//Proceedings of International Conference on High Performance and Embedded Architectures and Compilers (HiPEAC ' 10).2010:111-125.
10V'azquez F,Ortega G,Fern' andez J,et al.Improving the performance of the sparse matrix vector product with gpus[C]//Proceedings of IEEE International Conference on Computer and Information Technology (CIT ' 10).Bradford,June 2010:1146-1151.

二级参考文献47

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
2袁伟,张云泉,孙家昶,李玉成.国产万亿次机群系统NPB性能测试分析[J].计算机研究与发展,2005,42(6):1079-1084. 被引量：13
3Vuduc Wilson.Automatic Performance of Sparse Matrix Kernels[D].Berkeley,CA:University of California,2003.
4Im Eun Jin,Yelick Katherine.Optimizing sparse matrix computations for register reuse in SPARSITY[G] //LNCS 2073,Proc of the Int Conf on Computational Science.Berlin,Springer,2001,127-136.
5Im Eun Jin,Yelick Katherine,Vudue Wilson.Sparsity,Optimization framework for fparse matrix kernels[J].International Journal of High Performance Computing Applications,2004,18(1):135-158.
6Vuduc Wilson,Demmel James,Yelick Katherine,et al.Performance optimizarions and bounds for sparse matrixvector multiply[C] //Proc of Supercomputing.Los Alamitos,CA:IEEE Computer Society,2002= 1-35.
7Vuduc Wilson,Demmel James,Bilmes Jeff.Statistical models for empirical search-based performance tuning[J].International Journal of High Performance Computing Applications,2004,18(1):65-94.
8Demmel James,Yelick Katherine.Berkeley Benchmarking and OPtimization Project[OL].2006 [2007-11-20],http:// bebop.cs.berkeley.edu/.
9Voduc Wilson,Demmel James,Yelick Katherine.OSKI,A library of automatically tuned sparse matrix kernels[C] //Proc of SciDAC 2005:Journal of Physics,Conference Series.Philadelphia,PA:IOP,2005:521-530.
10Davis Tim.University of Florida sparse matrix collection[OL].2006[2007-11-20].http://www.else.ufl.edu/ research/sparse/matrices/.

共引文献28

1孙相征,张云泉,王宣强,王磊.数值软件自适应性能优化搜索过程评价技术研究[J].计算机研究与发展,2010,47(4):679-686. 被引量：2
2李熙铭,欧阳丹彤,白洪涛.基于GPU的混合精度平方根共轭梯度算法[J].仪器仪表学报,2012,33(1):97-104. 被引量：6
3狄鹏,胡长军,李建江.一种高效直方图生成算法在GPU上的实现[J].计算机科学,2012,39(3):304-307. 被引量：2
4原建伟,王坤,李爱国.基于GPU的K-means并行算法研究与实现[J].陕西理工学院学报（自然科学版）,2012,28(5):44-48.
5陆平静,李宝,车永刚,庞征斌.一种基于代码隔离的大程序迭代编译优化方法[J].上海交通大学学报,2013,47(1):133-137.
6许彬彬,戴清平,朱敏,谢端强.基于哈夫曼编码的稀疏矩阵的存储与计算[J].计算机工程与科学,2013,35(11):134-138. 被引量：3
7罗红兵,张晓霞,王伟,武林平.科学计算应用程序单核指令级优化研究[J].计算机研究与发展,2014,51(6):1263-1269. 被引量：4
8王坤.基于GPU的分类并行算法的研究与实现[J].电子设计工程,2014,22(18):39-41. 被引量：3
9刘芳芳,杨超.一种提高SpMV向量化性能的新型稀疏矩阵存储格式[J].数值计算与计算机应用,2014,35(4):269-276. 被引量：4
10阳王东,李肯立.准对角矩阵与向量相乘在CPU+GPU异构集群上的实现与优化[J].小型微型计算机系统,2015,36(7):1659-1664. 被引量：2

同被引文献14

1刘杰,迟利华,胡庆丰,李晓梅.并行计算稀疏矩阵乘以向量的负载平衡算法[J].计算机工程与科学,2006,28(3):76-77. 被引量：2
2袁娥,张云泉,刘芳芳,孙相征.SpMV的自动性能优化实现技术及其应用研究[J].计算机研究与发展,2009,46(7):1117-1126. 被引量：15
3夏健明,魏德敏.共轭梯度法的GPU实现[J].计算机工程,2009,35(17):274-276. 被引量：4
4白洪涛,欧阳丹彤,李熙铭,李亭,何丽莉.基于GPU的稀疏矩阵向量乘优化[J].计算机科学,2010,37(8):168-171. 被引量：14
5王伟,陈建平,曾国荪,俞莉花,谭一鸣.大规模稀疏矩阵的主特征向量计算优化方法[J].计算机科学与探索,2012,6(2):118-124. 被引量：3
6邓林,窦勇,郑义.面向稀疏矩阵访存特性的Cache划分[J].计算机工程与科学,2012,34(9):64-70. 被引量：1
7张健飞,沈德飞.基于GPU的稀疏线性系统的预条件共轭梯度法[J].计算机应用,2013,33(3):825-829. 被引量：10
8秦晋,龚春叶,胡庆丰,刘杰.基于CUDA编程模型的稀疏对角矩阵向量乘优化[J].计算机工程与科学,2012,34(7):78-83. 被引量：3
9孙相征,张云泉,王婷,李焱,袁良.对角线稀疏矩阵的SpMV自适应性能优化[J].计算机研究与发展,2013,50(3):648-656. 被引量：4
10蔡燕伟,崔红霞.基于彩色空间的二维OSTU的图像分割算法[J].电子设计工程,2014,22(5):131-133. 被引量：7

引证文献5

1阳王东,李肯立.基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化[J].计算机工程与科学,2016,38(2):202-209. 被引量：7
2程凯,田瑾,马瑞琳.基于GPU的高效稀疏矩阵存储格式研究[J].计算机工程,2018,44(8):54-60. 被引量：9
3李亿渊,薛巍,陈德训,王欣亮,许平,张武生,杨广文.稀疏矩阵向量乘法在申威众核架构上的性能优化[J].计算机学报,2020,43(6):1037-1051. 被引量：13
4王鑫,彭健.基于HYB格式SpMV在新一代申威架构上的实现与优化[J].计算机工程与科学,2023,45(10):1754-1762. 被引量：1
5王宇华,何俊飞,张宇琪,徐悦竹,崔环宇.DRM:基于迭代归并策略的GPU并行SpMV存储格式[J].计算机工程与科学,2024,46(3):381-394.

二级引证文献26

1程凯,田瑾,马瑞琳.基于GPU的高效稀疏矩阵存储格式研究[J].计算机工程,2018,44(8):54-60. 被引量：9
2王永胜.CPU+GPU的异构计算系统在石油勘探中的应用研究[J].电脑知识与技术（过刊）,2017,23(10X):250-251. 被引量：1
3杨淑丹,董方敏.电力系统潮流并行计算中的方程组求解方法[J].计算机与数字工程,2018,46(4):649-654. 被引量：2
4杨世伟,蒋国平,宋玉蓉,涂潇.基于GPU的稀疏矩阵存储格式优化研究[J].计算机工程,2019,45(9):23-31. 被引量：6
5曹亚松,刘胜.面向稀疏矩阵向量乘的DMA设计与验证[J].计算机与数字工程,2019,47(11):2686-2690.
6陈振武,黄婧,兰添才,郑汉垣.一种基于优化存储格式的DLB_GaBP算法[J].计算机技术与发展,2020,30(6):71-76.
7邓军勇,马青青.一种用于图形渲染的高性能SpMV专用加速器结构[J].小型微型计算机系统,2021,42(3):584-588. 被引量：1
8顾越,赵银亮.基于RISC-V向量指令的稀疏矩阵向量乘法实现与优化[J].计算机工程与科学,2022,44(1):1-8. 被引量：6
9曹中潇,冯仰德,王珏,闵维潇,姚铁锤,高岳,王丽华,高付海.基于深度学习的稀疏矩阵向量乘运算性能预测模型[J].计算机工程,2022,48(2):86-91. 被引量：3
10冉懿,王润年,潘红伟,俞海猛,袁培森.面向停电分类预测的因子分解机模型[J].计算机工程,2022,48(5):98-103.

1阳王东,李肯立.准对角矩阵与向量相乘在CPU+GPU异构集群上的实现与优化[J].小型微型计算机系统,2015,36(7):1659-1664. 被引量：2
2闫磊,石新景.用实时库进行集群环境下的资源管理[J].科学技术与工程,2008,8(5):1173-1176.
3龚和林,吴连发,舒情.一种基于高维矩阵变换的混沌图像加密[J].微计算机信息,2010,26(9):87-89.
4林晓霞,杨晓东.二值图像的模式识别方式[J].福建电脑,2005,21(6):44-45. 被引量：2
5王辉,高翔.一种Xml数据文件压缩加密算法研究[J].微计算机信息,2011,27(8):214-216.
6周桂宇,马宪民,李卫斌.改进的混合压缩算法在GPS数据压缩中的应用[J].计算机应用与软件,2013,30(12):167-169. 被引量：6
7彭红,杨根兴,蔡立志.基于用户个性化需求的虚拟机部署机制[J].软件产业与工程,2013(1):37-41. 被引量：5
8张鑫,容晓峰.矩阵描述的位置控制方法及其存储效率分析[J].西安工业大学学报,2014,34(3):205-209.
9张立君,陈珂.无储存元只读存储器[J].牡丹江师范学院学报（自然科学版）,1995,21(2):35-36.
10办公技巧权威指南[J].网友世界,2006(2):32-32.

计算机科学

2014年第7期

浏览历史

内容加载中请稍等...

一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现被引量：5

参考文献27

二级参考文献47

共引文献28

同被引文献14

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现 被引量：5

参考文献27

二级参考文献47

共引文献28

同被引文献14

引证文献5

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现被引量：5