GPU加速不完全Cholesky分解预条件共轭梯度法被引量：3

GPU-Accelerated Incomplete Cholesky Factorization Preconditioned Conjugate Gradient Method

下载PDF

导出

摘要不完全Cholesky分解预条件共轭梯度(incomplete Cholesky factorization preconditioned conjugate gradient,ICCG)法是求解大规模稀疏对称正定线性方程组的有效方法.然而ICCG法要求在每次迭代中求解2个稀疏三角方程组,稀疏三角方程组求解固有的串行性成为了ICCG法在GPU上并行求解的瓶颈.针对稀疏三角方程组求解,给出了一种利用GPU加速的有效方法.为了增加稀疏三角方程组求解在GPU上的多线程并行性,提出了对不完全Cholesky分解产生的稀疏三角矩阵进行分层调度(level scheduling)的方法.为了进一步提高稀疏三角方程组求解的并行性能,提出了在分层调度前通过近似最小度(approximate minimum degree,AMD)算法对系数矩阵进行重排序、在分层调度后对稀疏三角矩阵进行层排序的方法,降低了分层调度过程中产生的层数,优化了稀疏三角方程组求解的GPU内存访问模式.数值实验表明,与利用NVIDIA CUSPARSE实现的ICCG法相比,采用上述方法性能可以获得平均1倍以上的提升. Incomplete Cholesky factorization preconditioned conjugate gradient （ICCG ） method is effective to solve large sparse symmetric positive definite linear systems . However ,ICCG method requires solving two sparse triangular linear systems during each iteration .The inherent serialism of solving sparse triangular becomes a bottleneck which prevents high efficient parallelization of ICCG method on GPU platform .In this paper ,an effective method to accelerate solving sparse triangular on GPU platform is proposed . In order to increase the multi‐thread parallelism of solving sparse triangular on GPU platform ,level scheduling is exploited for the sparse triangular matrixes which incomplete Cholesky factorization generates .For further improving the parallel performance of solving sparse triangular ,approximate minimum degree （AMD） algorithm is used to reorder the coefficient matrix before level scheduling .Moreover ,a novel method ,taking advantage of the level information to reorder the sparse triangular matrices after level scheduling ,is applied .These two methods can decrease the number of levels during level scheduling and optimize GPU memory access pattern to utilize memory coalescing in solving sparse triangular ,respectively .Numerical experiments indicate that compared with ICCG method implemented with NVIDIA CUSPARSE , applying the above methods can obtain more than 100% performance improvement on average .

作者陈尧赵永华赵慰赵莲

机构地区中国科学院计算机网络信息中心中国科学院大学

出处《计算机研究与发展》 EI CSCD 北大核心 2015年第4期843-850,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(60873113) 国家自然科学基金重大研究计划项目(91430214) 国家"九七三"重点基础研究发展计划基金项目(2011CB309702) 国家"八六三"高技术研究发展计划基金项目(2012AA01A309) 数学工程与先进计算国家重点实验室开放基金项目(2014A03)

关键词不完全Cholesky分解预条件共轭梯度法重排序图形处理器 incomplete Cholesky factorization preeonditioner conjugate gradient method reordering graphic processing unit （GPU）

分类号 TP338.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献15

1Ament M, Knittel G, Weskopf D, et al. A parallel preconditioned conjugate gradient solver for the poisson problem on a muhi-gpu platform [C] //Proe of the 18th Euromicro Conf on Parallel, Distributed and Network-Based Processing. Piscataway, N J: IEEE, 2010:583-592.
2Benzi M, Tuma M. A comparative approximate inverse preconditioners [J]. Mathematics, 1999, 30(2): 305-340.
3Helfenstcin R, Koko J. Parallel precon gradient algorithm on GPU [J]. Journal and Applied Mathematics, 2012, 236(15).
4Li R, Saad Y, GPU-accelerated precondiiioned iterative linear solvers I-J3. The Journal of Supereomputing, 2013, 63 (2) : 443-466.
5Naumov M. Incomplete-LU and Cholesky preconditioned iterative methods using CUSPARSE and CUBLAS [R]. Santa Clara, CA; NVIDIA Corporation, 2011.
6Sudan H, Klie H, Li R, et al. High performance manyeore solvers for reservoir simulation [C] /]Proe of the 12th European Conf on the Mathematics of Oil Recovery. Berlin Springer, 2010 [2013-09-20]. http://www-users, es. umn. edu/saad/PDF/A044, pdf.
7Gupta R. A GPU implementation of a bubbly flow solver [D]. Delft, Holland: Delft University of Technology, 2009.
8张健飞,沈德飞.基于GPU的稀疏线性系统的预条件共轭梯度法[J].计算机应用,2013,33(3):825-829. 被引量：10
9Amestoy P R, Davis T A, Duff I S. An approximate minimum degree ordering algorithm [J]. SIAM Journal on Matrix Analysis and Applieations, 1996, 17(4): 886-905.
10George A, 1.iu J W H. The evolution of the minimum degree ordering algorithm [J]. SIAM Review, 1989, 31 (1) : 1-19.

二级参考文献14

1李晓梅,吴建平.Krylov子空间方法及其并行计算[J].计算机科学,2005,32(1):19-20. 被引量：20
2李爱芹.线性方程组的迭代解法[J].科学技术与工程,2007,7(14):3357-3364. 被引量：16
3曾攀.工程中的有限元方法[M]北京:清华大学出版社,2006.
4Nvidia. NVIDIA CUDA C programming guide[EB/OL].http://developer.download.nvidia.com/compute/DevZone/docs/html/C/doc/CUDA_C_Programming_Guide.pdf,2012.
5KRUGER T,WESTERMANN R. Linear algebra operators for GPU implementation of numerical algorithms[J].ACM Transactions on Graphics,2003,(03):908-916.doi:10.1145/882262.882363.
6BOLZ J,FARMER I,GRISPUN E. Sparse matrix solvers on the GPU:conjugate gradients and multigrid[J].ACM Transactions on Graphics,2003,(03):917-924.doi:10.1145/882262.882364.
7NATHAN B,MICHAEL G. Efficient sparse matrix-vector multiplication on CUDA[R].Santa Clara,California:NVIDIA,2008.
8AIL C,AKIRA N,SATOSHI M. Fast conjugate gradients with multiple GPUs[A].Berlin:Springer-Verlag,2009.893-903.
9MUTHU M B,RAJESH B. Optimizing sparse matrix-vector multiplication on GPUs[R].Armonk,NY:IBM,2009.
10YOUSEF S. Iterative methods for sparse linear systems[M].Philadelphia:Society for Industrial and Applied Mathematics,2003.

共引文献9

1郑经纬,安雪晖,黄绵松.基于CUDA的大规模稀疏矩阵的PCG算法优化[J].清华大学学报（自然科学版）,2014,54(8):1006-1012. 被引量：4
2林欣达,林穗,姜文超,李东明,王多强.有限元求解器Calculix预处理并行优化方法[J].广东工业大学学报,2015,32(4):138-144. 被引量：1
3黄敏,丁萍,罗海飚.共轭梯度法在GPU及Xeon Phi下的并行优化及比较[J].华南理工大学学报（自然科学版）,2015,43(11):35-46. 被引量：1
4张少杰,杨陈东.求解对称正定线性方程组的正交基变换方法[J].河南科学,2016,34(3):310-314. 被引量：1
5武立伟,张健飞,张倩.基于光滑聚集代数多重网格的有限元并行计算实现方法[J].计算机辅助工程,2017,26(6):16-22. 被引量：1
6程凯,田瑾,马瑞琳.基于GPU的高效稀疏矩阵存储格式研究[J].计算机工程,2018,44(8):54-60. 被引量：8
7苏辉,邱夏青,马文鹏.基于Matlab平台有限元方法的GPU加速[J].信阳师范学院学报（自然科学版）,2018,31(4):677-680. 被引量：3
8胡斌星,李新国,常武权.细长弹性飞行器飞行动力学并行计算及优化研究[J].振动与冲击,2019,38(11):42-47.
9宋晓喆,魏国,李雪,王长江,孙福寿,李振元.基于预处理BICGSTAB法的电力系统潮流并行计算方法[J].电力系统保护与控制,2020,48(20):18-28. 被引量：4

同被引文献9

1袁娥,张云泉,刘芳芳,孙相征.SpMV的自动性能优化实现技术及其应用研究[J].计算机研究与发展,2009,46(7):1117-1126. 被引量：15
2夏健明,魏德敏.共轭梯度法的GPU实现[J].计算机工程,2009,35(17):274-276. 被引量：4
3陈春香,尹洪东.利用超松弛预处理共轭梯度法求解大型稀疏方程组[J].科学技术与工程,2010,10(10):2389-2391. 被引量：5
4白洪涛,欧阳丹彤,李熙铭,李亭,何丽莉.基于GPU的稀疏矩阵向量乘优化[J].计算机科学,2010,37(8):168-171. 被引量：13
5张健飞,沈德飞.基于GPU的稀疏线性系统的预条件共轭梯度法[J].计算机应用,2013,33(3):825-829. 被引量：10
6秦晋,龚春叶,胡庆丰,刘杰.基于CUDA编程模型的稀疏对角矩阵向量乘优化[J].计算机工程与科学,2012,34(7):78-83. 被引量：3
7王美香.一种基于预处理共轭梯度法的给水管网水力计算方法[J].郑州轻工业学院学报（自然科学版）,2014,29(3):92-96. 被引量：5
8阳王东,李肯立,石林.一种准对角矩阵的混合压缩算法及其与向量相乘在GPU上的实现[J].计算机科学,2014,41(7):290-296. 被引量：5
9阳王东,李肯立.基于HYB格式稀疏矩阵与向量乘在CPU+GPU异构系统中的实现与优化[J].计算机工程与科学,2016,38(2):202-209. 被引量：7

引证文献3

1程凯,田瑾,马瑞琳.基于GPU的高效稀疏矩阵存储格式研究[J].计算机工程,2018,44(8):54-60. 被引量：8
2龙立,贺金川,郑山锁,周炎.供水系统震后水力分析算法并行化研究[J].华中科技大学学报（自然科学版）,2020,48(12):121-126. 被引量：1
3夏兆辉,刘健力,高百川,聂涛,余琛,陈龙,余金桂.面向多尺度拓扑优化的渐进均匀化GPU并行算法研究[J].浙江大学学报（理学版）,2023,50(6):722-735.

二级引证文献9

1杨世伟,蒋国平,宋玉蓉,涂潇.基于GPU的稀疏矩阵存储格式优化研究[J].计算机工程,2019,45(9):23-31. 被引量：4
2曹亚松,刘胜.面向稀疏矩阵向量乘的DMA设计与验证[J].计算机与数字工程,2019,47(11):2686-2690.
3陈振武,黄婧,兰添才,郑汉垣.一种基于优化存储格式的DLB_GaBP算法[J].计算机技术与发展,2020,30(6):71-76.
4邓军勇,马青青.一种用于图形渲染的高性能SpMV专用加速器结构[J].小型微型计算机系统,2021,42(3):584-588.
5冉懿,王润年,潘红伟,俞海猛,袁培森.面向停电分类预测的因子分解机模型[J].计算机工程,2022,48(5):98-103.
6王晞阳,陈继林,李猛,刘首文.FPGA架构上面向稀疏矩阵求解的静态调度算法[J].计算机工程,2022,48(7):199-205. 被引量：5
7刘晓航,郑山锁,黄瑜,董淑卿,杨丰,董晋琦.基于邻接矩阵法的变电站系统抗震可靠性分析[J].浙江大学学报（工学版）,2022,56(8):1495-1503. 被引量：2
8许琦.基于KVM架构的云桌面GPU虚拟化技术研究[J].自动化与仪器仪表,2023(3):138-142.
9刘丽,陈长波.带状稀疏矩阵乘法及高效GPU实现[J].计算机应用,2023,43(12):3856-3867.

1Bojun XIE,Yi LIU,HuiZHANG,Jian YU.Efficient image representation for object recognition via pivots selection[J].Frontiers of Computer Science,2015,9(3):383-391. 被引量：3
2Er Fang SHAN,Moo Young SOHN,Xu Dong YUAN,Michael A. HENNING.Domination Number in Graphs with Minimum Degree Two[J].Acta Mathematica Sinica,English Series,2009,25(8):1253-1268.
3刘松华,张军英,丁彩英.核矩阵列相关低秩近似分解算法[J].模式识别与人工智能,2011,24(6):776-782. 被引量：2
4Matthias Vodel Mirko Caspar Mirko Lippmann Wolfram Hardt.Distributed High-Level Scheduling Concept for Synchronised, Wireless Sensor and Actuator Networks[J].通讯和计算机（中英文版）,2010,7(11):27-35.
5李伟伟.基于GPU的对称正定稀疏矩阵复线性方程组迭代算法[J].吉林大学学报（理学版）,2016,54(2):297-302.
6雷光耀,张石峰.阶矩阵及其在传统预处理方法中的应用[J].计算物理,1991,8(2):196-202. 被引量：10
7李良,黄廷祝.对称不定线性系统的不定预处理技术[J].电子科技大学学报,2011,40(2):288-291.
8樊瑶,赵祥模,褚燕利,党乐.基于预条件共轭梯度法的混凝土层析成像[J].计算机工程,2008,34(23):258-260. 被引量：2
9刘平.特殊矩阵与稀疏的压缩存储和算法实现[J].贵州大学学报（自然科学版）,1998,15(3):216-220. 被引量：6
10宋巨龙,王玲.一种特殊线性方程组的求解[J].西安电子科技大学学报,1997,24(4):535-538. 被引量：1

计算机研究与发展

2015年第4期

浏览历史

内容加载中请稍等...

GPU加速不完全Cholesky分解预条件共轭梯度法被引量：3

参考文献15

二级参考文献14

共引文献9

同被引文献9

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

GPU加速不完全Cholesky分解预条件共轭梯度法 被引量：3

参考文献15

二级参考文献14

共引文献9

同被引文献9

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

GPU加速不完全Cholesky分解预条件共轭梯度法被引量：3