基于GPU的SSOR稀疏近似逆预条件研究被引量：2

Research of the SSOR sparse approximate inverse preconditioner on GPUs

下载PDF

导出

摘要由于SSOR预条件共轭梯度算法中预条件方程求解需要前推和回代,导致算法迁移到GPU平台上并行效率不高.为此,基于诺依曼多项式分解技术,提出了一种GPU加速的SSOR稀疏近似逆预条件子(GSSORSAI).它不仅保持了原线性系统系数矩阵的稀疏和对称正定特性,而且预条件方程求解仅需一次稀疏矩阵矢量乘运算,避免了前推和回代过程.实验结果表明:在NVIDIA Tesla C2050GPU上,对比使用Python在单个CPU上SSOR稀疏近似逆预条件子实现方法,GSSORSAI平均快将近100倍;应用到并行的PCG算法中,相比无预条件的CG算法,平均提高了算法的3倍的收敛速度. For the SSOR preconditioned conjugate gradient algorithm,the preconditioner equation solving needs the forward/backward substitutions,which greatly prevents parallelizing SSOR PCG algorithms on the GPU platform due to their strong serial processing.Thus,based on the Neumann series approximation, a GPU accelerated SSOR sparse approximate inverse preconditioner is proposed.For GSSORSAI,it preserves the sparse and symmetric positive characteristics of the original coefficient matrix in the linear system,and the preconditioner equation solving only needs a sparse matrix-vector multiplication operation,which avoids the forward/backward substitutions.Experiments results show on the NVIDIA Tesla C2050 GPU,GSSORSAI is generated on average 100 times faster than the implementation by Python on single CPU.Compared to the convergence of the CG algorithm,the PCG algorithm with GSSORSAI has on average 3times faster convergent rate.

作者高家全王志超

机构地区浙江工业大学计算机科学与技术学院

出处《浙江工业大学学报》 CAS 北大核心 2016年第2期140-145,共6页 Journal of Zhejiang University of Technology

基金国家自然科学基金资助项目(61379017)

关键词 SSOR预条件子预条件共轭梯度算法稀疏近似逆 GPU SSOR preconditioner preconditioned conjugate gradient algorithm sparse approximate inverse GPU

分类号 TP338.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1GOLUB G H, VAN LOAN C F. Matrix eomputations[M]. Baltimore: The John Hopkins University Press, 1989.
2王厂文,张有正.正定矩阵和的行列式不等式[J].浙江工业大学学报,2006,34(3):351-354. 被引量：1
3KAASSCH1ETER E F. Preconditioned conjugate gradients for solving singular systems[J]. CAM journal, 1988 (24) : 265- 275.
4龙爱芳.避免二阶导数计算的迭代法[J].浙江工业大学学报,2005,33(5):602-604. 被引量：2
5AMENT M, KNITTEL G, WEISKOPF D. A parallel precon- ditioned conjugate gradient solver for the Poisson problem on a multi-GPU[J]. Parallel distributed and network-based compu- ting,2010(6) :583-592.
6SAAD Y. Iterative Methods for Sparse Linear Systems[M]. Philadelphia: SIAM,2003.
7CHOW E, SAAD Y. Approximate inverse preconditioners via sparse-sparse iterations [ J ]. SIAM journal, 1998 ( 19 ) : 995- 1023.
8GORTE M J, HUCKLE T. Parallel preconditioning with sparse approximate inverses [J]. SIAM journal, 1997 (18) : 838-853.
9BELL N, GARLAND M. Efficient sparse matrix-vector multi- plication on CUDA[R]. Santa Clara: NVIDIA,2008.
10马超,韦刚,裴颂文,吴百锋.GPU上稀疏矩阵与矢量乘积运算的一种改进[J].计算机系统应用,2010,19(5):116-120. 被引量：2

二级参考文献25

1盛兴平.广义实正定矩阵的几个不等式[J].大学数学,2004,20(4):105-107. 被引量：1
2丁卫平.关于正定矩阵一不等式的简单证明[J].大学数学,2004,20(6):109-110. 被引量：2
3熊斌.Schur不等式和Hlder不等式及其应用[J].数学通讯（教师阅读）,2005,19(8):41-44. 被引量：8
4李庆扬.数值分析[M].武汉:华中工学院出版社,1986.216-217.
5Open Computing Language (OpenCL).[2009-08-05]http:www.khronos,org/opencl/.
6Bell N,Garland M.Efficient sparse matrix-vector multiplication on CUDA.NVIDIA Technical Report NVR-2008-004,December 2008.
7Muthu Manikandan Baskaran,Rajesh Bordawekar.Optimizing Sparse Matrix-Vector Multiplication on GPUs,IBM Technical Report RC24704.2008.
8Harris M.High Performance Computing with CUDA-Optimizing CUDA,Super-computing Tutorials (2007)[2009-08-05].http://gpgpu.org/sc2007.
9Sengupta S,Harris M,Zhang Y,Owens JD.Scan primitives for gpu computing.GH'07:Proc.of the 22nd ACM SIGGRAPH/EUROGRAPHICS Symposium on Graphics hardware,2007.97-106.
10Davis T.The University of Florida Sparse Matrix Collection.[2009-08-05]http://www.cise.ufl.edu/research/ sparse/matrices/.

共引文献7

1张新东,王秋华.避免二阶导数计算的Newton迭代法的一个改进[J].山东大学学报（理学版）,2007,42(7):72-76. 被引量：2
2张翔,黄秀全.基于图形处理器加速的叶轮机流场数值模拟研究[J].科学技术与工程,2013,21(11):3195-3199. 被引量：3
3夏炜,肖鹏.一种高效双精度浮点乘法器[J].计算机测量与控制,2013,21(4):1017-1020. 被引量：2
4王春晖,苗春葆,沈飙.非静压海洋数值模式加速计算的CUDA实现[J].中国海洋大学学报（自然科学版）,2013,43(8):107-113. 被引量：2
5郭转转,尹延庆,王佩璐.浅谈CUP并行技术CUDA[J].信息通信,2014,27(5):103-103. 被引量：1
6杜松江,张思超.采用GPU的提升纹理缓存命中光线投射方法[J].华侨大学学报（自然科学版）,2016,37(5):627-632. 被引量：1
7胡传伟,鄂彦志,邹杨,徐洪杰.熔盐堆堆芯流体力学计算的GPU并行方法研究[J].核技术,2017,40(11):57-63. 被引量：1

同被引文献10

1李云贵.工程结构设计中的高性能计算[J].建筑结构学报,2010,31(6):89-95. 被引量：6
2TENG Jun,LI ZuoHua,OU JinPing,HE XueFeng.Fiber damage analysis model for RC beam-column based on EEP super-convergent computation[J].Science China(Technological Sciences),2011,54(10):2542-2548. 被引量：7
3刘小虎,胡耀国,符伟.大规模有限元系统的GPU加速计算研究[J].计算力学学报,2012,29(1):146-152. 被引量：11
4陶慕轩,聂建国.组合构件纤维模型的建模策略——单元划分和截面离散[J].工程力学,2016,33(2):96-103. 被引量：4
5孙宝印,古泉,张沛洲,欧进萍.钢筋混凝土框架结构弹塑性数值子结构分析方法[J].工程力学,2016,33(5):44-49. 被引量：16
6陈曦,王冬勇,任俊,张训维,苗姜龙.CPU-GPU混合计算构架在岩土工程有限元分析中的应用[J].土木工程学报,2016,49(6):105-112. 被引量：6
7李红豫,滕军,李祚华.钢筋混凝土框架结构非线性静、动力分析的高效计算平台HSNAS(GPU)——Ⅰ程序开发[J].振动与冲击,2016,35(14):47-53. 被引量：4
8李红豫,滕军,李祚华.钢筋混凝土框架结构非线性静、动力分析的高效计算平台HSNAS(GPU)——Ⅱ验证分析[J].振动与冲击,2016,35(14):54-60. 被引量：2
9蔡勇,李光耀,王琥.基于多重网格法和GPU并行计算的大规模壳结构快速计算方法[J].工程力学,2014,31(5):20-26. 被引量：3
10吕伟荣,罗雯,蒋庆,徐昌慧,黄海林,陆新征.基于分层壳单元的现浇混凝土空心楼板数值模拟[J].工程力学,2015,32(S1):172-176 183. 被引量：7

引证文献2

1李红豫,滕军,李祚华,张璐.图形处理器加速算法在复杂高层结构非线性响应分析中的应用[J].工程力学,2018,35(11):79-85. 被引量：2
2张琨,贾金芳,黄建强,王晓英,严文昕.预处理共轭梯度算法异构并行求解及优化[J].小型微型计算机系统,2022,43(10):2040-2045.

二级引证文献2

1史腾,朱劲松,王子挺,秦亚婷.基于并行计算和遗传算法的钢-UHPC华夫板组合梁优化设计[J].计算力学学报,2023,40(3):357-365. 被引量：1
2李钢,余丁浩.土木工程结构非线性计算分析研究进展[J].工程力学,2023,40(7):1-24. 被引量：3

1迟利华,刘杰,李晓梅.稀疏近似逆预条件子及其并行计算[J].计算机学报,2000,23(3):255-260. 被引量：2
2樊瑶,赵祥模,褚燕利,党乐.基于预条件共轭梯度法的混凝土层析成像[J].计算机工程,2008,34(23):258-260. 被引量：2
3倪承龙.在不同色彩空间下的指纹识别[J].现代计算机（中旬刊）,2015(4):88-93. 被引量：1
4相丽,潘峰,苏光伟,申军伟.特征维数对隐写检测的影响分析[J].计算机工程,2010,36(21):132-133.
5另一种“奥妙”[J].少儿科技,2011(4):8-8.
6王际川.认识计算机的软件与硬件[J].农村青少年科学探究,2016,0(1):9-9.
7叶丹,张成毅,罗双华.基于稀疏指数追踪模型的SOR-Half阈值算法[J].纺织高校基础科学学报,2015,28(4):457-462. 被引量：2
8纪国良,冯仰德.大规模有限元刚度矩阵存储及其并行求解算法[J].数值计算与计算机应用,2012,33(3):230-240. 被引量：4
9林榕,刘伯安.极小最小二乘问题在神经网络中的应用[J].清华大学学报（自然科学版）,2004,44(4):546-550. 被引量：2

浙江工业大学学报

2016年第2期

浏览历史

内容加载中请稍等...

基于GPU的SSOR稀疏近似逆预条件研究被引量：2

参考文献12

二级参考文献25

共引文献7

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于GPU的SSOR稀疏近似逆预条件研究 被引量：2

参考文献12

二级参考文献25

共引文献7

同被引文献10

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于GPU的SSOR稀疏近似逆预条件研究被引量：2