稀疏对称矩阵的LDL^(T)分解在GPU上的高效实现被引量：1

An Effective Implementation of LDLT Decomposition of Sparse Symmetric Matrix on GPU

下载PDF

导出

摘要【目的】LDLT分解是求解很多稀疏对称线性系统的有效工具之一,尤其是对于迭代法难以收敛的问题。然而在GPU上实现LDLT分解存在困难,因为分解过程中存在数据依赖和不规则的数据访问。【方法】本文设计并实现了一个基于GPU的稀疏对称矩阵的LDLT分解,它采用Cholesky的符号分解和右视分解算法、稀疏矩阵依赖图的层次划分,以及CUDA的动态并行核调度技术,算法的所有三层循环都并行化,从而获得更高的并行度。【结果】实验结果表明,针对稀疏对称矩阵的一个典型的测试集,在GPU上实现的LDLT分解相对于UMFPACK最高加速46.2倍。【结论】LDLT分解CUDA实现策略可为高性能GPU异构平台上开展稀疏矩阵的高性能数值算法研究与实现提供借鉴。 [Objective]LDLT decomposition is an effective tool to solve many problems in sparse symmetric linear systems,especially for those problems which are hard to converge using iterative solvers.However,it is difficult to implement LDLT on the GPU for data dependency and irregular data access during the factorization.[Methods]In this paper,an effective GPU-based LDLT decomposition method of sparse symmetric matrix is designed and implemented based on Cholesky symbolic decomposition,right-looking decomposition algorithm and level partition of the dependency graph for the sparse matrix.By using controlled kernel launch for CUDA dynamic parallelism,all three loops of the algorithm are parallelized,so the proposed method can achieve higher parallelism.[Results]Experimental results show that the implementation of LDLT on GPU can achieve a maximum speedup of 46.2 compared to UMFPACK for a typical collection of sparse symmetric matrix.[Conclusions]CUDA implementation of LDLT can give reference to high performance numerical algorithm research and implementation for sparse matrix on GPU-based heterogeneous platforms.

作者陈鑫峰王武 Chen Xinfeng;Wang Wu(Computer Network Information Center,Chinese Academy of Sciences,Beijing 100190,China;University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国科学院计算机网络信息中心中国科学院大学

出处《数据与计算发展前沿》 CSCD 2021年第3期136-147,共12页 Frontiers of Data & Computing

基金国家重点研发计划项目“复杂电磁环境高性能应用软件系统研制及应用示范”(2017YFB 0202502) 中国科学院“十三五”信息化专项“科研信息化应用工程”(XXH13506-405)。

关键词 LDLT分解右视算法 GPU 动态并行 LDLT decomposition right-looking algorithm GPU dynamic parallelism

分类号 TP332 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1扶月月,王武,王乔.基于FMM-PM方法的宇宙N体模拟在GPU上的实现和优化[J].数据与计算发展前沿,2020,2(2):155-164. 被引量：5
2张留莹,王鹏飞,张峰,刘海龙,林鹏飞,王涛,韦俊林,田少博,姜金荣,迟学斌.海洋环流模式LICOM的GPU实现与优化[J].数据与计算发展前沿,2020,2(4):92-104. 被引量：3
3党冠麟,刘世伟,胡晓东,张鉴,李新亮.基于CPU/GPU异构系统架构的高超声速湍流直接数值模拟研究[J].数据与计算发展前沿,2020,2(1):105-116. 被引量：3

二级参考文献13

1张学洪,粱信忠.A Numerical World Ocean General Circulation Model[J].Advances in Atmospheric Sciences,1989,6(1):44-61. 被引量：15
2孙泓川,周广庆,曾庆存.IAP第四代大气环流模式的气候系统模式模拟性能评估[J].大气科学,2012,36(2):215-233. 被引量：31
3郭松,窦勇,雷元武.海洋环流数值模式POP的GPU并行优化[J].计算机工程与科学,2012,34(8):147-153. 被引量：3
4王春晖,苗春葆,沈飙.非静压海洋数值模式加速计算的CUDA实现[J].中国海洋大学学报（自然科学版）,2013,43(8):107-113. 被引量：2
5迟学斌,顾蓓蓓,武虹,王龙,朱鹏.高性能计算机系统及平台发展状况分析[J].计算机工程与科学,2013,35(11):6-13. 被引量：9
6季旭,武海平,邹寅隆,梁亚雄,薛巍,尹万旺,林鹏飞,刘海龙,俞永强.面向LICOM2的并行I/O优化[J].科研信息化技术与应用,2014,5(5):37-48. 被引量：2
7王文浩,姜金荣,王玉柱,迟学斌.海洋模式LICOM的MIC并行优化[J].科研信息化技术与应用,2015,6(3):60-67. 被引量：4
8Qiao Wang,Zong-Yan Cao,Liang Gao,Xue-Bin Chi,Chen Meng,Jie Wang,Long Wang.PHoToNs–A parallel heterogeneous and threads oriented code for cosmological N-body simulation[J].Research in Astronomy and Astrophysics,2018,18(6):7-16. 被引量：5
9Pengfei LIN,Zhipeng YU,Hailong LIU,Yongqiang YU,Yiwen LI,Jirong JIANG,Wei XUE,Kangjun CHEN,Qian YANG,Bowen ZHAO,Jilin WEI,Mengrong DING,Zhikuo SUN,Yaqi WANG,Yao MENG,Weipeng ZHENG,Jinfeng MA.LICOM Model Datasets for the CMIP6 Ocean Model Intercomparison Project[J].Advances in Atmospheric Sciences,2020,37(3):239-249. 被引量：15
10张云泉,袁良,袁国兴,李希代.2019年中国高性能计算机发展现状分析与展望[J].数据与计算发展前沿,2020,2(1):18-26. 被引量：13

共引文献8

1丁磊,王武,姜金荣,赵莲.基于Charm++的并行FMM实现[J].数据与计算发展前沿,2020,2(3):101-112.
2张留莹,王鹏飞,张峰,刘海龙,林鹏飞,王涛,韦俊林,田少博,姜金荣,迟学斌.海洋环流模式LICOM的GPU实现与优化[J].数据与计算发展前沿,2020,2(4):92-104. 被引量：3
3曹义魁,陆忠华,张鉴,刘夏真,袁武,梁姗.面向国产加速器的CFD核心算法并行优化[J].数据与计算发展前沿,2021,3(4):93-103. 被引量：2
4聂婕,左子杰,黄磊,王志刚,孙正雅,仲国强,王鑫,王玉成,刘安安,张弘,董军宇,魏志强.面向海洋的多模态智能计算:挑战、进展和展望[J].中国图象图形学报,2022,27(9):2589-2610. 被引量：4
5赵文龙,王武.Gadget-2在一个加速卡异构平台上的移植与优化[J].数据与计算发展前沿,2022,4(5):108-119.
6高振勋,蒋崇文,李椿萱.高超高焓非平衡流动数值模拟方法研究综述[J].力学进展,2023,53(3):561-591.
7韩承磊,梁建国,傅游,叶雨曦,花嵘,李倩倩.神威·太湖之光平台上宇宙N体模拟中FMM的并行优化[J].山东科技大学学报（自然科学版）,2024,43(3):105-113.
8李云龙,祝子杰,孟祥飞,朱小谦,林鹏飞,刘海龙,李庚.海洋环流模式的并行I/O优化研究[J].计算机工程与应用,2024,60(17):263-271.

同被引文献7

1李军,蒋红燕,郭晋宁,滕惠忠,叶秋果,辛宪会.海岸带卫星影像的处理和应用研究[J].海洋测绘,2010,30(4):44-47. 被引量：7
2滕惠忠,闸旋,辛宪会,叶秋果.基于ArcGIS的海图立体修测技术[J].海洋测绘,2015,35(5):63-66. 被引量：4
3周增华,姜挺,巩丹超,韩轶龙,魏飞.基于正反解RFM的Pleiades卫星影像定位方法分析[J].测绘科学与工程,2016,36(2):40-45. 被引量：1
4周瑜,胡莘,曹锴郎,周拥军,李云松.一种卫星影像RPC参数的HEIV估计方法[J].西安电子科技大学学报,2020,47(2):108-117. 被引量：2
5申家双,翟国君,黄辰虎,贾俊涛,王耿峰,张瑞瑞.海洋测绘学科体系研究(一):总论[J].海洋测绘,2021,41(1):1-7. 被引量：4
6王新洲,刘丁酉,黄海兰.谱修正迭代结果的协因数矩阵[J].武汉大学学报（信息科学版）,2003,28(4):429-431. 被引量：15
7王振杰,欧吉坤.用L-曲线法确定岭估计中的岭参数[J].武汉大学学报（信息科学版）,2004,29(3):235-238. 被引量：66

引证文献1

1戴泽源,张立华,陈秋,刘翔.无RSM参数的反解RFM求解方法[J].海洋测绘,2023,43(2):55-59.

1张丽君.生态环境监测实验室管理与质量控制对策研究[J].装备维修技术,2021(20):0134-0134.
2黄丽萍.现代信息技术在高校档案管理中的应用措施[J].花溪（文艺教育）,2020(23):0168-0169.
3张金凌.体育游戏教学法在中学体育教学中的应用与分析[J].体育视野,2020(6):91-92. 被引量：2
4李晓红,王闪闪,马堉银,马慧芳.融合相似度图和随机游走模型的多标签短文本分类算法[J].计算机工程与科学,2021,43(6):1081-1087. 被引量：4
5郑重,陈璟,陈越奋.求解一类复对称线性系统的优化的结构预处理子[J].信阳师范学院学报（自然科学版）,2021,34(3):362-366. 被引量：1
6研究人员创建了第一代儿童癌症基因图[J].中国肿瘤临床与康复,2021,28(5):630-630.
7王可,赵瑞锋,李波,李世明.配电云平台的决策级数据融合及其并行化[J].电气技术,2021,22(7):89-94.
8方玉玲,那丽春.一种基于CUDA的K-Means多级并行优化方法[J].小型微型计算机系统,2021,42(7):1547-1553. 被引量：2
9李敏洁,高桂革,曾宪文.一种改进的FEEMD-FOA-LSSVM短期风速预测方案[J].新一代信息技术,2021,4(7):9-16.

数据与计算发展前沿

2021年第3期

浏览历史

内容加载中请稍等...

稀疏对称矩阵的LDL^(T)分解在GPU上的高效实现被引量：1

参考文献3

二级参考文献13

共引文献8

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

稀疏对称矩阵的LDL^(T)分解在GPU上的高效实现 被引量：1

参考文献3

二级参考文献13

共引文献8

同被引文献7

引证文献1

相关作者

相关机构

相关主题

浏览历史

稀疏对称矩阵的LDL^(T)分解在GPU上的高效实现被引量：1