基于鲲鹏处理器的LU并行分解优化算法

LU Parallel Decomposition Optimization Algorithm Based on Kunpeng Processor

下载PDF

导出

摘要 ScaLAPACK(Scalable Linear Algebra PACKage)是并行计算软件包,适用于分布式存储的MIMD(Multiple Instruction,Multiple Data)并行计算机,被广泛应用于基于线性代数运算的并行应用程序开发。然而在进行LU分解过程中,ScaLAPACK库中的例程并不是通信最优的,没有充分利用当前的并行架构。针对上述问题,提出一种基于鲲鹏处理器的LU并行分解优化算法(Parallel LU Factorization,PLF),实现了负载均衡,适配国产鲲鹏环境。PLF对不同进程的不同分区的数据进行差异化处理,并将每个进程所拥有的部分数据分配给根进程进行计算,之后再由根进程散播回各个子进程,这有利于充分利用CPU资源,实现负载均衡。在单节点Intel 9320R处理器以及鲲鹏(Kunpeng)920处理器环境中进行测试,其中,Intel平台下使用Intel MKL(Math Kernel Library),Kunpeng平台下使用PLF算法。对比两个平台关于不同规模的方程组求解的性能发现,Kunpeng平台的求解性能有显著优势。在NUMA数进程和单线程的情况下,优化后的计算效率在小规模平均达到4.35%,相比Intel的1.38%提升了215%;中规模平均达到4.24%,相比Intel平台的1.86%提升了118%;大规模平均达到4.24%,相比Intel的1.99%提升了113%。 Scalable linear algebra PACKage(ScaLAPACK)is a parallel computing package suitable for MIMD(multiple instruction,multiple data)parallel computers with distributed storage.It is widely used in parallel application program development based on linear algebra operation.However,during the LU decomposition process,the routines in the ScaLAPACK library are not communication optimal and do not take full advantage of the current parallel architecture.To solve the above problems,a parallel LU factorization optimization algorithm(PLF)based on Kunpeng processor is proposed to achieve load balancing and adapt to domestic Kunpeng environment.PLF processes the data of different partitions of different processes differently.PLF allocates part of the data of each process to the root process for calculation.After the calculation is completed,the root process spreads the data back to each sub-process,which helps to fully utilize CPU resources and achieve load balancing.Tests are performed on single-node Intel 9320R processors and Kunpeng 920 processors.Intel MKL(Math Kernel Library)is used on the Intel platform,and PLF algorithm is used on the Kunpeng platform.After comparing the performance of solving equations of different scales on two platforms,it is found that the performance of solving equations on Kunpeng platform has a significant advantage compared with Intel platform.In the case of NUMA process and single thread,the optimized computing efficiency reaches 4.35%on a small scale on average,which is 215%higher than Intel’s 1.38%.The average size of the medium scale reaches 4.24%,compared with 1.86%of Intel platform,an increase of 118%.The large-scale average reaches 4.24%,compared to Intel’s 1.99%,an increase of 113%.

作者徐鹤周涛李鹏秦芳芳季一木 XU He;ZHOU Tao;LI Peng;QIN Fangfang;JI Yimu(School of Computer Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China;Jiangsu HPC and Intelligent Processing Engineer Research Center,Nanjing 210023,China;College of Science,Nanjing University of Posts and Telecommunications,Nanjing 210023,China)

机构地区南京邮电大学计算机学院、软件学院、网络空间安全学院江苏省高性能计算与智能处理工程研究中心南京邮电大学理学院

出处《计算机科学》 CSCD 北大核心 2024年第9期51-58,共8页 Computer Science

基金国家自然科学基金(62102194,62102196) 江苏省六大人才高峰高层次人才项目(RJFW-111) 江苏省研究生实践创新计划(SJCX22_0267,SJCX22_0275) 华为鲲鹏众智计划(2022外241,2022外243)。

关键词 SCALAPACK LU分解并行计算 MKL ScaLAPACK LU factorization Parallel computing MKL

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1范黎林,乔一航,李俊飞,柴旭清,崔容培,韩秉豫.基于国产c86处理器的CP2K软件移植与优化[J].计算机科学,2023,50(6):58-65. 被引量：3
2喻婷,王立松,秦小麟.基于多核CPU的无锁并行Semi-naive算法[J].计算机科学,2023,50(6):29-35. 被引量：1
3翟绪论,张永光,靳安钊,强薇,李梦冰.基于多核CPU的DVB-RCS2并行Turbo译码方法[J].计算机科学,2023,50(6):22-28. 被引量：1
4刘金波,何芒.基于OpenMP与VALU硬件加速的表面积分方程矩量法混合并行求解技术[J].北京理工大学学报,2014,34(1):50-55. 被引量：2
5李文强,马民.求解循环三对角方程组的追赶法[J].科技导报,2009,27(14):69-72. 被引量：14
6刘琳,刘青昆,宋小雨.高斯消去的并行化研究[J].计算机工程,2011,37(8):40-42. 被引量：2
7罗海文,吴扬俊,商红慧.第一性原理极化率计算中的众核优化方法研究[J].计算机科学,2023,50(6):1-9. 被引量：1
8陈国良,孙广中,张云泉,莫则尧.Study on Parallel Computing[J].Journal of Computer Science & Technology,2006,21(5):665-673. 被引量：6

二级参考文献25

1莫则尧,傅连祥,阳述林.非结构网格上求解中子输运方程的并行流水线S_n扫描算法[J].计算机学报,2004,27(5):587-595. 被引量：28
2余文华,杨小玲,刘永俊,苏涛,Raj Mittra.并行FDTD和IBM BlueGene/L巨型计算机结合求解电大尺寸的电磁问题[J].电波科学学报,2006,21(4):562-566. 被引量：6
3孙济洲,樊莉亚,孙敏,于策,张绍敏.改进的并行高斯全主元消去法[J].天津大学学报,2006,39(9):1115-1119. 被引量：7
4刘晓,李文强.追赶法在求解循环和拟循环三对角方程组中的一种推广[J].河南师范大学学报（自然科学版）,2009,37(1):13-16. 被引量：7
5马丽,李红.高斯消去法并行任务分配策略对比[J].吉林省教育学院学报,2009,25(7):153-154. 被引量：1
6王海涛,刘淑芬.基于Linux集群的并行计算[J].计算机工程,2010,36(1):64-66. 被引量：21
7孟德龙,文敏华,韦建文,林新华.神威太湖之光上OpenFOAM的移植与优化[J].计算机科学,2017,44(10):64-70. 被引量：13
8赵梦伟,陈永锋,刘凯,孙超群.基于MIC的Turbo码译码并行加速[J].电子测量技术,2019,42(1):126-131. 被引量：2
9聂宁明,胡长军,张云泉,贺新福,张博尧,李士刚.材料微观结构演化大规模分子动力学软件比较[J].计算机科学与探索,2017,11(3):355-364. 被引量：5
10王一超,林新华,蔡林金,Tang William,Ethier Stephane,王蓓,施忠伟,松岗聪.太湖之光上利用OpenACC移植和优化GTC-P[J].计算机研究与发展,2018,55(4):875-884. 被引量：8

共引文献22

1杨洋,李春光,景何仿,杨君伟.三层隐式差分格式在一维常系数扩散方程中的应用[J].北华大学学报（自然科学版）,2012,13(5):528-531.
2陈国良,苗乾坤,孙广中,徐云,郑启龙.分层并行计算模型[J].中国科学技术大学学报,2008,38(7):841-847. 被引量：9
3CHEN GuoLiang SUN GuangZhong XU Yun LONG Bai.Integrated research of parallel computing:Status and future[J].Chinese Science Bulletin,2009,54(11):1845-1853. 被引量：4
4邹阳,吕建,曾晓勤.并行性挖掘的图文法方法[J].小型微型计算机系统,2011,32(2):271-278.
5刘晓,王小光,李文强.三对角四阶紧致差分格式的优化和初步应用[J].科技导报,2011,29(34):20-26. 被引量：3
6李文强,刘晓.循环三对角Toeplitz线性方程组的分组降阶算法[J].科技导报,2012,30(5):43-48.
7刘晓,李一帆,李文强,王贞化.三对角四阶跳点紧致格式优化和初步应用[J].科技导报,2012,30(16):66-70. 被引量：1
8刘晓,王小光,马新文.紧致差分格式的分辨率与精度的实例比较与讨论[J].河南师范大学学报（自然科学版）,2012,40(6):1-4.
9倪有义,蔡静.反五对角与拟反五对角方程组的追赶法[J].数学杂志,2014,34(1):137-144. 被引量：3
10关朋燕,李春光,景何仿.TDMA算法在迭代求解二维对流扩散问题中的收敛性证明[J].高等学校计算数学学报,2014,36(1):77-85. 被引量：4

1游心,杨海龙,雷克伦,孔祥浩,徐筠,栾钟治,钱德沛.针对冗余零的跨平台细粒度性能分析技术[J].计算机研究与发展,2023,60(5):1164-1176.
2陈炳旭.求解电路方程组的改进分块对角加边方法[J].运筹与模糊学,2024,14(3):102-108.
3王雷,王廉杰,李永毅,姜博.面向华为鲲鹏服务器的操作系统教学实践平台[J].软件导刊,2024,23(8):1-7.
4高凌云,勾文进,刘夏真,袁武,张鉴,陆忠华.一类Stencil应用在众核NUMA架构的性能研究[J].数据与计算发展前沿,2023,5(6):58-66.
5汪雪梅,李勇.善用素材有序推进[J].中小学数学（初中版）,2024(9):49-51.
6李珂悫,冯景亚,韦永壮,赵琪.MPECA:面向多平台的高效密码算法[J].计算机应用研究,2023,40(8):2481-2486.
7启动申报丨2024年CCF-绿盟科技“鲲鹏”科研基金正式发布[J].计算机科学,2024,51(9):415-415.
8朱大伟,陈海林,徐佳琛,周晓晓,徐博奥.柱坐标系“分解”思想WLP-FDTD的PML实现[J].计算物理,2024,41(4):440-452.
9刘颖,刘德彦,吕政,赵珺,王伟.融合深度特征与多核学习的LSTWSVM及其工业应用[J].控制与决策,2024,39(8):2622-2630.
10奇瑞风云T10[J].消费指南,2024(8):19-19.

计算机科学

2024年第9期

浏览历史

内容加载中请稍等...

基于鲲鹏处理器的LU并行分解优化算法

参考文献8

二级参考文献25

共引文献22

相关作者

相关机构

相关主题

浏览历史