基于神威·太湖之光的非结构网格众核优化技术被引量：6

Multi-Core Optimization Technology of Unstructured Grid Based on Sunway TaihuLight

下载PDF

导出

摘要为解决高性能计算中的非结构网格离散访存问题,以神威·太湖之光国产超级计算机为平台,根据异构众核处理器SW26010的体系结构特点,提出一种基于排序思想的通用众核优化算法,以减少非结构网格计算中的随机访存。基于网格划分原理,在O(n)时间内对生成的稀疏矩阵非零元素进行并行重排序。采用一种内部映射方式对计算向量实现扩展或变换,将细粒度访存转化为无写冲突的粗粒度访存。对多个实际应用算例的通量计算进行众核优化,结果表明,相比主核上的串行算法,该算法能够获得平均10倍以上的加速效果。 In order to solve discrete memory access problem of unstructured grid in high performance computing,this paper proposes a general multi-core optimization algorithm according to the architecture features of the heterogeneous multi-core processor SW26010.This algorithm takes the Chinese supercomputer,Sunway TaihuLight,as the platform,and is based on a sorting approach.Based on the principle of mesh generation,generated non-zero elements of the sparse matrix are reordered in O(n) time.An internal mapping method is used to extend or transform the computational vectors,and the fine-grained memory access is transformed into the coarse-grained access without writing conflicts.Multi-core optimization is carried out for the flux calculation in several practical examples.Experimental results show that compared with the serial algorithm on the main core,the proposed algorithm can achieve an average acceleration of more than 10 times.

作者倪鸿刘鑫 NI Hong;LIU Xin(National Research Centre of Parallel Computer Engineering and Technology,Beijing 100190,China)

机构地区国家并行计算机工程技术研究中心

出处《计算机工程》 CAS CSCD 北大核心 2019年第6期45-51,共7页 Computer Engineering

基金国家重点研发计划“大规模多模式多过程地球系统模式耦合平台开发”(2016YFA0602200)

关键词离散访存非结构网格通量计算异构众核优化并行排序 discrete memory access unstructured grid flux calculation heterogeneous multi-core optimization parallel sorting

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1刘鑫,陆林生,陈德训.非结构网格并行计算预处理方法研究[J].计算机科学,2012,39(3):308-311. 被引量：5
2郑方,李宏亮,吕晖,过锋,许晓红,谢向辉.Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture[J].Journal of Computer Science & Technology,2015,30(1):145-162. 被引量：13
3杨广文,赵文来,丁楠,段芳.“神威·太湖之光”及其应用系统[J].科学,2017,69(3):12-16. 被引量：15

二级参考文献57

1Monien B, Preis R, Diekmann R. Quality matching and local improvement for multilevel graph-partitioning[J]. Parallel Computing, 2000,26 (12) : 1609-1634.
2Karypis G, Kumar V. METIS: unstructured graph partitioning and sparse matrix ordering system[R]. Department of Computer Science, University of Minnesota, 1995.
3ANSYS FLUENT [OL]. http://www, ansys, com/Products/ Simulation+ Technology/Fluid+ Dynamics/ANSYS+ FLUENT.
4ANSYS CFX [OL]. http://www, ansys, corn/Products/Simula- tion+ Technology/Fluid+ Dynamics/ANSYS+ CFX.
5Manferdelli J L, Govindaraju N K, Crall C. Challenges and opportunities in many-core computing. Proceedings of the IEEE, 2008, 96(5): 808-815.
6Shalf J, Dosanjh S, Morrison J. Exascale computing technology challenges. In Proc. the 9th Int. High Performance Computing for Computational Science- VECPAR, June 2011, pp.1-25.
7Daga M, Aji A M, Feng W. On the efficacy of a fused CPU+GPU processor (or APU) for parallel computing. In Proc. Symposium on Application Accelerators in HighPerformance Computing, July 2011, pp.141-149.
8Chung E S, Milder P A, Hoe J C, Mai K. Single-chip heterogeneous computing: Does the future include custom logic, FPGAs, and GPGPUs? In Proc. the 43rd Annual IEEE/ACM International Symposium on Micmarchitecture (MICRO), December 2010, pp.225-236.
9Lee V W, Grochowski E, Geva R. Performance benefits of heterogeneous computing in HPC workloads. In Proc. the 26th IEEE International Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW), May 2012, pp.16-26.
10Kumar R, Farkas K I, Jouppi N P et al. Single-ISA heterogeneous multi-core architectures: The potential for processor power reduction. In Proc. the 36th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), Dec. 2003, pp.81-92.

共引文献30

1刘垚,郑琳,郑凯,王肃,廖启丹.基于申威众核处理器的NSGA-Ⅱ并行和优化方法[J].计算机应用研究,2020,37(1):96-101. 被引量：1
2张俊,吴庆慧.螺钉连接式固定桥初探[J].重庆医科大学学报,2000,25(2):205-207.
3王姝,王小鸽,杨广文.并行燃烧数值模拟计算优化——面向自适应非结构网格的动态负载平衡方法[J].计算机工程与应用,2013,49(21):220-225. 被引量：2
4Haohuan FU,Junfeng LIAO,Jinzhe YANG,Lanning WANG,Zhenya SONG,Xiaomeng HUANG,Chao YANG,Wei XUE,Fangfang LIU,Fangli QIAO,Wei ZHAO,Xunqiang YIN,Chaofeng HOU,Chenglong ZHANG,Wei GE,Jian ZHANG,Yangang WANG,Chunbo ZHOU,Guangwen YANG.The Sunway TaihuLight supercomputer： system and applications[J].Science China(Information Sciences),2016,59(7):109-124. 被引量：62
5程兴华,刘巍,张理论.非结构动网格分区并行计算方法[J].国防科技大学学报,2017,39(1):81-85. 被引量：1
6张昆,郑方,谢向辉.以访存为中心的阵列众核处理器核心流水线设计[J].计算机工程与科学,2017,39(12):2167-2175. 被引量：2
7陈智雨,高德荃,王栋,李国春,葛冰玉,赵子岩.基于量子密钥的电力业务最优数据保护模型[J].电力系统自动化,2018,42(11):115-121. 被引量：17
8徐艺峰,李健,王杰,范冰丰,王钢.基于天河二号超算的网格无关性及并行研究[J].计算机工程与设计,2018,39(7):2036-2041. 被引量：2
9李燕,赵永华,王武,赵莲.HPSEPS在元与神威·太湖之光上的移植和性能分析[J].科研信息化技术与应用,2018,9(2):46-52.
10肖健,于策,孙济洲,李健增,孟祥飞.时空间混合并行框架及其在并行计算实验教学中的应用[J].实验技术与管理,2018,35(9):218-221.

同被引文献25

1Ruo Li,Xin Wang,Weibo Zhao.A Multigrid Block LU-SGS Algorithm for Euler Equations on Unstructured Grids[J].Numerical Mathematics(Theory,Methods and Applications),2008,1(1):92-112. 被引量：3
2张德全,吴果林,刘登峰.最短路问题的Floyd加速算法与优化[J].计算机工程与应用,2009,45(17):41-43. 被引量：30
3冯登国,张敏,张妍,徐震.云计算安全研究[J].软件学报,2011,22(1):71-83. 被引量：1072
4邢星星,赵国兴,骆祖莹,方浩.基于GPU的全源最短路径算法[J].计算机科学,2012,39(3):299-303. 被引量：3
5刘鑫,陆林生,陈德训.非结构网格并行计算预处理方法研究[J].计算机科学,2012,39(3):308-311. 被引量：5
6赖莉珊,吴永全,沈通,张宁,高帅.纳米Al_2O_3颗粒对纯Fe液诱导凝固过程的分子动力学模拟[J].物理化学学报,2012,28(6):1347-1354. 被引量：6
7刘芳芳,杨超,袁欣辉,吴长茂,敖玉龙.面向国产申威26010众核处理器的SpMV实现与优化[J].软件学报,2018,29(12):3921-3932. 被引量：11
8Min Li,Chao Yang,Qiao Sun,Wen-Jing Ma,Wen-Long Cao,Yu-Long Ao.Enabling Highly Efficient k-Means Computations on the SW26010 Many-Core Processor of Sunway TaihuLight[J].Journal of Computer Science & Technology,2019,34(1):77-93. 被引量：1
9吴再龙,张云泉,徐建良,贾海鹏,颜深根,解庆春.基于OpenCL的Kmeans算法的优化研究[J].计算机科学与探索,2014,8(10):1162-1176. 被引量：4
10郑方,李宏亮,吕晖,过锋,许晓红,谢向辉.Cooperative Computing Techniques for a Deeply Fused and Heterogeneous Many-Core Processor Architecture[J].Journal of Computer Science & Technology,2015,30(1):145-162. 被引量：13

引证文献6

1何亚茹,庞建民,徐金龙,朱雨,陶小涵.基于神威平台的Floyd并行算法的实现和优化[J].计算机科学,2021,48(6):34-40. 被引量：5
2田卓,陈一峯.神威太湖之光上分子动力学模拟的性能优化[J].软件学报,2021,32(9):2945-2962. 被引量：4
3吴再龙,王利明,徐震,李宏佳,杨婧.GPU虚拟化技术及其安全问题综述[J].信息安全学报,2022,7(2):30-58. 被引量：4
4叶跃进,李芳,陈德训,郭恒,陈鑫.基于国产众核架构的非结构网格分区块重构预处理算法研究[J].计算机科学,2022,49(6):73-80.
5陈鑫,李芳,丁海昕,孙唯哲,刘鑫,陈德训,叶跃进,何香.面向国产异构众核架构的CFD非结构网格计算并行优化方法[J].计算机科学,2022,49(6):99-107. 被引量：1
6许乐,安虹,陈俊仕,张鹏飞,武铮.基于神威·太湖之光的非结构网格计算加速算法[J].计算机工程,2022,48(12):45-53. 被引量：1

二级引证文献15

1王其涵,庞建民,岳峰,祝迪,沈莉,肖谦.面向申威架构的KNN并行算法实现与优化[J].计算机工程,2023,49(5):286-294. 被引量：5
2范黎林,乔一航,李俊飞,柴旭清,崔容培,韩秉豫.基于国产c86处理器的CP2K软件移植与优化[J].计算机科学,2023,50(6):58-65. 被引量：3
3肖汉,肖诗洋,李焕勤,周清雷.基于GPU加速的全源对最短路径并行算法[J].云南大学学报（自然科学版）,2023,45(5):1022-1032. 被引量：1
4陈莉琳.异构融合智算管理平台的设计与实现[J].福建电脑,2023,39(10):73-77.
5彭瑾,杨勇.基于OpenMP的Floyd并行算法研究[J].鞍山师范学院学报,2023,25(4):49-54.
6王玉明,吴开超,牛晨辉,张晓丽.基于容器化的快速射电暴搜寻GPU并行优化[J].数据与计算发展前沿,2024,6(1):102-112.
7范国炜,吴涛,刘壮.基于新一代神威天气和气候预测系统并行优化[J].计算机仿真,2023,40(12):353-358.
8龚宁静.Floyd多源最短路径算法的并行化研究[J].现代计算机,2024,30(1):66-69.
9梁桂才,李玉荣.混合现实中基于GPU虚拟化的AI计算优化[J].通信与信息技术,2024(2):114-120. 被引量：1
10黄文涛,钟昭,翟文华,张媛,康传华.基于分布式网络的水面舰艇编队一体化导航方法[J].中国舰船研究,2024,19(2):233-244.

1蒋彩萍,周柯锦,杨琼,薛秀秀,王鹏,徐亚平.往复性河流交接断面污染物通量计算方法初探[J].环境与发展,2019,31(2):160-161.
2倪鸿,刘鑫.非结构网格下稀疏下三角方程求解器众核优化技术研究[J].计算机科学,2019,46(B06):518-522. 被引量：3
3戴威.公共交通安全视域下道德主体价值排序研究[J].武汉交通职业学院学报,2019,21(1):20-26.
4戴楠,严悍,卓勤政,马玲玲.基于网格山脊点的异常点检测[J].计算机与数字工程,2019,47(5):1175-1178.
5汪洁.善治视阈下城市社区复合治理机制的构建——基于网格化管理与居民自治的融合[J].中共天津市委党校学报,2019,21(3):82-88. 被引量：15
6瞿浩川,杨学林,冯永伟,王震.基于高层结构的中美抗震设计规范对比分析[J].建筑结构,2018,48(S2):163-168.
7朱春进,沈振军,张瑞杰.压缩感知的稀疏字典学习在信号重建中的应用[J].工业控制计算机,2019,32(4):69-71. 被引量：1
8李吉祺,黄刚.提取关键字改进协同过滤算法的研究与应用[J].计算机技术与发展,2019,29(6):154-158.
9许冠中,宁柏锋,钟宇欢.基于网格的项目全过程管理研究与应用[J].数字通信世界,2019,0(5):139-140.
10胡鹏,韩健健,雷云龙.基于局部分级时间步长方法的水沙耦合数学模拟[J].浙江大学学报（工学版）,2019,53(4):743-752. 被引量：4

计算机工程

2019年第6期

浏览历史

内容加载中请稍等...

基于神威·太湖之光的非结构网格众核优化技术被引量：6

参考文献3

二级参考文献57

共引文献30

同被引文献25

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于神威·太湖之光的非结构网格众核优化技术 被引量：6

参考文献3

二级参考文献57

共引文献30

同被引文献25

引证文献6

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于神威·太湖之光的非结构网格众核优化技术被引量：6