大规模申威众核环境下二维数据计算的可扩展方法被引量：1

Large Scalability Method of 2D Computation on Shenwei Many-core

下载PDF

导出

摘要随着超级计算机及其编程环境的发展,异构系统结构下的多级并行编程将成为趋势,神威·太湖之光国产超级计算机就是其中的一个典型。自2016年神威·太湖之光运行以来,国内外很多学者在其上进行了方法研究和应用验证,为申威环境积累了比较丰富的众核化编程方法及优化方法。但是,将全球系统模式CESM移植到申威众核环境时,对于海洋分量模式POP中的一些二维数据计算,常用的众核优化方法在1024进程规模下运行时具有较好的加速效果,然而在16800大规模进程下运行时众核化会失效,表现为负加速。针对上述问题,文中提出了一种基于从核分区的并行计算方法,一个核组内的64个从核被分成多个互不交叉的从核分区,将可以独立计算的多个代码段计算任务分别分配到不同的从核分区上进行运行,能够有效利用从核的计算能力,还可以实现对多个独立的代码段进行计算时间隐藏。每个从核分区内的从核数量及从核号可以根据拟分配的计算任务情况进行适当选取,使得每个从核都能达到较适宜的数据量和计算量。在采用前述从核分区方法的基础上,结合使用循环合并和函数上提等方法增大程序并行粒度,提高了二维数据计算在大规模进程下的可扩展性,CESM模式高分辨率G算例中POP分量模式在110万核心规模下的模拟速度提高了0.8模式年/天,众核化的加速效果明显。 With the development of supercomputer and its programming environment,multilevel parallelism under heterogeneous system infrastructure is a promising trend.Applications ported to Sunway TaihuLight are typical.Since the Sunway TaihuLight was open to public in 2016,many scholars focus on the method study and application verification,so much experience on Shenwei many-core programming method is accumulated.However,when the CESM model is ported to Shenwei many-core infrastructure,some two dimensional computations in the ported POP model show quite good results under 1024 processes.On the contrary,they perform much worse than the original version,and false acceleration ratios appeared under 16800 processes.Upon this problem,a new parallel method based on slave-core partitions was proposed.Under the new parallel method,the 64 slave-cores in a core-group are divided into some disjoint small partitions,which make that different and independent computing kernels can run at different slave-core partitions simultaneously.In the method,the computing kernels can be loaded to different slave-core partitions with the suitable data size and computational load,where the amount and number of the slave-cores in each partition can be pro-perly set according to the computing scale,so the slave-core’s calculation ability can be fully utilized.Based on the new parallel method,also with the loops combination and function expansion,the slave-cores are fully applied and some computing time among several parallel running codes is hidden.Furthermore,it is effective to extend the parallel granularity of the kernels to be athrea-ded.Applied the above methods,the simulation speed of POP model in high-resolution CESM G-compset is improved by 0.8 si-mulation year per day under 1.1 million cores.

作者庄园郭强张洁曾云辉 ZHUANG Yuan;GUO Qiang;ZHANG Jie;ZENG Yun-hui(Qilu University of Technology(Shandong Academy of Sciences),Jinan 250101,China;Shandong Computer Science Center(National Supercomputer Center in Jinan),Jinan 250101,China;Shandong Provincial Key Laboratory of Computer Networks,Jinan 250101,China)

机构地区齐鲁工业大学(山东省科学院) 山东省计算中心(国家超级计算济南中心) 山东省计算机网络重点实验室

出处《计算机科学》 CSCD 北大核心 2020年第8期87-92,共6页 Computer Science

基金国家重点研发计划项目(2016YFB0201100)。

关键词二维数据计算申威众核大规模可扩展性从核分区并行粒度 2D-array computation Shenwei many-core Large scalability Slave-core partition Parallel granularity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1张理论,赵军,吴建平,宋君强.POP海洋模式在四核至强集群上的并行计算[J].计算机工程与应用,2009,45(5):189-192. 被引量：6
2刘鑫,郭恒,孙茹君,陈左宁.“神威·太湖之光”计算机系统大规模应用特征分析与E级可扩展性研究[J].计算机学报,2018,41(10):2209-2220. 被引量：17
3吴琦,倪裕芳,黄小猛.基于“神威·太湖之光”的区域海洋模式并行优化[J].计算机研究与发展,2019,56(7):1556-1566. 被引量：10
4李芳,李志辉,徐金秀,范昊,褚学森,李新亮.基于十亿亿次国产超算系统的流体力学软件众核适应性研究[J].计算机科学,2020,47(1):24-30. 被引量：10
5万修全,刘泽栋,沈飙,林霄沛,吴德星.地球系统模式CESM及其在高性能计算机上的配置应用实例[J].地球科学进展,2014,29(4):482-491. 被引量：14
6赵伟,雷晓燕,陈德训,赵春,宋振亚.全球涡分辨率并行海洋模式POP在神威蓝光上的移植和应用[J].计算机应用与软件,2014,31(5):42-45. 被引量：6
7郭松,窦勇,雷元武.海洋环流数值模式POP的GPU并行优化[J].计算机工程与科学,2012,34(8):147-153. 被引量：3

二级参考文献51

1周天军,俞永强,宇如聪,刘海龙,李薇,张学洪.气候系统模式发展中的耦合器研制问题[J].大气科学,2004,28(6):993-1008. 被引量：29
2伍湘君,金之雁,陈德辉,宋君强,杨学胜.新一代数值预报模式GRAPES的并行计算方案设计与实现[J].计算机研究与发展,2007,44(3):510-515. 被引量：17
3陈显尧宋振亚王永刚.并行计算在海洋环流数值模式中的应用.高性能计算发展与应用,2005,(4).
4Dennis J M.Expedition computing:exploring the petaseale frontier [EB/OL]. ( 2007 ).http ://www.cisl.ncar.edu/dir/CAS2K7/final_agenda- 2007.html.
5Smith R D,Gent P.Reference manual for the Parallel Ocean Program(POP),Los Alamos Unclassified Report LA-UR-02-2484[R]. 2002.
6Kerbyson D J,Jones P W.A performance model of the parallel ocean program[J].The International Journal of High Performance Computing Applications,2005,19(3) :261-276.
7Kim Dong-Hoon,Nakashiki N,Yoshida Y.Computation of super high-resolution global ocean model using earth simulator[C]//Proceedings of Coastal and Ocean Engineering in Korea,2003.
8Zaki T, Moulton D, Nadig B, et al.Muhigrid preconditioning in fully-implicit evolution of the ocean[R/OL].T-7,MS B284,Theoretical Division,Los Alamos National Laboratory,Los Alamos,NM 87545. http://math.lanl.gov/.
9Jones P W,Worley P H,Yoshida Y,et al.Practical performance portability in the Parallel Ocean Program(POP)[J].Concurrency and Computation : Practice and Experience, 2005,17 : 1317-1327.
10Smith R D,Jones P W. The Parallel Ocean Program (POP) Reference Manual:Ocean Component of the Community Cli- mate System Model (CCSM) [R]. LAUR-10-01853, Los Ala mos National Laboratory,2010.

共引文献58

1刘垚,郑琳,郑凯,王肃,廖启丹.基于申威众核处理器的NSGA-Ⅱ并行和优化方法[J].计算机应用研究,2020,37(1):96-101. 被引量：1
2张理论,叶红,吴建平,宋君强.基于最大负载偏移率的并行负载平衡性能分析[J].计算机研究与发展,2010,47(6):1125-1131. 被引量：5
3陈文元,张卫平,周迪,范志荣.LIGA技术制造微齿轮中X光掩模板图形的CAD设计[J].微细加工技术,2000(1):66-70. 被引量：1
4李俊醅,庄子波.WRF模式在LINUX集群系统的并行计算与评测[J].计算机技术与发展,2012,22(7):5-8. 被引量：5
5陈玉清,陈林.基于校园网格的海洋数值模式研究[J].电子设计工程,2013,21(11):50-51.
6赵伟,宋振亚,乔方利,尹训强.基于非规则类矩形剖分的高效并行海浪数值模式[J].中国科学：地球科学,2014,44(5):1049-1058. 被引量：4
7ZHAO Wei,SONG ZhenYa,QIAO FangLi,YIN XunQiang.High efficient parallel numerical surface wave model based on an irregular quasi-rectangular domain decomposition scheme[J].Science China Earth Sciences,2014,57(8):1869-1878. 被引量：3
8刘泽栋,万修全,刘福凯.海底地热通量对海洋深层温度和环流的长期影响[J].地球科学进展,2014,29(10):1167-1174. 被引量：2
9唐彦丽,董文杰,李立娟,薛巍,王斌.CPL7及其在中国地球系统模式中的应用前景[J].地球科学进展,2015,30(5):620-625. 被引量：2
10陈璇,游小宝,李训强,郑崇伟.中尺度涡冷暖特征的理论推导[J].解放军理工大学学报（自然科学版）,2015,16(5):500-506. 被引量：1

同被引文献5

1王博,舒新峰,王小银,陈锐.自动代码生成技术的发展现状与趋势[J].西安邮电大学学报,2018,23(3):1-12. 被引量：17
2王博,华庆一,舒新峰.一种基于模型和模板融合的自动代码生成方法[J].现代电子技术,2019,42(22):69-74. 被引量：8
3韩琦琦,刘鑫,曾云辉,朱光慧.海洋数值模式运行管理系统的设计与实现[J].计算机应用与软件,2020,37(4):6-11. 被引量：3
4彭龙,陈俊仕,安虹.基于神威太湖之光的AMBER软件移植与优化[J].计算机工程,2020,46(12):12-20. 被引量：5
5黄秀丽,陈志.基于JSON的异构Web平台的设计与实现[J].计算机技术与发展,2021,31(3):120-125. 被引量：20

引证文献1

1刘加伟,郭强,庄园,张海红,王利,曾云辉.国产神威环境下Athread代码生成工具的设计与开发[J].计算机工程与设计,2024,45(2):633-640.

1玉冰冰.探析初中数学问题情境创设的有效策略[J].女人坊,2020,0(8):00181-00181.
2肖建新.每一片莲叶都是不易的[J].散文诗,2020,0(1):87-89.
3阎薇.市县国土空间规划分区的研究与探讨[J].华北自然资源,2020(4):112-113. 被引量：1
4宋智星.通过Power Shell批量安装补丁程序[J].网络安全和信息化,2020(8):97-99.
5郑仙峰.例析判断函数零点的四种方法[J].中学数学研究,2020(8):56-58.
6殷琪,张宇星,张安锐,张弦,王坤,徐世超,牛昊轩,董岱林.基于自组网技术的涉核环境人员安全系统研究[J].机械工程师,2020(7):41-42. 被引量：1
7徐挺,兰海,张宏江.静止轨道卫星通信链路的预算与分析[J].中国空间科学技术,2020,40(3):83-92. 被引量：12
8柴晓菲,刘松,屈彬,王倩,伍卫国.向量化友好的循环分块因子选择算法[J].计算机工程与应用,2020,56(15):37-42.
9赵胜男,周维维,潘海峰.基于指纹图谱结合抗氧化作用研究刺玫果汤剂质量[J].药物分析杂志,2020,40(6):1050-1057. 被引量：2
10冷令,吴伟斌,王琳.基于物联网的任务节点负载非对称匹配方法研究[J].数字技术与应用,2020,38(7):78-80.

计算机科学

2020年第8期

浏览历史

内容加载中请稍等...

大规模申威众核环境下二维数据计算的可扩展方法被引量：1

参考文献7

二级参考文献51

共引文献58

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

大规模申威众核环境下二维数据计算的可扩展方法 被引量：1

参考文献7

二级参考文献51

共引文献58

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

大规模申威众核环境下二维数据计算的可扩展方法被引量：1