一种六边形循环分块的Jacobi计算优化方法

Hexagonal Loop Tiling for Jacobi Computation Optimization Method

下载PDF

导出

摘要 Jacobi计算是一种模板计算,在科学计算领域具有广泛的应用.围绕Jacobi计算的性能优化是一个经典的课题,其中循环分块是一种较有效的优化方法.现有的循环分块主要关注分块对并行通信和程序局部性的影响,缺少对负载均衡和向量化等其他因素的考虑.面向多核计算架构,分析比较不同分块方法,并选择一种先进的六边形分块作为加速Jacobi计算的主要方法.在分块大小选择上,综合考虑分块对程序向量化效率、局部性和计算核负载均衡等多方面的影响,提出一种六边形分块大小选择算法Hexagon_TSS.实验结果表明所提算法相对于原始串行程序计算方法,最好情况可将L1数据缓存失效率降低至其5.46%,最大加速比可达24.48,并且具有良好的可扩展性. Jacobi computation is a kind of stencil computation,which has been widely applied in the field of scientific computing.The performance optimization of Jacobi computation is a classic topic,where loop tiling is an effective optimization method.The existing loop tiling methods mainly focus on the impact of tiling on parallel communication and program locality and fail to consider other factors such as load balancing and vectorization.This study analyzes and compares several tiling methods based on multi-core computing architecture and chooses an advanced hexagonal tiling as the main method to accelerate Jacobi computation.For tile size selection,this study proposes a hexagonal tile size selection algorithm called Hexagon_TSS by comprehensively considering the impact of tiling on load balancing,vectorization efficiency,and locality.The experimental results show that the L1 data cache miss rate can be reduced to 5.46%of original serial program computation in the best case by Hexagon_TSS,and the maximum speedup reaches 24.48.The proposed method also has excellent scalability.

作者屈彬刘松张增源马洁伍卫国 QU Bin;LIU Song;ZHANG Zeng-Yuan;MA Jie;WU Wei-Guo(School of Computer Science and Technology,Xi’an Jiaotong University,Xi’an 710049,China)

机构地区西安交通大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2024年第8期3721-3738,共18页 Journal of Software

基金国家自然科学基金(62002279) 陕西省自然科学基础研究计划一般项目(青年)(2020JQ-077)。

关键词 Jacobi计算六边形分块方法分块大小选择性能优化多核架构 Jacobi computation hexagonal tiling method tile size selection performance optimization multi-core architecture

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1刘松,伍卫国,赵博,蒋庆.面向局部性和并行优化的循环分块技术[J].计算机研究与发展,2015,52(5):1160-1176. 被引量：10
2刘松,赵博,蒋庆,伍卫国.一种面向循环优化和非规则代码段的粗粒度半自动并行化方法[J].计算机学报,2017,40(9):2127-2147. 被引量：4
3刘慧,徐金龙,赵荣彩,姚金阳.学习模型指导的编译器优化顺序选择方法[J].计算机研究与发展,2019,56(9):2012-2026. 被引量：3
4狄鹏,胡长军,李建江.GPU上高效Jacobi迭代算法的研究与实现[J].小型微型计算机系统,2012,33(9):1962-1967. 被引量：3
5Song Liu,Yuan-Zhen Cui,Nian-Jun Zou,Wen-Hao Zhu,Dong Zhang,Wei-Guo Wu.Revisiting the Parallel Strategy for DOACROSS Loops[J].Journal of Computer Science & Technology,2019,34(2):456-475. 被引量：1
6赵捷,李颖颖,赵荣彩.基于多面体模型的编译“黑魔法”[J].软件学报,2018,29(8):2371-2396. 被引量：11

二级参考文献100

1关治陈景良.数值计算方法[M].北京:清华大学出版社,2001..
2NVIDIA. CUDA C programming guide 3.2[EB/OL]. http://developer. download. nvidia. com/compute/cuda/3_2/toolkit/docs/ CUDA_C_Programming Guide. pdf, March, 2011.
3Xue J. Aggressive loop fusion for improving locality and parallelism [ J ]. Parallel and Distributed Processing and Applications, 2005,3758 : 224 -238.
4Vasilache N, Bastoul C, Cohen A. Polyhedral code generation in the real world[ C]. Proceedings of CC'06, 2006 : 185-201.
5Baskaran M M, Ramanujam J, Sadayappan P. Automatic C-to-CUDA code generation for affine [ C ]. Proceedings of CC' 10, 2010 : 185-201.
6Bondhugula UKR. Bondhugula UKR effective automatic parallelization and locality optimization using the polyhedral model[ D]. Columbus: Ohio State University ,2010.
7Huang Q, Xue J, Vera X. Code tiling for improving the cache performance of PDE solvers[ C]. Proceedings of ICPP'03,2003:615-625.
8Axelsson O, Lindskog G. Constant wavefront iteration methods for 9 and 15 point difference matrices[J]. Computing, 1991,46 (3) : 233 -252.
9Song Y, Li Z. New tiling techniques to improve cache temporal locality[ C]. Proceedings of PLDI'99, 1999:215-228.
10Di P, Xue J. Model-driven tile size selection for DOACROSS loops on GPUs [ C ]. Proceedings of Euro-Par'11, 2011 : 1-12.

共引文献24

1卢可佩,祝永志.基于MPI的Jacobi迭代算法的并行化[J].电脑知识与技术,2014,0(11):7485-7487. 被引量：1
2董鑫,张一.基于符号执行的C程序单元测试的实现[J].电子技术与软件工程,2017(13):247-247.
3刘松,赵博,蒋庆,伍卫国.一种面向循环优化和非规则代码段的粗粒度半自动并行化方法[J].计算机学报,2017,40(9):2127-2147. 被引量：4
4张海龙,张萌,王杰,冶鑫晨,王万琼,朱艳.基于MPI和Taurus高性能计算系统的Jacobi并行迭代算法[J].吉林大学学报（工学版）,2019,49(2):606-613. 被引量：3
5骆亮.多核平台两级抢占式固定优先级DAG递归调度[J].微电子学与计算机,2020,37(4):70-75. 被引量：1
6李颖颖,赵捷,庞建民.多面体模型中分裂分块算法的设计与实现[J].计算机学报,2020,43(6):1010-1023. 被引量：2
7崔元桢,刘松,王倩,伍卫国.格子玻尔兹曼方法计算程序的循环优化技术研究[J].计算机学报,2020,43(6):1086-1102.
8薛亚非,冯钧.基于时隙堆栈搜索的异构集群DAG调度策略[J].计算机工程与设计,2020,41(6):1725-1732.
9柴晓菲,刘松,屈彬,王倩,伍卫国.向量化友好的循环分块因子选择算法[J].计算机工程与应用,2020,56(15):37-42.
10池昊宇,陈长波.基于神经网络的循环分块大小预测[J].计算机科学,2020,47(8):62-70. 被引量：7

1仰梓淮,黄海鸿,刘贺,刘赟,李新宇,刘志峰.基于颜色直方图的电路板表面缺陷检测[J].计算机集成制造系统,2024,30(7):2296-2305.
2李金熹,尹首一,魏少军,胡杨.基于MLIR的数据流模型[J].计算机工程与科学,2024,46(7):1151-1157.
3黄聪祎,赵伟文,万德成.国产DCU加速卡与MPS方法结合高效模拟带障碍物溃坝流动问题[J].水动力学研究与进展（A辑）,2024,39(2):187-195.
4何佳.环境信息实时感知的图书馆搬运机器人自动化控制系统[J].计算机测量与控制,2024,32(7):181-188.
5赵天烽,文峰,冯变霞,武保剑,许渤,邱昆.面向模分复用系统的遗传-MIMO均衡参数优化技术[J].电子学报,2024,52(5):1601-1608.
6林树青,叶丽珠.多端口并行通信下多维度数据高速采集仿真[J].计算机仿真,2024,41(6):520-524.
7石炜,杨晶安,张显宇,赵岩.列车轴承表面缺陷图像的边缘检测研究[J].机械工程师,2024(8):8-12.
8张彦杰,于程豪,张超,李旭东,闫鹏.钢筋数量在线检测中最优模板匹配算法的研究[J].制造业自动化,2024,46(7):13-18.
9周岩,刘志丹,李烁涵.虚拟多输入多输出无线电能与信息同步传输技术[J].电工技术学报,2024,39(14):4282-4293.
10毛润彰,杜皓,田鸿运,黄思路,张鹏,徐小文.几类典型应用的代数多重网格算法并行可扩展瓶颈分析[J].计算物理,2024,41(4):403-417.

软件学报

2024年第8期

浏览历史

内容加载中请稍等...

一种六边形循环分块的Jacobi计算优化方法

参考文献6

二级参考文献100

共引文献24

相关作者

相关机构

相关主题

浏览历史