GPU上高效Jacobi迭代算法的研究与实现被引量：2

Research and Implementation of Effective Jacobi Iteration Algorithms on GPU

下载PDF

导出

摘要 Jacobi迭代算法是一种求解偏微分方程组的常用循环运算.由于该算法存在语句间的数据相关,阻碍了其在图像处理单元(Graphic Processing Unit,GPU)等并行计算平台的高效实现.通过数学证明与实验验证,比较不同的循环优化策略,消除语句间数据相关,增强数据局部性,从而获得更高的执行性能.此外,利用块(Tile)大小选取模型,合理的划分计算数据,充分利用GPU的运算资源,进一步提高性能.实验结果表明,Jacobi奇偶复制算法比传统Jacobi并行算法在GPU上的性能提高4倍以上. Jacobi iteration method is an inherently iterative loop computation solving Partial Differential Equations. However, the pres- ence of data dependences in Jacobi loop nest poses an obstacle to its paralleled execution on the state-of-the-art parallel platform, Graphics Processing Unit （ GPU ）. Analysis of mathematic and experiment assist to compare various loop optimizing strategies, which eliminate data dependence, significantly enhance Jacobi algorithm＇s locality, utilize latency-free characteristic of shared memory, and largely exploit GPU＇s potential on accelerating Jacobi algorithm. Moreover, efficient tile size selection model helps to appropriately map computation to GPU and substantially utilize its computation resources for higher performance. Experimental result demonstrates the odd-even duplication algorithm has over four times higher speedups than traditional Jacobi parallel algorithm on GPU.

作者狄鹏胡长军李建江

机构地区北京科技大学计算机与通信工程学院中国石油

出处《小型微型计算机系统》 CSCD 北大核心 2012年第9期1962-1967,共6页 Journal of Chinese Computer Systems

基金教育部科学技术研究重点项目(108008)资助国家"八六三"高技术研究发展计划项目(2008AA01Z109)资助

关键词图像处理单元计算设备统一构架 Jacobi迭代算法循环优化 GPU CUDA Jacobi iteration method loop optimization

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Di P, Xue J. Model-driven tile size selection for DOACROSS loops on GPUs [ C ]. Proceedings of Euro-Par'11, 2011 : 1-12.
2Vasilache N, Bastoul C, Cohen A. Polyhedral code generation in the real world[ C]. Proceedings of CC'06, 2006 : 185-201.
3关治陈景良.数值计算方法[M].北京:清华大学出版社,2001..
4Song Y, Li Z. New tiling techniques to improve cache temporal locality[ C]. Proceedings of PLDI'99, 1999:215-228.
5Bondhugula UKR. Bondhugula UKR effective automatic parallelization and locality optimization using the polyhedral model[ D]. Columbus: Ohio State University ,2010.
6NVIDIA. CUDA C programming guide 3.2[EB/OL]. http://developer. download. nvidia. com/compute/cuda/3_2/toolkit/docs/ CUDA_C_Programming Guide. pdf, March, 2011.
7Huang Q, Xue J, Vera X. Code tiling for improving the cache performance of PDE solvers[ C]. Proceedings of ICPP'03,2003:615-625.
8Baskaran M M, Ramanujam J, Sadayappan P. Automatic C-to-CUDA code generation for affine [ C ]. Proceedings of CC' 10, 2010 : 185-201.
9Axelsson O, Lindskog G. Constant wavefront iteration methods for 9 and 15 point difference matrices[J]. Computing, 1991,46 (3) : 233 -252.
10蒋江,张民选,廖湘科.异构集群系统中一种基于资源的负载平衡算法的设计与模拟[J].小型微型计算机系统,2003,24(4):625-630. 被引量：4

二级参考文献17

1[1]Mitzenmacher M.The power of two choices in randomized load balancing[D]. PhD Thesis, University of California, Berkeley, 1996.
2[2]Barak A,and Braverman A. Memory ushering in a scalable computing cluster[J]. Journal of Microprocessors and Microsystems. August 1998.22(3-4): 175～182
3[3]Berman F, Wolski R, Figueira S, Schopf J, and Shao F. Application-level scheduling on distributed heterogeneous networks[J]. Proceedings of Supercomputing'96, November 1996.
4[4]Douglis F,and Ousterhout J. Transparent process migration: design alternatives and the sprite implementation[J]. Software - Practice and Experience. 1991.21(8):757～785
5[5]Raman R, Livny M, Solomon M. Matchmaking: distributed resource management for high throughput computing[D]. University of Wisconsin, Madison, 1998.
6[6]Harchol-Balter M, and Downey A B. Exploiting process lifetime distributions for dynamic load balancing[J]. ACM Transactions on Computer Systems. 1997.15(3):253～285
7[7]Zhang X, Qu Y, and Xiao L. Improving distributed workload performance by sharing both CPU and memory resources[C]. Proceedings of 20th International Conference on Distributed Computing Systems, (ICDCS'2000), Taipei, Taiwan, April 10-13, 2000.
8[8]Xiao L, Zhang X, and Qu Y. Effective load sharing on heterogeneous networks of workstation[C]. Proceedings of the 2000 International Parallel and Distributed Processing Symposium, (IPDPS'2000), Cancun, Mexico. May 1-5, 2000. 431～438
9[9]Zhou S. A trace-driven simulation study of load balancing[J]. IEEE Transactions on Software Engineering.1988. 14(9): 1327～1341
10[10]10. Neeracher M. Scheduling for heterogeneous opportunistic workstation clusters[D]. PhD Thesis. Swiss Federal Institute of Technology, 1998.

共引文献9

1赵丽萍.故障转移在数字图书馆服务器架构中的应用分析[J].图书与情报,2005(3):35-37. 被引量：2
2唐建国.LU分解与广义Schmidt正交化方法[J].大学数学,2005,21(4):95-99. 被引量：1
3王元珍,龚卫华.数据库异构集群的性能模型研究[J].计算机科学,2006,33(6):106-108. 被引量：3
4马文通,余南华,苏明.一种实时快速热力系统仿真方法的研究[J].计算机仿真,2006,23(7):87-89. 被引量：1
5唐建国.利用公式ζ(2)=π~2/6快速计算圆周率[J].大学数学,2006,22(4):122-126. 被引量：2
6唐建国.分形迭代a_(k+1)=a_k+a_k^2/n第n项的估计[J].数学的实践与认识,2006,36(9):309-316.
7唐智,李景文,王宝发.曲线合成孔径雷达迭代算法[J].北京航空航天大学学报,2007,33(8):882-885. 被引量：2
8李军,赵英杰,张会生.基于Simulink的空气涡轮特性仿真[J].发电设备,2008,22(2):101-105.
9李丙锋,祝永志,魏榕晖.异构Beowulf系统负载均衡技术的研究与实现[J].计算机技术与发展,2008,18(7):60-62. 被引量：4

同被引文献11

1Barry Wilkinson,Michael Allen. Parallel Programming[M].Beijing:China Machine Press,2005.
2张维儒,潘无名.基于MPI的并行计算实现Jacobi迭代[J].软件导刊,2008,7(9):16-17. 被引量：4
3杨庆芳,刘冬,杨兆升.基于MPI+OpenMP混合编程模型的城市路网最短路径并行算法[J].吉林大学学报（工学版）,2011,41(6):1581-1584. 被引量：11
4吴玫华.在GPU上实现Jacobi迭代法的分析与设计[J].电子设计工程,2012,20(10):28-30. 被引量：1
5许丽,周南,徐泳.基于MPI的二维稳态温度场的并行计算[J].计算机应用与软件,2012,29(11):52-55. 被引量：3
6严忻恺,郝子宇,吴东,谢向辉.MPI非阻塞广播算法及性能研究[J].计算机工程与科学,2013,35(9):20-26. 被引量：1
7卢可佩,祝永志.基于MPI的Jacobi迭代算法的并行化[J].电脑知识与技术,2014,0(11):7485-7487. 被引量：1
8王涛,卿鹏,魏迪,漆锋滨.基于聚类分析的进程拓扑映射优化[J].计算机学报,2015,38(5):1044-1055. 被引量：5
9贺雨晴,张楠,李云东.行列块不同划分机制下矩阵向量相乘的并行计算方法[J].电脑知识与技术（过刊）,2015,21(7X):164-167. 被引量：1
10张海龙,冶鑫晨,王杰,聂俊,陈龙飞,托乎提努尔,崔辰州,李长华,朱艳,张萌.新疆天文台Taurus高性能计算系统[J].天文研究与技术,2018,15(3):332-339. 被引量：2

引证文献2

1卢可佩,祝永志.基于MPI的Jacobi迭代算法的并行化[J].电脑知识与技术,2014,0(11):7485-7487. 被引量：1
2张海龙,张萌,王杰,冶鑫晨,王万琼,朱艳.基于MPI和Taurus高性能计算系统的Jacobi并行迭代算法[J].吉林大学学报（工学版）,2019,49(2):606-613. 被引量：3

二级引证文献4

1张海龙,张萌,王杰,冶鑫晨,王万琼,朱艳.基于MPI和Taurus高性能计算系统的Jacobi并行迭代算法[J].吉林大学学报（工学版）,2019,49(2):606-613. 被引量：3
2姜斌.高性能计算系统在大数据分析中的应用探究[J].电子元器件与信息技术,2021,5(2):201-202. 被引量：3
3李雪松,李子扬,朱家佳,窦帅,杨光,陈宾宾,李传荣.针对载荷/载荷舱监控的固定码率数据非阻塞模式实时解析与展示方法[J].计算机系统应用,2021,30(6):226-230.
4张才俊,于喻,吴杏平,唐文升,孙德艳.基于并行计算的系统运行日志采集方法研究[J].电子设计工程,2022,30(20):128-131. 被引量：1

1狄鹏,胡长军,李建江.一种高效直方图生成算法在GPU上的实现[J].计算机科学,2012,39(3):304-307. 被引量：2
2宋伟杰,崔俊芝,聂玉峰.三维无旋矢量场的一种新的可视化方法[J].工程图学学报,2010,31(4):109-115.
3王坤,刘天伟,杜芳芳,常琳.MATLAB在对图像进行边缘检测方面的作用[J].沈阳师范大学学报（自然科学版）,2005,23(2):161-165. 被引量：14
4程成.连续脉冲激光的计算机求解程序[J].杭州师范学院学报,1995,25(6):24-29. 被引量：1
5高晓燕.P2P网络节点间链路选取模型的蚁群算法设计与实现[J].微电子学与计算机,2013,30(9):62-65. 被引量：1
6王宏霞,张焕水,陈欣,俞立.具有状态依赖噪声的随机H_∞预演控制[J].哈尔滨工业大学学报,2014,46(7):101-106.
7芮兰兰,张洁,郭少勇,熊翱.基于样本加权的基因特征选取模型[J].北京邮电大学学报,2016,39(B06):72-75.
8施珂奕,邓春健,邹昆.基于OpenGL的三维模型点坐标拾取方法[J].液晶与显示,2016,31(7):708-713. 被引量：10
9姜璇,李永珍.基于哈希链的序列密码算法[J].延边大学学报（自然科学版）,2015,41(3):249-253.
10新建正则化参数选取模型有助低剂量CT的研制[J].传感器世界,2016,22(3):47-47.

小型微型计算机系统

2012年第9期

浏览历史

内容加载中请稍等...

GPU上高效Jacobi迭代算法的研究与实现被引量：2

参考文献11

二级参考文献17

共引文献9

同被引文献11

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

GPU上高效Jacobi迭代算法的研究与实现 被引量：2

参考文献11

二级参考文献17

共引文献9

同被引文献11

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

GPU上高效Jacobi迭代算法的研究与实现被引量：2