面向GPU存储优化的程序重构方法被引量：4

GPU Memory Optimization Through Program Restructuring Methods

下载PDF

导出

摘要图形处理器(GPU)的高性价比吸引了越来越多的科学计算.和图形应用相比,科学计算程序存在纷杂的数据依赖和不规则访问,影响其在GPU上的执行性能.为此,提出一种面向GPU体系结构的程序重构方法.通过计算重构增大程序的可并行性和计算密集性,改善GPU上计算资源的利用率.通过数据重构消除程序中的不规则数据访问,使用向量数据类型提高程序的存储带宽.实验结果表明:文中提出的优化方法减少了程序在GPU上的执行时间,获得了1.17～8.91倍的加速比. Graphic processing units attract more and more scientific computing due to their high performance/cost ratio.Compared to the graphical applications,there are complex data dependences and irregular data access patterns in scientific computing programs.Therefore,we propose GPU-oriented program restructuring methods.By computation restructuring,we enhance the parallelism and the compute intensity of the programs,improving the ALU resources utilization on GPU.By data restructuring,we eliminate the irregular data access patterns,using vector data type to improve the available memory bandwidth of the programs.Experimental results show that the proposed optimization methods can decrease the execution time of the scientific computing programs on GPU and achieve 1.17～8.91 times speedup.

作者陈钢李国波吴百锋

机构地区复旦大学计算机科学技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2011年第10期1921-1927,共7页 Journal of Chinese Computer Systems

基金上海市重点学科建设基金项目(B114)资助 AMD大学合作计划基金资助

关键词 GPU 科学计算程序计算重构数据重构存储优化向量数据类型 GPU scientific computing programs computation restructuring data restructuring memory optimization vector data type

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227

二级参考文献57

1Clark James H.The geometry engine:A VLSI geometry system for graphics[A].In:Computer Graphics Proceedings,Annual Conference Series,ACM SIGGRAPH,Boston,1982.127～133
2Fuchs Herry,Poulton John.Pixel-planes:A VLSI-Oriented design for a raster graphics engine[J].VLSI Design,1981,2(3):20～28
3Eyles John,Austin John,Fuchs Henry,et al.Pixel-plane 4:A summary,advances in computer graphics hardware II[A].Eurographic Seminars Tutorials and Perspectives in Computer Graphics,New York:Springer-Verlag,1988.183～208
4Fuchs Herry,Israel Laura,Poulton John,et al.Pixel-planes 5:A heterogeneous multiprocessor graphics system using processor-enhanced memories[A].In:Computer Graphics Proceedings,Annual Conference Series,ACM SIGGRAPH,Boston,1989.79～88
5http://www.nvidia.com/object/gpu.html[OL]
6http://developer.nvidia.com/[OL]
7http://www.ati.com/developer/[OL]
8http://www.gpgpu.org[OL]
9Joo Luiz Dihl Comba,Dietrich Carlos A,Pagot Christian A,et al.Computation on GPUs:From a programmable pipeline to an efficient stream processor[J].Revista de Informática Teóricae Aplicada,2003,X(2):41～70
10Krüger Jens,Westermann Rüdiger.Linear algebra operators for GPU implementation of numerical algorithms[J].ACM Transactions on Graphics,2003,22(3):908～916

共引文献226

1何红英,尉朝闻.基于逆滤波法的图像复原技术研究[J].西安文理学院学报（自然科学版）,2009,12(3):92-95. 被引量：1
2吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
3张杨,诸昌钤,何太军.图形硬件通用计算技术的应用研究[J].计算机应用,2005,25(9):2192-2195. 被引量：6
4梁亮,张定华,毛海鹏,顾娟.一种基于可编程图形硬件的快速三维图像重建算法[J].计算机应用研究,2006,23(1):241-243. 被引量：5
5柳有权,刘学慧,吴恩华.基于GPU带有复杂边界的三维实时流体模拟[J].软件学报,2006,17(3):568-576. 被引量：54
6郝立巍,陈武凡.医学三维动态超声实时体绘制[J].南方医科大学学报,2006,26(3):275-278. 被引量：1
7李笑盈,吴恩华.过程性纹理映射的FPGA动态生成[J].计算机辅助设计与图形学学报,2006,18(5):630-637. 被引量：1
8张庆丹,戴正华,冯圣中,孙凝晖.基于GPU的串匹配算法研究[J].计算机应用,2006,26(7):1735-1737. 被引量：15
9李宏海,肖建海.CPU+GPU技术在非编系统中的应用[J].现代电视技术,2006(6):82-85. 被引量：4
10孔渊,陆虎敏,周坚锋,郭凡.计算机图形系统发展简述[J].航空电子技术,2006,37(2):10-14. 被引量：2

同被引文献20

1周海芳,赵进.基于GPU的遥感图像配准并行程序设计与存储优化[J].计算机研究与发展,2012,49(S1):281-286. 被引量：18
2吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
3Hung Che-Lun, Lin Yaw-Ling, Li Kuan-Ching, et al. Ef-ficient GPGPU-based parallel packet classification [ C ]// 2011 IEEE 10th International Conference on Trust, Securi- ty and Privacy in Computing and Communications. 2011 : 1367-1374.
4Alastair Nottingham, Barry Irwin. GPU packet classifica- tion using OpenCL: A consideration of viable classification methods[ C ]// Proceedings of the 2009 Annual Research Conference of the South African Institute of Computer Sci- entists and Information Technologists. 2009:160-169.
5Alastair Nottingham, Barry Irwin. Parallel packet classifi- cation using GPU co-processors [ C ].// Proceedings of the 2010 Annual Research Conference of the South African In- stitute of Computer Scientists and Information Technolo- gists. 2010:231-241.
6Sangjin Han, Keon Jang, KyongSoo Park, et al. Packet- Shader : A GPU-accelerated software router[ C ]//Proceed- ing of the ACM SIGCOMM 2010 Conference. 2010: 195- 206.
7Kang Kang, Yangdong Steve Deng. Scalable packet classi- fication via GPU metaprogramming[ C ]//Design, Automa- tion & Test in Europe Conference & Exhibition. 2011:1-4.
8Shane Ryoo, Christopher I Rodrigues, Sam S Stone, et al. Program optimization space pruning for a multithreaded GPU[ C]//Proceedings of the 6th Annual IEEE/ACM In- ternational Symposium on Code Generation and Optimiza- tion. 2008 : 195-204.
9刘胤,杨世平.基于RFC算法的快速多维数据包分类算法[J].计算机工程,2008,34(6):95-97. 被引量：8
10左颢睿,张启衡,徐勇,赵汝进.基于GPU的并行优化技术[J].计算机应用研究,2009,26(11):4115-4118. 被引量：23

引证文献4

1张珂良,李佳佳,陈钢,吴百锋.奇偶合并排序的数据级并行实现[J].小型微型计算机系统,2012,33(6):1343-1349.
2朱俊峰,陈钢,张珂良,吴百锋.面向OpenCL架构的GPGPU量化性能模型[J].小型微型计算机系统,2013,34(5):1118-1125. 被引量：3
3肖汉,马歌,周清雷.面向OpenCL架构的Harris角点检测算法[J].计算机科学,2014,41(7):306-309. 被引量：7
4张唯唯,张玉洁.基于GPU的并行报文分类方法[J].计算机与现代化,2014(11):9-14. 被引量：3

二级引证文献13

1何欣荣,张刚,董建园.基于差分形态分解的多尺度Harris角点检测器[J].应用科技,2014,41(6):45-49.
2韩哲欣,谷国太,肖汉.量子计算机的研究与应用[J].河南科学,2015,33(9):1559-1563. 被引量：5
3许川佩,王光.基于OpenCL的尺度不变特征变换算法的并行设计与实现[J].计算机应用,2016,36(7):1801-1806. 被引量：3
4裴浩,游小荣,牛欣伟.矿山三维空间数据距离直方图算法优化及加速[J].工矿自动化,2017,43(2):55-60. 被引量：2
5李廷凯,龚俊,赖文娟.探究以GPGPU为基础的数字图像并行化预处理[J].信息通信,2018,0(1):8-9.
6伍明川,黄磊,刘颖,何先波,冯晓兵.面向神威·太湖之光的国产异构众核处理器OpenCL编译系统[J].计算机学报,2018,41(10):2236-2250. 被引量：7
7马城城,田泽,黎小玉,孙琳娜.统一渲染架构GPU图形处理量化性能模型研究[J].电子技术应用,2019,45(2):27-32. 被引量：3
8于梦华,王双亭,李英成,朱祥娥,刘晓龙.畸变差改正算法OpenCL并行加速研究[J].遥感信息,2019,34(3):88-92. 被引量：4
9郑秋梅,曹宝琴,张萌萌,王风华,金萧.基于Harris特征区域的DC系数自适应水印算法[J].计算机与数字工程,2019,47(11):2884-2889. 被引量：1
10唐志斌,曾学文,陈晓.基于维度分解的多核并行网包分类算法[J].计算机与现代化,2020,0(2):1-7.

1卢可佩,祝永志.基于MPI的Jacobi迭代算法的并行化[J].电脑知识与技术,2014,0(11):7485-7487. 被引量：1
2索津莉,刘烨斌,季向阳,戴琼海.计算摄像学：核心、方法与应用[J].自动化学报,2015,41(4):669-685. 被引量：6
3王润民,钱盛友,宋平,许慧燕.基于小波包和Zernike矩特征提取的车牌字符识别[J].计算机工程与应用,2007,43(14):210-212. 被引量：4
4庞俊,于戈,许嘉,谷峪.基于MapReduce框架的海量数据相似性连接研究进展[J].计算机科学,2015,42(1):1-5. 被引量：16
5刘广强,于欣,舒振宇,余心杰.基于稀疏表示的枸杞分类研究[J].中国农机化学报,2016,37(3):250-254. 被引量：1
6徐茵,王晓蕊,郝劲波,张建奇.高分辨率计算集成成像自由视点光场重构方法[J].西安电子科技大学学报,2013,40(1):81-86. 被引量：3
7张付志,张启凤.一种改进的基于流形对齐的协同过滤算法[J].模式识别与人工智能,2009,22(4):614-618.
8王宇,陈殿仁,朴燕,陈玉群.利用匹配区域的纹理特征改善重构三维图像的视觉质量[J].光子学报,2009,38(10):2717-2721. 被引量：1
9范广飞,陈林森,魏国军,顾新宇.基于衍射追迹的集成成像重构算法[J].光学学报,2016,36(5):68-72. 被引量：6
10陈钢,韦刚,李国波,裴颂文,吴百锋.面向OpenCL架构的大规模生物序列比对[J].小型微型计算机系统,2012,33(2):392-398. 被引量：2

小型微型计算机系统

2011年第10期

浏览历史

内容加载中请稍等...

面向GPU存储优化的程序重构方法被引量：4

参考文献1

二级参考文献57

共引文献226

同被引文献20

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

面向GPU存储优化的程序重构方法 被引量：4

参考文献1

二级参考文献57

共引文献226

同被引文献20

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

面向GPU存储优化的程序重构方法被引量：4