基于GPU的并行优化技术被引量：23

Parallel optimize technology based on GPU

下载PDF

导出

摘要针对标准并行算法难以在图形处理器(GPU)上高效运行的问题,以累加和算法为例,基于Nvidia公司统一计算设备架构(CUDA)GPU介绍了指令优化、共享缓存冲突避免、解循环优化和线程过载优化四种优化方法。实验结果表明,并行优化能有效提高算法在GPU上的执行效率,优化后累加和算法的运算速度相比标准并行算法提高了约34倍,相比CPU串行实现提高了约70倍。 Standard parallel algorithm cannot work efficiently on GPU. This paper took reduction algorithm for example, introduced four parallel optima methods for NVIDIA＇ s graphics processor unit （GPU） which supported CUDA architecture. These methods included instruction optimize and shared memory conflict avoid and loop unroll and threads overload optimize. The experiment result shows that： parallel optimize can significantly speed up the GPU compute speed. The optimized reduction algorithm is 34 times faster than standard parallel algorithm and 70 times than CPU-based implementation.

作者左颢睿张启衡徐勇赵汝进

机构地区中国科学院光电技术研究所中国科学院研究生院

出处《计算机应用研究》 CSCD 北大核心 2009年第11期4115-4118,共4页 Application Research of Computers

基金国家"863"高技术(保密)资助项目

关键词图形处理器并行优化累加和统一计算设备架构 graphics processor unit（GPU） parallel optimize reduction compute unified device architecture（CUDA）

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1NVIDIA. NVIDIA CUDA programming guide version 1.1 [ EB/OL]. (2007-01). http://www. nvidia. com/object/cuda_home, html.
2HARADA T. Real-time rigid body simulation on GPUs [ M ]. [ S. l. ] : Addison Wesley Professional, 2007:611- 632.
3NYLAND L, HARRIS M, PRINS J. Fast N-body simulation with CU- DA [ M ]. [ S. l. ] : Addison Wesley Professional, 2007:677- 696.
4PODLOZHNYUK V, HARRIS M. Monte-Carlo option pricing[ EB/ OL]. (2007-11-21 ). http://www. nvidia. com/object/cuda_horne. html.
5PODLOZHNYUK V. Black-scholes option pricing[ EB/OL]. (2007- 04-06). http://www. nvidia. com/object/euda_home. html.
6DESCHIZEAUX B, BLANC J Y. Imaging earth' s subsurface using CUDA [ M ]. [ S. l. ] : Addison Wesley Professional, 2007:831 - 850.
7HARISH P, NARAYANAN P J. Accelerating large graph algorithms on the GPU using CUDA[ C ]//Proc of IEEE International Conference on High Performance Computing. 2007 : 197- 208.
8SHAMS R, BARNES N. Speeding up mutual information computation using NVIDIA CUDA hardware [ C ]//Proe of Digital Image Computing: Techniques and Applications. Adelaide, Australia: [ s. n. ], 2007:555- 560.
9SHAMS R, KENNEDY R A. Efficient histogram algorithms for NVIDIA CUDA compatible devices [ C ]//Proc of International Conference on Signal Processing and Communications Systems, 2007: 418- 422.
10HARRIS M. Optimizing parallel reduction in CUDA [ EB/OL]. (2007-11 ). http ://www. nvidia. com/object/cuda home. html.

同被引文献280

1岳中琦,李焯芬,罗锦添,谭国焕,菅原纯.香港大学钻孔过程数字监测仪在土钉加固斜坡工程中的应用[J].岩石力学与工程学报,2002,21(11):1685-1690. 被引量：21
2周海芳,赵进.基于GPU的遥感图像配准并行程序设计与存储优化[J].计算机研究与发展,2012,49(S1):281-286. 被引量：18
3董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
4吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
5吴仲乐,王遵亮,罗立民.基于GPU的快速Level Set图像分割[J].中国图象图形学报（A辑）,2004,9(6):679-683. 被引量：8
6吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
7张剑清,张勇,郑顺义,张宏伟.高分辨率遥感影像的精纠正[J].武汉大学学报（信息科学版）,2004,29(11):994-998. 被引量：26
8武新宇,程春田,赵鸣雁.基于并行遗传算法的新安江模型参数优化率定方法[J].水利学报,2004,35(11):85-90. 被引量：46
9辛茜,曾晓洋,张国权,郭亚炜.真随机数发生器的系统建模与仿真[J].系统仿真学报,2005,17(1):53-56. 被引量：10
10李苍松,何发亮,丁建芳.武隆隧道岩溶地质超前预报综合技术[J].水文地质工程地质,2005,32(2):96-100. 被引量：39

引证文献23

1倪风岳,曾理,刘玲慧.CUDA加速工业DR图像分割[J].计算机应用研究,2011,28(4):1560-1562. 被引量：2
2杨靖宇,张永生,李正国,龚辉.遥感影像正射纠正的GPU-CPU协同处理研究[J].武汉大学学报（信息科学版）,2011,36(9):1043-1046. 被引量：29
3张庆科,杨波,王琳,朱福祥.基于GPU的现代并行优化算法[J].计算机科学,2012,39(4):304-310. 被引量：27
4宋慎义,王彦棡,刘冰,陆忠华.基于GPU的非结构网格CFD求解器的设计与优化[J].科研信息化技术与应用,2012,3(1):30-38. 被引量：1
5苑玮琦,王斌.基于C6000的数据存储处理编程优化方法[J].计算机工程,2012,38(17):276-279.
6郭海凤.基于CUDA平台的伪随机数产生器系统研究[J].计算机技术与发展,2013,23(2):115-118. 被引量：1
7李洪奇,赵阳阳,朱丽萍.声波测井极端扩径校正算法在CUDA平台上的实现[J].国外测井技术,2013(1):7-10.
8王文浩,邬春学.基于GPU的B-S模型下改进的Crank Nicolson算法[J].上海理工大学学报,2013,35(2):147-151.
9蔡勇,李光耀,王琥.基于CUDA的并行粒子群优化算法的设计与实现[J].计算机应用研究,2013,30(8):2415-2418. 被引量：17
10许亮,王震.基于CUDA的快速大整数乘法[J].计算机工程与应用,2013,49(16):221-224. 被引量：3

二级引证文献115

1党源源,王昕.CPU-GPU异构系统在光学遥感影像处理中的应用[J].红外与激光工程,2020(S01):177-185. 被引量：6
2田雨波,陈风.基于显卡的微带天线谐振频率神经网络建模[J].电波科学学报,2015,30(1):71-77.
3岳俊,邹进贵,何豫航.基于CPU与GPU/CUDA的数字图像处理程序的性能比较[J].地理空间信息,2012,10(4):45-47. 被引量：4
4孙文,尤红建,傅兴玉,王峰.SAR图像几何精校正的OpenMP-GPU协同处理实现[J].科学技术与工程,2013,21(14):4045-4049.
5秦华,周沫,察豪,左炜.软件雷达信号处理的多GPU并行技术[J].西安电子科技大学学报,2013,40(3):145-151. 被引量：18
6秦华,周沫,察豪,沈括.基于GPU加速的雷达信号处理并行技术[J].舰船科学技术,2013(7):77-82. 被引量：11
7许亮,王震.基于CUDA的快速大整数乘法[J].计算机工程与应用,2013,49(16):221-224. 被引量：3
8邹航,王华秋,黄勇.基于GPU加速的彩虹表分析MD5哈希密码[J].重庆理工大学学报（自然科学）,2013,27(7):61-66. 被引量：2
9马韬,陈明生,吴先良,刘艺,齐琪.基于GPU加速的高阶矩量法研究与应用[J].微波学报,2013,29(4):34-37. 被引量：2
10方留杨,王密,李德仁.CPU和GPU协同处理的光学卫星遥感影像正射校正方法[J].测绘学报,2013,42(5):668-675. 被引量：34

1沈勤华.可扩展的自动并行化编译系统[J].计算机工程,2009,35(8):94-96.
2普及真6核 AMD Phenom Ⅱ×6 1090T详细测试[J].现代计算机（中旬刊）,2010(6):49-57.
3朱颖.多核处理器平台上使用OpenMP[J].软件导刊,2010,9(12):5-6.
4杨勇,姚益平,梁洪波.基于多核集群的RTI并行优化技术[J].系统仿真学报,2012,24(9):1785-1789. 被引量：2
5张军,刘羽,卢奉良.蚁群算法解决TSP问题的并行化研究与实现[J].计算机技术与发展,2011,21(5):72-74. 被引量：7
6夏卫雷,王立松.基于MapReduce的并行蚁群算法研究与实现[J].电子科技,2013,26(2):146-149. 被引量：9
7秦江波,李卫忠.多核处理器平台上使用OpenMP编译指令优化n皇后算法[J].航空计算技术,2009,39(3):92-94. 被引量：3
8刘晓亮,马树元,吴平东,梁振士.三坐标测量机的自主运动研究[J].计算机工程与应用,2003,39(13):22-24.
9邹永宁,刘宝东.基于集群并行及指令优化的FDK重建算法[J].计算机工程,2009,35(8):10-12. 被引量：1
10刘新宁,王超,胡晨,蔡洪亮.一种快速CRC算法的硬件实现方法[J].电子器件,2003,26(1):88-91. 被引量：17

计算机应用研究

2009年第11期

浏览历史

内容加载中请稍等...

基于GPU的并行优化技术被引量：23

参考文献11

同被引文献280

引证文献23

二级引证文献115

相关作者

相关机构

相关主题

浏览历史

基于GPU的并行优化技术 被引量：23

参考文献11

同被引文献280

引证文献23

二级引证文献115

相关作者

相关机构

相关主题

浏览历史

基于GPU的并行优化技术被引量：23