一种基于并行度分析模型的GPU功耗优化技术被引量：13

A GPU Low-Power Optimization Based on Parallelism Analysis Model

下载PDF

导出

摘要随着硬件功能的不断丰富和软件开发环境的逐渐成熟,GPU开始被应用于通用计算领域,协助CPU加速程序的运行.为了追求高性能,GPU往往包含成百上千个核心运算单元.高密度的计算资源,使得其在性能远高于CPU的同时功耗也高于CPU.功耗问题已经成为制约GPU发展的重要问题之一.DVFS技术被广泛应用于处理器的低功耗优化,而对GPU进行相应研究的前提是对其程序运行过程进行分析和建模,从而可以根据应用程序的特征来确定优化策略.此外,GPU主要由图形处理器芯片和片外的DRAM组成,有研究指出针对这类系统的功耗优化应当综合考虑处理器和存储器,使二者可以互相协调以达到更好的优化效果.文中在一个已有的基于程序并行度分析的GPU性能模型的基础上,综合考虑计算部件与存储部件的功耗,建立了性能约束条件下的GPU功耗优化模型.对于给定的程序,在满足性能约束的前提下,以功耗最优为目标分别给出处理器和存储器的DVFS优化策略.作者选取了9个测试用例在3种模拟平台上进行了实验验证,结果表明文中的方法可以在满足性能约束条件10%的误差范围内获得最优的GPU能量消耗. With the continues development of hardware and software,GPU has been used in general purpose computation field,accelerating applications for CPU.To achieve high computing performance,GPU typically includes hundreds of computing units.The high density of computing resource on chip brings in high power consumption as well as high performance.The power consumption problem has become one of the most important problems for the development of GPU.The DVFS technique is widely used to optimize power consumption for processors.However,applying the DVFS technique to GPU depends on the analysis of program execution on GPU,so that optimization strategy can be chosen according to the program feature.Besides,GPU is comprised of a processor chip and an off-chip DRAM system.Some previous researches point out that the power consumption optimization for such a system should involve both the processor and the DRAM,to achieve better optimization effect.Based on an existing GPU analytical model,this paper proposes a GPU power optimization model under performance restriction,involving both the processor and the DRAM on GPU.For a given program,the model gives the DVFS strategies for the processor and the DRAM respectively with an appointed performance restriction.The authors choose nine test cases to evaluate the model on three simulated GPU platforms.The experimental results show that the model can achieve optimal energy consumption while the performance deviation from the restriction is less than 10%.

作者林一松杨学军唐滔王桂彬徐新海

机构地区国防科学技术大学并行与分布处理国家重点实验室

出处《计算机学报》 EI CSCD 北大核心 2011年第4期705-716,共12页 Chinese Journal of Computers

基金国家自然科学基金(90620162)资助

关键词 GPU 并行度模型功耗模型功耗优化 GPU parallelism model power model low power optimization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献20

1http://ati, amd. com/technology/streamcomputing/product_ FireStream_9250. html.
2Luebke D, Harris M, Govindaraju N, Lelohn A, HoustonM, Owens J, Segal M, Papakipos M, Buck I. GPGPU General-purpose computation on graphics hardware//Pro ceedings of the 2006 ACM/IEEE Conference on Supercom puting(SC'06). Tampa, Florida, 2006.
3Fan Xiaobo, Ellis Carla S, Lebeck Alvin R. The synergy be-tween power aware memory systems and processor voltage scaling//Proceedings of the Workshop on Power-AwareComputer Systems ( PACS-03 ). New York, NY, USA, 2003: 164-179.
4Hong S, Kim H. An analytical model for a GPU architecturewith memory-level and thread-level parallelism awareness// Proceedings of the 36th Annual International Symposium onComputer Architecture (ISCA'09). Austin, TX, USA, 2009:152-163.
5NVIDIA Corporation. CUDA Programming Guide, Version 2.1.
6Burd T, Brodersen R. Design issues for dynamic voltagescaling//Proceedings of the 2000 International Symposium on Low Power Electronics and Design (ISLPED' 00). Rapallo, Italy, 2000:9-14.
7Bakhoda Ali, Yuan George, Fung Wilson W L, Wong Henry, Aamodt "For M. Analyzing CUDA workloads using adetailed GPU simulator//Proceedings of the IEEE Interna tional Symposium on Performance Analysis of Systems and Software (ISPASS). Boston, MA, 2009:163-174.
8Brooks D, Tiwari V, Martonosi M. Wattch: A framework for architectural-level power analysis and optimizations//Proceedings of lhe 271h International Symposium on Computer Architecture ( ISCA ). Vancouver, British Columbia, Canada, 2000; 83-94.
9Ramani K, Ibrahim A, Shimizu D. PowerRed.- A flexible modeling framework for power efficiency exploration inGPUs//Proceedings of the Workshop on General Purpose Processing on Graphics Processing Units. New York, NY, USA, 2007:185-192.
10Simunic T, Benini L, De Micheli G. Cycle accurate simulation of energy consumption in embedded systems//Proceed- ings of the 36th Annual ACM/IEEE Design Automation Con ference(DAC). Atlanta, Georgia, 1999:867-872.

同被引文献240

1杨巧,吴晓波,赵梦恋,徐建.流水线模数转换器系统功耗建模与优化方法[J].浙江大学学报（理学版）,2012,39(2):171-176. 被引量：1
2吴恩华,柳有权.基于图形处理器(GPU)的通用计算[J].计算机辅助设计与图形学学报,2004,16(5):601-612. 被引量：227
3吴恩华.图形处理器用于通用计算的技术、现状及其挑战[J].软件学报,2004,15(10):1493-1504. 被引量：141
4魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39-41. 被引量：18
5简大圣,李曦,王爱峰,雷霆.基于动态电压调节技术的系统功耗优化[J].计算机工程,2006,32(1):248-250. 被引量：2
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
7张戈,胡伟武.高性能通用处理器中的漏电功耗优化[J].计算机学报,2006,29(10):1764-1771. 被引量：2
8杨正龙,金林,李蔚清.基于GPU的图形电磁计算加速算法[J].电子学报,2007,35(6):1056-1060. 被引量：14
9都志辉．MPI并行程序设计[M]．北京：清华大学出版社，2001
10Yang Xue-Jun, Yan Xiao-Bo, Xing Zuo-Cheng, Deng Yu,Jiang Jiang, Du Jing, Zhang Ying. Fei teng 64 stream pro-cessing system:Architecture,compiler, and programming.IEEE Transactions on Parallel and Distributed Systems,2009,20(8):1142-115.

引证文献13

1王海峰,陈庆奎.图形处理器通用计算关键技术研究综述[J].计算机学报,2013,36(4):757-772. 被引量：28
2王海峰,陈庆奎.静态程序切片的GPU通用计算功耗预测模型[J].软件学报,2013,24(8):1746-1760. 被引量：6
3王卓薇,程良伦,赵武清.一种基于GPU的并行算法功耗评估方法[J].计算机科学,2013,40(11):23-28.
4章铁飞,陈天洲,吴剑钟.基于程序访存模式的低功耗存储技术[J].软件学报,2014,25(2):254-266. 被引量：6
5孙景昊,邓庆绪,孟亚坤.GPU上两阶段负载调度问题的建模与近似算法[J].软件学报,2014,25(2):298-313. 被引量：7
6李杰,陈庆奎.基于蓝牙4.0的GPU集群功耗测量系统设计[J].电子测量与仪器学报,2014,28(3):314-319. 被引量：8
7王海,高岭,宋振孝,戴小平,卢怡杰.基于GINI指数分类的嵌入式CPU功耗预测方法[J].计算机学报,2015,38(2):397-407. 被引量：2
8邱夏珉.大数据CPU集群的实时功耗测量研究[J].信息与电脑,2015,27(9):46-47.
9王海峰,曹云鹏.GPU集群能耗优化控制模型研究[J].电子学报,2015,43(10):1904-1910. 被引量：3
10侯景德,陈庆奎,赵海燕.基于MPI的GPU集群并行通信系统实现[J].计算机应用与软件,2016,33(4):116-121. 被引量：3

二级引证文献67

1陈鸿海,孙学良,赵鹤鸣,邵雷.高增益蓝牙天线的设计与应用[J].仪器仪表学报,2021,42(2):197-206. 被引量：11
2屈宜丽,蓝才会,任志国.CPU/GPU异构并行系统研究综述[J].自动化与仪器仪表,2016(4):25-26. 被引量：6
3李杰,陈庆奎.基于蓝牙4.0的GPU集群功耗测量系统设计[J].电子测量与仪器学报,2014,28(3):314-319. 被引量：8
4杨志文,程志平.嵌入式Quartz混合调度的多处理器平台任务分配设计[J].科技通报,2014,30(6):100-102. 被引量：2
5夏际金,丁泉,王蓉.多级并行的多核DSP软件设计[J].雷达科学与技术,2014,12(4):368-372. 被引量：5
6王海峰,陈庆奎.多指标自趋优的GPU集群能耗控制模型[J].计算机研究与发展,2015,52(1):105-115. 被引量：8
7余莹,李肯立,郑光勇.一种基于GPU集群的深度优先并行算法设计与实现[J].计算机科学,2015,42(1):82-85. 被引量：6
8刘光敏,陈庆奎,王海峰.海量数据流的提升小波变换并行算法研究[J].小型微型计算机系统,2015,36(2):343-348. 被引量：2
9熊永华,张因升,陈鑫,吴敏.云视频监控系统的能耗优化研究[J].软件学报,2015,26(3):680-698. 被引量：22
10巨涛,朱正东,董小社.异构众核系统及其编程模型与性能优化技术研究综述[J].电子学报,2015,43(1):111-119. 被引量：13

1蒋敬旗,李文,周旭,范东睿.可测试性设计中的功耗优化技术[J].贵州工业大学学报（自然科学版）,2002,31(4):1-7. 被引量：2
2封蕾.嵌入式linux系统功耗优化技术综述[J].榆林学院学报,2011,21(6):33-36. 被引量：1
3张骏,樊晓桠,刘松鹤.多核、多线程处理器的低功耗设计技术研究[J].计算机科学,2007,34(10):301-305. 被引量：15
4赵荣彩,唐志敏,邵洁.IXP 2400网络处理器低功耗技术应用研究[J].计算机工程与应用,2002,38(22):71-73. 被引量：1
5马雪娇,厉琼莹,张骏立,夏银水.基于双逻辑门级图形表示的功耗优化技术[J].计算机辅助设计与图形学学报,2017,29(3):509-518. 被引量：3
6Punya Prakash,Kazunobu Shin.高能效系统的功耗优化技术[J].电子产品世界,2013,20(9):57-59. 被引量：3
7陈剑,张春,陈虹.低功耗RFID的公钥密码系统实现[J].半导体技术,2009,34(9):890-894. 被引量：7
8周宽久,迟宗正,西方.嵌入式软硬件低功耗优化研究综述[J].计算机应用研究,2010,27(2):423-428. 被引量：16
9宋彦,郭兵,沈艳.嵌入式系统低功耗的软件实现方案[J].单片机与嵌入式系统应用,2011,11(9):4-7. 被引量：11
10徐步荣,李曦,魏亮辉.改进的指令总线功耗优化策略[J].计算机辅助工程,2007,16(1):64-68.

计算机学报

2011年第4期

浏览历史

内容加载中请稍等...

一种基于并行度分析模型的GPU功耗优化技术被引量：13

参考文献20

同被引文献240

引证文献13

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

一种基于并行度分析模型的GPU功耗优化技术 被引量：13

参考文献20

同被引文献240

引证文献13

二级引证文献67

相关作者

相关机构

相关主题

浏览历史

一种基于并行度分析模型的GPU功耗优化技术被引量：13