面向GPU计算平台的神经网络卷积性能优化被引量：4

Performance Optimization of Neural Network Convolution Based on GPU Platform

下载PDF

导出

摘要图像检测、识别任务已经被应用在越来越多的生产生活场景中,基于卷积神经网络的方法凭借着精度高的特点被广泛应用.但是卷积神经网络存在着权重参数多、对算力要求高的问题,算力有限且型号多样的边缘计算设备使得这些应用在使用中受限.在跨平台上运行高性能代码,以及基于GPU的卷积神经网络优化愈发重要.针对卷积神经网络中的卷积规模和其他通用矩阵乘(general matrix multiplication,GEMM)方法的不足,根据分块规模、分支执行、访存和计算比例,提出了一种针对卷积神经网络规模优化的GEMM优化方法,将其应用于Winograd算法,并结合算子合并,实现对卷积进一步优化.同时基于遍历的自调优选择性能最优的卷积算子,结合离线编译、内存池、16 b量化、网络规模裁剪等方法,来提升卷积神经网络的性能.最后在AMD V1605B平台上进行实验验证算法的效果,通过和其他GEMM算法以及深度学习网络的性能进行对比,验证了该方法能够获得比GEMM算法和Winograd算法更好的加速效果,并能有效地加速卷积神经网络. Image detection and recognition tasks have been applied in more and more production and life scenarios.The convolution-based neural network method is widely used because of its high accuracy.However,the convolution neural network has the problems of many weight parameters and high computational requirements,which are limited by the limited computational power and the variety of edge computing devices.Running high-performance codes across platforms,convolutional neural network optimization based on GPU is increasingly important.In view of the insufficiency of convolution scale and other GEMM methods in convolutional neural network,we present a GEMM optimization method for convolutional neural network size optimization based on block size,branch execution,memory access and calculation scale,which can be applied to Wingrad algorithm and operator combination to further optimize convolution.At the same time,the convolution operator with the best performance is selected based on traversal self-tuning,combining offline compilation,memory pool,16 b quantization,network scale clipping,etc.to improve the performance of convolutional neural network.Finally,experiments are carried out on AMD V1605 B platform to verify the effectiveness of the algorithm.By comparing with other GEMM algorithms and deep learning networks,it is verified that this method can achieve better acceleration than GEMM and Winograd algorithms,and can effectively accelerate the convolutional neural network.

作者李茂文曲国远魏大洲贾海鹏 Li Maowen;Qu Guoyuan;Wei Dazhou;Jia Haipeng(Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;Chinese Aeronautical Radio Electronics Research Institute,Shanghai 200241)

机构地区中国科学院计算技术研究所中国航空无线电电子研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2022年第6期1181-1191,共11页 Journal of Computer Research and Development

基金国家重点研发计划项目(2107YFB0202105,2016YFB0200803,2017YFB0202302) 国家自然科学基金项目(61972376) 北京市自然科学基金项目(L182053)。

关键词通用矩阵乘 Winograd算法卷积神经网络性能优化 GPU general matrix multiplication(GEMM) Winograd algorithm convolutional neural network performance optimization GPU

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献29

1王若龙.大数据分析技术在通信网络系统优化中的应用研究[J].电视技术,2021,45(8):4-6. 被引量：8
2任敬安,涂亚庆,张敏,蒋银华,谢洪涛.基于蚁群优化的AdHoc网络生存时间和其他网络性能平衡路由协议[J].计算机工程与科学,2011,33(10):15-24. 被引量：8
3赵捷,李颖颖,赵荣彩.基于多面体模型的编译“黑魔法”[J].软件学报,2018,29(8):2371-2396. 被引量：12
4武兰芬,姜军.基于双源数据的云计算创新合作网络多维分析[J].科研管理,2020,41(2):142-151. 被引量：4
5陈卓,冯钢,刘怡静,周杨.MEC中基于改进遗传模拟退火算法的虚拟网络功能部署策略[J].通信学报,2020,41(4):70-80. 被引量：20
6董若楠,张光杰,刘渊,王晓锋,李乾治.天地一体化信息网络动态重构技术与仿真方法[J].小型微型计算机系统,2020,41(5):1065-1070. 被引量：3
7马郓,刘譞哲,梅宏.面向移动Web应用的浏览器缓存性能度量与优化[J].软件学报,2020,31(7):1980-1996. 被引量：9
8郭佳,马朝斌,苗萌萌,张绍博.基于人工蜂群算法的存储负载副本放置均衡算法[J].北京交通大学学报,2020,44(3):142-148. 被引量：4
9刘炎培,朱淇,赵进超.边缘环境下计算密集型应用的卸载技术研究[J].计算机工程与应用,2020,56(15):1-14. 被引量：4
10吕佳玉,竺智荣,姚志强.云计算环境下的双通道数据动态加密策略[J].计算机应用,2020,40(8):2268-2273. 被引量：14

引证文献4

1周沭玲.高并发访问下的移动Web前端浏览性能优化研究[J].重庆科技学院学报（自然科学版）,2023,25(5):63-68. 被引量：1
2王艳兵.面向云计算并发访问的计算机大数据调度负载均衡方法[J].滨州学院学报,2023,39(6):80-85. 被引量：2
3胡煜霄,郑启龙.基于深度学习的循环自动调度研究[J].小型微型计算机系统,2024,45(7):1770-1777.
4王娜,蒋林,李远成,朱筠.基于图形重写和融合探索的张量虚拟机算符融合优化[J].计算机应用,2024,44(9):2802-2809.

二级引证文献3

1吴飞龙,朱晓芒,张哲,张心,王芳.智慧校园物联网平台设计与实现[J].软件导刊,2024,23(5):75-82. 被引量：1
2李聪.考虑负载均衡的物联网节点传输速率控制方法[J].物联网技术,2024,14(7):71-73.
3王子豪,陈涛,李茂斌.Vue云管理平台Web前端性能优化设计[J].数字技术与应用,2024,42(7):212-214.

1戴春年,冷劲松.K-g-框架的稳定性与不等式[J].数学的实践与认识,2021,51(6):206-216.
2刘旭光,冯心怡,张雅男.大学生引体向上练习的优化模型建构[J].吉林体育学院学报,2022,38(2):56-63. 被引量：1
3高珊珊,胡志强,王红,陈娜,张恬.家属联动干预模式对脑出血患者术后神经功能、运动功能恢复及自我效能感的影响[J].海军医学杂志,2022,43(2):200-203. 被引量：16
4李亚朋,庞建民,徐金龙,聂凯.一种针对线性循环结构的非线性静态调度策略[J].计算机工程,2022,48(1):155-162. 被引量：1
5张莹雪,孙凤霞,李晓玲,郭雨菲.基于CiteSpace的中医药治疗肝硬化热点与前沿分析[J].中国医药导报,2022,19(14):14-18. 被引量：5
6房欣.基于GEM模型的会展产业集群竞争力评价研究[J].商展经济,2022(11):1-3. 被引量：2
7刘博存,常思杰,林浩田,江静.一种纹理与结构光叠加的立体视觉改进算法[J].激光与红外,2022,52(5):776-784. 被引量：1
8黄滟凌,罗远湘,陈娟,刘洪科,李林珊.雷珠单抗联合复方血栓通胶囊对年龄相关性黄斑变性患者血液流变学和血清VEGF、PDGF的影响[J].现代生物医学进展,2022,22(8):1582-1585. 被引量：7
9赵红成,田秀霞,杨泽森,白万荣.改进YOLOv3的复杂施工环境下安全帽佩戴检测算法[J].中国安全科学学报,2022,32(5):194-200. 被引量：17
10Hailong Zhou,Jianji Dong,Junwei Cheng,Wenchan Dong,Chaoran Huang,Yichen Shen,Qiming Zhang,Min Gu,Chao Qian,Hongsheng Chen,Zhichao Ruan,Xinliang Zhang.Photonic matrix multiplication lights up photonicaccelerator and beyond[J].Light(Science & Applications),2022,11(2):158-178. 被引量：26

计算机研究与发展

2022年第6期

浏览历史

内容加载中请稍等...

面向GPU计算平台的神经网络卷积性能优化被引量：4

同被引文献29

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向GPU计算平台的神经网络卷积性能优化 被引量：4

同被引文献29

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向GPU计算平台的神经网络卷积性能优化被引量：4