基于GPU的卷积检测模型加速被引量：4

CONVOLUTION-BASED DETECTION MODELS ACCELERATION BASED ON GPU

下载PDF

导出

摘要近年来,形变部件模型和卷积神经网络等卷积检测模型在计算机视觉领域取得了极大的成功。这类模型能够进行大规模的机器学习训练,实现较高的鲁棒性和识别性能。然而训练和评估过程中卷积运算巨大的计算开销,也限制了其在诸多实际场景中进一步的应用。利用数学理论和并行技术对卷积检测模型进行算法和硬件的双重加速。在算法层面,通过将空间域中的卷积运算转换为频率域中的点乘运算来降低计算复杂度;而在硬件层面,利用GPU并行技术可以进一步减少计算时间。在PASCAL VOC数据集上的实验结果表明,相对于多核CPU,该算法能够实现在单个商用GPU上加速卷积过程2.13~4.31倍。 In recent years,convolution-based detection models（ CDM）,such as the deformable part-based models（ DPM） and the convolutional neural networks（ CNN）,have achieved tremendous success in computer vision field. These models allow for large-scale machine learning training to achieve higher robustness and recognition performance. However,the huge computational cost of convolution operation in training and evaluation processes also restricts their further application in many practical scenes. In this paper,we accelerate both the algorithm and hardware of convolution-based detection models with mathematical theory and parallelisation technique. In the aspect of algorithm,we reduce the computation complexity by converting the convolution operation in space domain to the point multiplication operation in frequency domain. While in the aspect of hardware,the use of graphical process unit（ GPU） parallelisation technique can reduce the computational time further. Results of experiment on public dataset Pascal VOC demonstrate that compared with multi-core CPU,the proposed algorithm can realise speeding up the convolution process by 2. 13 to 4. 31 times on single commodity GPU.

作者刘琦黄咨陈璐艳胡福乔

机构地区上海交通大学自动化系系统控制与信息处理教育部重点实验室

出处《计算机应用与软件》 CSCD 2016年第5期226-230,共5页 Computer Applications and Software

基金国家自然科学基金项目(61175009) 上海市产学研合作项目(沪CXY-2013-82)

关键词卷积检测模型计算机视觉 GPU Convolution-based detection model Computer vision GPU

分类号 TP319.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献23

1Everingham M,Van Gool L,Williams C K I,et al.The pascal visual object classes(voc)challenge[J].International journal of computer vision,2010,88(2):303-338.
2Deng J,Dong W,Socher R,et al.Imagenet:A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:248-255.
3Dubout C,Fleuret F.Exact acceleration of linear object detectors[C]//Computer Vision–ECCV 2012.Springer Berlin Heidelberg,2012:301-311.
4Felzenszwalb P F,Girshick R B,Mc Allester D,et al.Object detection with discriminatively trained part-based models[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32(9):1627-1645.
5Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.
6Felzenszwalb P F,Huttenlocher D P.Pictorial structures for object recognition[J].International Journal of Computer Vision,2005,61(1):55-79.
7Felzenszwalb P F,Girshick R B,Mc Allester D.Cascade object detection with deformable part models[C]//Computer vision and pattern recognition(CVPR),2010 IEEE conference on.IEEE,2010:2241-2248.
8Song H O,Zickler S,Althoff T,et al.Sparselet models for efficient multiclass object detection[C]//Computer Vision–ECCV 2012.Springer Berlin Heidelberg,2012:802-815.
9Hirabayashi M,Kato S,Edahiro M,et al.GPU implementations of object detection using HOG features and deformable models[C]//CyberPhysical Systems,Networks,and Applications(CPSNA),2013 IEEE1st International Conference on.IEEE,2013:106-111.
10De Smedt F,Struyf L,Beckers S,et al.Is the game worth the candle?Evaluation of Open CL for object detection algorithm optimization[C]//International Conference on PECCS,2012:284-291.

二级参考文献28

1Duhamel P, Vetterli M. Fast fourier transforms: A tutorial review and a state of the art. Signal Processing, 1990, 9(14): 259-299.
2Govindaraju N K, Lloyd B, Dotsenko Y, Smith B, Manferdelli J. High performance discrete Fourier transforms on graphics processors. In Proc. SC, Nov. 2008, Article No.2.
3Nukada A, Matsuoka S. Auto-tuning 3-D FFT library for CUDA GPUs. In Proc. SC, Nov. 2009, Article No.30. Dotsenko Y, Baghsorkhi S S, Lloyd B, Govindaraju N K. Auto-tuning of fast Fourier transform on graphics processors. In Proc PPoPP, Feb. 2011, pp.257-266.
4Gu L, Li X M, Siegel J. An empirically tu:ed 2D and 3D FFT library on CUDA GPU. In Proc. the 2:th ICS, June 2010, pp.305:314.
5Gaster B, Howes L, Kaeli D R, Mistry P, $chaa D. Heteroge- neous Computing with OpenCL. San Fransisco, USA: Morgan Kaufmann: 2011.
6Munshi A, Gaster B, Mattson T G, Fung J, Ginsburg D. OpenCL Programming Guide. Boston, USA: Addison-Wesley Professional. 2011.
7Zhang E Z, Jiang Y L, Guo GPU applications on the fly: Z Y, Shen X P. Streamlining Thread divergence elimination through runtime thread-data remapping. In Proc. the 2.:th ICS, June 2010: pp.115-126.
8Zhang E Z, Jiang Y L, Guo Z Y, Shen X P. Streamlining GPU applications on the fly: Thread divergence elimination through runtime thread-data remapping. In Proc. the 24th ICS, June 2010, pp.115-126.
9Yang Y, Xiang P, Kong J F, Zhou H Y. A GPGPU com- piler for memory optimization and parallelism management. In Proc. PLDI, June 2010, pp.86-97.
10Cooley J W, Tukey J W. An algorithm for the machine cal- culation of complex Fourier series. Mathematics of Compu- tation, 1965, 19: 297-301.

共引文献9

1常丽,杨继敏.基于校正多相位快速傅里叶变换算法的叠栅条纹相位差测量[J].光学学报,2014,34(6):136-142. 被引量：3
2刘颖,吕方,王蕾,陈莉,崔慧敏,冯晓兵.异构并行编程模型研究与进展[J].软件学报,2014,25(7):1459-1475. 被引量：13
3刘益群,李焱,张云泉,张先轶.Memory Efficient Two-Pass 3D FFT Algorithm for Intel~ Xeon Phi^(TM) Coprocessor[J].Journal of Computer Science & Technology,2014,29(6):989-1002. 被引量：2
4刘仲,陈海燕,向宏卫.使用融合乘加加速快速傅里叶变换计算的向量化方法[J].国防科技大学学报,2015,37(2):72-78. 被引量：3
5王向前,郑启龙,王昊,洪一,张磊.面向高数据并行架构的原位 FFT 算法[J].中国科学技术大学学报,2015,45(7):608-613.
6李琨,贾海鹏,曹婷,张云泉.大规模集群上多维FFT算法的实现与优化研究[J].计算机科学与探索,2017,11(6):863-874. 被引量：3
7陈暾,李志豪,贾海鹏,张云泉.基于ARMv8平台的多维FFT实现与优化研究[J].计算机学报,2019,42(11):2384-2402. 被引量：9
8张云泉,袁良,陈一峯,冯晓兵,张贺.高性能计算多层次不连续非线性可扩展现象研究[J].计算机学报,2020,43(6):973-989. 被引量：1
9崔翔,李晓雯,陈一峯.基于新型语言机制的异构集群应用通信优化方法[J].计算机科学,2020,47(8):17-25.

同被引文献16

1田娟,郑郁正.模板匹配技术在图像识别中的应用[J].传感器与微系统,2008,27(1):112-114. 被引量：60
2程和生,胡幸福.基于HOG和SVM的人体检测技术在静态图像中的研究[J].仪器仪表用户,2012,19(5):20-23. 被引量：3
3尹宝才,王文通,王立春.深度学习研究综述[J].北京工业大学学报,2015,41(1):48-59. 被引量：377
4杨昆朋.基于深度信念网络的入侵检测模型[J].现代计算机（中旬刊）,2015(1):10-14. 被引量：13
5甘鹏坤,陶凌,龙伟.基于可变形部件模型及稀疏特征的行人检测[J].深圳大学学报（理工版）,2015,32(6):563-570. 被引量：2
6段大高,王长生,韩忠明,李斌.基于微博评论的虚假消息检测模型[J].计算机仿真,2016,33(1):386-390. 被引量：9
7蒋和国,蒋烈辉,舒辉,谢耀滨.基于JTAG仿真的ARM Linux设备Bootkit检测技术研究[J].计算机应用研究,2016,33(2):526-530. 被引量：4
8彭春洪,刘丹.一种基于KVM虚拟机的隐藏进程检测算法[J].小型微型计算机系统,2016,37(2):231-235. 被引量：3
9王亚杰,冉晓艳,叶永生,石祥滨.基于彩色图像融合的隐藏武器检测技术[J].光电工程,2016,43(2):62-68. 被引量：1
10王涛,韩兰胜,付才,邹德清,刘铭.软件漏洞静态检测模型及检测框架[J].计算机科学,2016,43(5):80-86. 被引量：4

引证文献4

1柴恩惠,智敏.融合分支定界的可变形部件模型的行人检测[J].计算机应用,2017,37(7):2003-2007. 被引量：2
2刘文祺,范明钰,赵永福.隐藏关系下计算机异常干扰检测方法仿真研究[J].计算机仿真,2018,35(1):424-427. 被引量：3
3李嘉辉,蔡述庭,陈学松,熊晓明.基于FPGA的卷积神经网络的实现[J].自动化与信息工程,2018,39(1):32-37. 被引量：7
4张沛阳.深度学习理论综述与研究展望[J].网络安全技术与应用,2020(4):43-44. 被引量：8

二级引证文献20

1苗建杰,李德波,李慧君.基于人工神经网络的锅炉受热面积灰预测研究现状及展望[J].洁净煤技术,2021,27(S02):212-220. 被引量：5
2任卫欣.基于FPGA的硬件加速系统[J].电子制作,2018,26(23):73-76. 被引量：1
3张洋.隐藏关系下计算机异常干扰检测方法仿真[J].电子技术与软件工程,2018(24):116-116.
4赵利军,董莎莎,张沙石.面向Linux系统的嵌入式设备陷门模板化框架[J].计算机应用与软件,2019,36(6):221-225.
5李子聪,曾宇航,熊晓明.基于SoC的卷积神经网络系统设计[J].电子测量技术,2019,42(10):126-131. 被引量：6
6李增刚,王正彦,毛菲菲.基于FPGA的BP神经网络识别系统设计[J].青岛大学学报（工程技术版）,2019,34(3):44-51. 被引量：1
7周玮.水声信道跳频通信系统异常跳变检测模型仿真[J].计算机仿真,2019,36(9):483-487. 被引量：1
8余珮嘉,张靖,谢晓尧.基于自适应池化的行人检测方法[J].河北科技大学学报,2019,40(6):533-539. 被引量：4
9孙敬成,王正彦,李增刚.卷积神经网络数字识别系统的FPGA实现[J].计算机工程与应用,2020,56(13):181-188. 被引量：5
10王雪娇,智敏.基于可变形卷积神经网络的人体动作识别[J].计算机工程与科学,2021,43(1):105-111. 被引量：6

1刘琼梅,龙巧云.P-树在遥感图像数据中的应用[J].武汉理工大学学报（信息与管理工程版）,2011,33(3):363-366.
2田华.递归算法与栈[J].铜仁师范高等专科学校学报,2002,4(3):67-69.
3李盛恩.快速聚集算法RunMerge[J].计算机应用与软件,2005,22(5):112-113. 被引量：1
4闫晓东,郑林涛,孙燮华.一种新的二维图像几何矩快速计算方法[J].计算机应用与软件,2005,22(7):100-101. 被引量：1
5鲍华,樊瑜波,饶长辉,张雨东,戴云.基于均值查找的快速中值滤波算法[J].四川大学学报（工程科学版）,2011,43(2):76-79. 被引量：29
6魏益堂.负数补码的探究[J].电子测试,2013,24(6X):40-41. 被引量：1
7王学荣,曾晓勤.面向对象数据库到关系数据库运算的转换[J].计算机应用与软件,2003,20(9):19-25. 被引量：3
8陈鑫影,邱占芝.基于可分辨重要度的属性约简算法[J].大连交通大学学报,2008,29(4):83-86. 被引量：1
9雷能芳.FIR数字滤波器的一种快速算法[J].现代电子技术,2006,29(21):140-141. 被引量：1
10肜丽,姜明富.RSA加密方式中Montgomery算法的研究与改进[J].信阳农业高等专科学校学报,2013,23(4):107-109. 被引量：3

计算机应用与软件

2016年第5期

浏览历史

内容加载中请稍等...

基于GPU的卷积检测模型加速被引量：4

参考文献23

二级参考文献28

共引文献9

同被引文献16

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于GPU的卷积检测模型加速 被引量：4

参考文献23

二级参考文献28

共引文献9

同被引文献16

引证文献4

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于GPU的卷积检测模型加速被引量：4