二维矩阵卷积的并行计算方法被引量：8

Parallel computing method for two-dimensional matrix convolution

下载PDF

导出

摘要为了提高卷积神经网络模型中二维矩阵卷积的计算效率,基于FT2000多核向量处理器研究二维矩阵卷积的并行实现方法.通过使用广播指令将卷积核元素广播至向量寄存器,使用向量LOAD指令加载卷积矩阵行元素,并通过混洗操作将不易并行化的矩阵卷积操作变成可以向量化的乘加操作,实现了通过减少访存、充分复用已取数据的方式来提高算法的执行效率.设计卷积矩阵规模变化、卷积核规模不变和卷积矩阵规模不变、卷积核规模变化2种常用矩阵卷积计算方式,并对比分析不同计算方式对算法执行效率的影响.基于服务器级多核CPU和TI6678进行实验对比,实验结果显示,FT2000比多核CPU及TI6678具有更好的计算优势,相比多核CPU最高可加速11 974倍,相比TI6678可加速21倍. A parallel implementation method based on multi-core vector processor FT2000 was proposed to improve the computational efficiency of two-dimensional matrix convolution in convolution neural network model.The convolution kernel element was broadcast to vector register by using broadcast instruction;the row elements of the convolution matrix were vector loaded.With shuffle operation,the operation of matrix convolution,which is hard to be parallelled,can be vectorized by using multiply-add operation,and the implementation efficiency was achieved through reduction of access,full reuse of obtained data.Two kinds of common matrix convolution methods were designed:changing convolution matrix scale with constant convolution kernel size,and constant convolution matrix size with changing convolution kernel scale.The influence of different calculation methods on the algorithm execution efficiency was analyzed and compared.Finally,the comparison experiments were taken based on the server-level multi-core CPU and TI6678.Results show that FT2000 has a better computing advantage over multi-core CPU and TI6678,which can accelerate up to 11 974 times compared to multi-core CPU,while to TI6678 it is 21 times.

作者张军阳郭阳扈啸

机构地区国防科技大学计算机学院

出处《浙江大学学报（工学版）》 EI CAS CSCD 北大核心 2018年第3期515-523,共9页 Journal of Zhejiang University：Engineering Science

基金国家自然科学基金资助项目(60133007 61572025) 国家重点研发计划资助项目(2016YFB0200401)

关键词矩阵卷积向量处理器并行算法性能优化卷积神经网络 matrix convolution vector processor parallel algorithm performance optimization convolution neural network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1刘仲,田希,陈磊.支持原位计算的高效三角矩阵乘法向量化方法[J].国防科技大学学报,2014,36(6):7-11. 被引量：3
2刘仲,陈跃跃,陈海燕.支持任意系数长度和数据类型的FIR滤波器向量化方法[J].电子学报,2013,41(2):346-351. 被引量：7
3周海芳,高畅,方民权.基于CUBLAS和CUDA的MNF并行算法设计与优化[J].湖南大学学报（自然科学版）,2017,44(4):147-156. 被引量：3

二级参考文献24

1李辉,张安,赵敏,徐琦.粒子群优化算法在FIR数字滤波器设计中的应用[J].电子学报,2005,33(7):1338-1341. 被引量：37
2马宝山,朱义胜.一种用于基因预测的FIR数字滤波器[J].电子学报,2007,35(9):1710-1713. 被引量：8
3Mehrara M, Jablin T, Upton D, et al. Multicore compilation strnd challenges[ J ]. II.EIZ. Signal g Magazine, 21309, 26(6) :55 - 63.
4Mirzaei S, Hosangadi A, Kastner R. FPGA implementation of high speed FIR filters using add and shift method[ A]. Proceed- ings of International Conference on Computer Design[ C]. San Jose, California: IEEE, 2006.308 - 313.
5Shahbahrami A, Juurlink B H H. Vassiliadis S. Efficient vector- ization of the FIR filter[A]. Proceedings of the 16th Annual Workshop on Circuits, Systems and Signal Processing [ C ]. Veldhoven, the Netherlands: , 2005.432 - 437.
6Kutil R, Eder P. Parallelizafion of wavelet filters using SIMD extensions[ J]. Parallel Processing Letters, 2006, 16 (3) : 335 -349.
7Kutil R. Parallelization of fiR filters using SIMD extensions [ A]. Proceedings of the 15th Intemational Conference on Sys- tems, Signals and Image Processing[ C]. Bratislava, Slovak Re- public: n,l:,l:,, 2008.65 - 68.
8Dang B L, Engin N, Gaydadjiev G N. Efficient filtering with the co-vector processor[ A ]. Proceedings of the 14th Annual Workshop on Circuits, Systems and Signal Processing [ C ].Veldhoven, The Netherlands:l,2003.351 - 356.
9Texas Instruments. C67x floating point benchmarks[ R/OL ]. http://www, ft. com/sc/docs/products/dsp/c6000/67bench. hlm,2011 - 11 - 03.
10Texas InslnLrnents. C64x floating point benchrnarks[ R/OL]. ht://focus, ft. com/dsp/docs/dspplatformscontentaut, tsp? secfionId = 2familyId = 4778aabId = 496,2011 - 11 - 03.

共引文献9

1郭广浩,刘志哲,孟庆龙,马承光.多级并行流水FIR数字滤波器的设计与验证[J].现代电子技术,2015,38(1):69-72. 被引量：5
2刘仲,田希,陈磊.支持原位计算的高效三角矩阵乘法向量化方法[J].国防科技大学学报,2014,36(6):7-11. 被引量：3
3刘仲,陈海燕,向宏卫.使用融合乘加加速快速傅里叶变换计算的向量化方法[J].国防科技大学学报,2015,37(2):72-78. 被引量：3
4王治国,汪瞳.基于频率采样方法的FIR甲板运动补偿器设计[J].中国舰船研究,2015,10(4):22-28.
5张岩.CPU-OpenMP和GPU-CUDA并行计算技术对矩阵乘法运算的加速效果分析[J].科技视界,2017(26):45-47. 被引量：1
6张军阳,郭阳.二维矩阵卷积在向量处理器中的设计与实现[J].国防科技大学学报,2018,40(3):69-75. 被引量：1
7刘仲,田希.面向多核向量处理器的矩阵乘法向量化方法[J].计算机学报,2018,41(10):2251-2264. 被引量：9
8于敬巨,张多利,宋宇鲲.高性能矩阵求逆硬件加速器的设计与实现[J].合肥工业大学学报（自然科学版）,2018,41(12):1652-1658. 被引量：4
9周琦,柴小丽,马克杰,俞则人.基于CUDA与CUBLAS的Tucker分解模块设计与实现[J].计算机工程,2019,45(3):41-46. 被引量：10

同被引文献56

1王晨华,侯守璐,刘秀磊.边云协同计算中成本感知的物联网数据处理方法[J].计算机科学,2022,49(S02):820-826. 被引量：4
2左颢睿,张启衡,徐勇,赵汝进.基于GPU的快速Sobel边缘检测算法[J].光电工程,2009,36(1):8-12. 被引量：27
3牛斌凯,雍少为,张建,陈亮.基于System Generator开发数字信号处理系统[J].舰船电子工程,2010,30(1):129-132. 被引量：12
4王晶,李兵.模糊增益P型迭代学习控制器的FPGA实现[J].现代电子技术,2011,34(2):87-89. 被引量：1
5卢文龙,王建军,刘晓军.基于CUDA的高速并行高斯滤波算法[J].华中科技大学学报（自然科学版）,2011,39(5):10-13. 被引量：10
6崔丽雯,杨胜良.广义的k阶Fibonacci-Jacobsthal序列及其性质[J].纯粹数学与应用数学,2011,27(6):819-824. 被引量：3
7雷涛,曹晓伟,吴钦章.实时DSP图像处理空间低通滤波模块优化[J].光电工程,2012,39(5):116-120. 被引量：3
8朱从旭,孙克辉.对一类超混沌图像加密算法的密码分析与改进[J].物理学报,2012,61(12):76-87. 被引量：68
9齐名军,杨爱红.基于云模型云滴机制的量子粒子群优化算法[J].计算机工程与应用,2012,48(24):49-52. 被引量：6
10文昌辞,王沁,黄付敏,袁志树,陶春生.基于仿射和复合混沌的图像自适应加密算法[J].通信学报,2012,33(11):119-127. 被引量：31

引证文献8

1王竹筠,杨理践,高松巍,刘斌.管道漏磁图像的卷积核信息熵相似度约束方法[J].沈阳工业大学学报,2020,42(1):90-95. 被引量：5
2魏连锁,胡现成,陈齐齐,韩建.基于新混沌与矩阵卷积运算的彩色图像加密算法[J].计算机工程与科学,2020,42(1):80-88. 被引量：10
3陈宇,刘雪,陈晶.显式模型预测控制的在线迭代学习策略研究[J].现代电子技术,2021,44(8):5-10. 被引量：2
4陈云,王梦园,柴晓楠,商建东.面向FT-M7002的高斯滤波算法优化实现[J].计算机工程与科学,2021,43(5):799-806. 被引量：7
5范明亮,郭子涵,柴晓楠,商建东.面向FT-M7002的Sobel边缘检测算法优化实现[J].计算机工程,2022,48(6):193-199. 被引量：5
6成鸿群,刘宜成,涂海燕,徐金鹏,王广泰.基于System Generator的卷积加速结构设计与实现[J].计算机应用与软件,2024,41(4):224-227.
7高凤,吴艺妮,褚诗伟.改进CNN模型在物联网数据通信计算中的研究[J].邵阳学院学报（自然科学版）,2024,21(3):11-19.
8陈云,胡伟方,王梦园,商建东.面向FT-M7002的阈值分割算法优化实现[J].计算机应用与软件,2024,41(8):254-258.

二级引证文献28

1刘桐,刘斌,冯刚,廉正,杨理践.载荷作用下管道漏磁内检测信号定量化研究[J].仪器仪表学报,2022,43(1):262-273. 被引量：7
2唐中剑,毛春.基于显著导向的可见光与红外图像融合算法[J].太赫兹科学与电子信息学报,2021,19(1):125-131. 被引量：5
3王玉银.基于三维混沌模型的图像加密算法[J].微型电脑应用,2021,37(3):67-69. 被引量：2
4许绘香.基于机器视觉的郏县红牛形态参数检测系统设计[J].信息与电脑,2021,33(13):135-137.
5吕翔,陈利强,陆岳峰,赵宇梵.采用小波变换的抗剪切图像加密算法[J].浙江师范大学学报（自然科学版）,2021,44(4):381-388. 被引量：1
6侯兴旺,赵若宇,张玉书.一种精确缩略图保持的图像加密方案[J].计算机工程与科学,2022,44(1):60-67. 被引量：3
7宋佳烁,丁海洋,李子臣.高效彩色图像无损认证加密算法的研究[J].计算机应用研究,2022,39(2):582-586. 被引量：1
8杜久玲.基于压缩感知的彩色图像加密算法[J].长江信息通信,2021,34(12):65-67.
9方鹏飞,黄陆光,娄苗苗,蒋昆,吴成茂.基于四维超混沌系统的彩色图像加密算法[J].计算机工程与设计,2022,43(2):361-369. 被引量：13
10刘泽平,刘明兴,李晓帆,姚明杰,麻方达,符朝兴.融合MOG2算法与FT算法的移动目标检测方法[J].青岛大学学报（工程技术版）,2022,37(2):61-66. 被引量：1

1孙海燕.一种支持SIMD体系结构的高效分布式堆栈——HEDSSA[J].计算机工程与科学,2017,39(11):1986-1990.
2任智斌,胡佳盛,唐洪浪,金鑫.基于成像矩阵的物数据求解方法[J].应用光学,2018,39(1):40-44.
3杨远飞,曾上游,冯燕燕,周悦,潘兵.基于并行和切片的深度卷积网络设计研究[J].微电子学与计算机,2018,35(3):120-124. 被引量：3
4牛军.基于云计算的智能交通系统数据预处理与并行化技术研究[J].中国科技纵横,2017,0(16):38-38. 被引量：1
5饶东宁,王军星,魏来,王雅丽.并行最小割算法及其在金融社交网络中的应用[J].广东工业大学学报,2018,35(2):46-50. 被引量：1
6吴林,刘琳.远动控制技术在电力系统自动化中的应用[J].中国科技纵横,2016,0(15):121-121.
7侯能,何发智.混合并行两步调整遗传策略的软硬件划分算法[J].华中科技大学学报（自然科学版）,2017,45(12):39-45. 被引量：4
8孙帅.江苏广电超高清跨界转播平台通话系统设计与使用案例[J].现代电视技术,2018(2):85-88. 被引量：1
9章胤,包恒玥,赵文慧,李亚健,周克强.文本向量化在网络招聘中的应用[J].佳木斯职业学院学报,2017,33(10):380-381.
10王永贵,崔鹏.一种基于MapReduce高效K-means并行算法[J].辽宁工程技术大学学报（自然科学版）,2017,36(11):1204-1211. 被引量：3

浙江大学学报（工学版）

2018年第3期

浏览历史

内容加载中请稍等...

二维矩阵卷积的并行计算方法被引量：8

参考文献3

二级参考文献24

共引文献9

同被引文献56

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

二维矩阵卷积的并行计算方法 被引量：8

参考文献3

二级参考文献24

共引文献9

同被引文献56

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

二维矩阵卷积的并行计算方法被引量：8