混合精度频域卷积神经网络FPGA加速器设计

FPGA Accelerator Design for Hybrid Precision Frequency Domain Convolutional Neural Network

下载PDF

导出

摘要深度卷积神经网络具有模型大、计算复杂度高的特点,难以部署到硬件资源有限的现场可编程门阵列(FPGA)中。混合精度卷积神经网络可在模型大小和准确率之间做出权衡,从而为降低模型内存占用提供有效方案。快速傅里叶变换作为一种快速算法,可将传统空间域卷积神经网络变换至频域,从而有效降低模型计算复杂度。提出一个基于FPGA的8 bit和16 bit混合精度频域卷积神经网络加速器设计。该加速器支持8 bit和16 bit频域卷积的动态配置,并可将8 bit频域乘法运算打包以复用DSP,用来提升计算性能。首先设计一个基于DSP的频域计算单元,支持8 bit和16 bit频域卷积运算,通过打包一对8 bit频域乘法以复用DSP,从而提升吞吐率。然后提出一个映射数据流,该数据流支持8 bit和16 bit计算两种形式,通过数据重用方式最大化减少冗余数据处理和数据搬运操作。最后使用ImageNet数据集,基于ResNet-18与VGG16模型对所设计的加速器进行评估。实验结果表明,该加速器的能效比(GOP与能耗的比值)在ResNet-18和VGG16模型上分别达到29.74和56.73,较频域FPGA加速器提升1.2~6.0倍。 Deep Convolutional Neural Network(CNN)have large models and high computational complexity,making their deployment in Programmable Gate Array(FPGA)with limited hardware resources difficult.Hybrid precision CNNs can provide an effective trade-off between model size and accuracy,thus providing an efficient solution for reducing the model's memory footprint.As a fast algorithm,the Fast Fourier Transform(FFT)can convert traditional spatial domain CNNs into the frequency domain,effectively reducing the computational complexity of the model.This study presents an FPGA-based accelerator design for 8 bit and 16 bit hybrid precision frequency domain CNNs that supports the dynamic configuration of 8 bit and 16 bit frequency domain convolutions and can pack 8 bit frequency domain multiplication operations to enable the reuse of DSPs for performance improvement.A DSP-based Frequency-domain Processing Element(FPE)is designed to support 8 bit and 16 bit frequency domain convolution operations.It can pack a couple of 8 bit frequency domain multiplications to reuse DSPs to boost throughput.In addition,a mapping dataflow that supports both 8 bit and 16 bit computation patterns and can maximize the reduction of redundant data processing and data movement through data reuse is proposed.The proposed accelerator is evaluated based on the ResNet-18 and VGG16 models using the ImageNet dataset.The experimental results reveal that the proposed model can achieve 29.74 and 56.73 energy efficiency ratio(ratio of GOP to energy consumption)on the ResNet-18 and VGG16 models,respectively,which is 1.2-6.0 times better than those of frequency domain FPGA accelerators.

作者陈逸刘博生徐永祺武继刚 CHEN Yi;LIU Bosheng;XU Yongqi;WU Jigang(School of Computer Science and Technology,Guangdong University of Technology,Guangzhou 510006,China)

机构地区广东工业大学计算机学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第12期1-9,共9页 Computer Engineering

基金国家自然科学基金(62072118)。

关键词卷积神经网络硬件加速器频域混合精度现场可编程门阵列 Convolutional Neural Network(CNN) hardware accelerator frequency domain hybrid precision Field Programmable Gate Array(FPGA)

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1刘通,胡亮,王永军,初剑峰.基于卷积神经网络的卫星遥感图像拼接[J].吉林大学学报（理学版）,2022,60(1):99-108. 被引量：10
2黄瑞,金光浩,李磊,姜文超,宋庆增.轻量化神经网络加速器的设计与实现[J].计算机工程,2021,47(9):185-190. 被引量：8

二级参考文献9

1崔小乐,陈红英,崔小欣,张兴.一种软硬件协同设计工具原型及其设计描述方法[J].微电子学与计算机,2007,24(6):28-30. 被引量：4
2卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17. 被引量：551
3芮挺,费建超,周遊,方虎生,朱经纬.基于深度卷积神经网络的行人检测[J].计算机工程与应用,2016,52(13):162-166. 被引量：73
4常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：425
5刘飞,张俊然,杨豪.基于深度学习的医学图像识别研究进展[J].中国生物医学工程学报,2018,37(1):86-94. 被引量：54
6卢冶,陈瑶,李涛,蔡瑞初,宫晓利.面向边缘计算的嵌入式FPGA卷积神经网络构建方法[J].计算机研究与发展,2018,55(3):551-562. 被引量：47
7刘龙龙,寇瑞雄.基于SIFT算子影像拼接技术的研究和实践[J].测绘与空间地理信息,2018,41(12):136-140. 被引量：4
8李欣瑶,刘飞阳,文鹏程,李鹏.卷积神经网络的软硬件协同加速技术[J].航空兵器,2021,28(3):99-104. 被引量：6
9付晓辉,赵德群,张俊杰,邓钱华.基于改进SIFT的低空遥感影像拼接系统设计[J].国外电子测量技术,2019,0(8):105-109. 被引量：2

共引文献16

1蒋翼浓,张世义.交通标志识别技术综述[J].汽车工程师,2021(8):15-18. 被引量：2
2夏英,黄秉坤.采用改进YOLOv3的高分辨率遥感图像目标检测[J].重庆邮电大学学报（自然科学版）,2022,34(3):383-392. 被引量：16
3王伟,穆洪云.基于ANSYS液压缸缸筒的模态分析和轻量化设计[J].液压气动与密封,2022,42(7):15-19. 被引量：3
4焦禹铭,吴凯,郭风祥,王昭,宋庆增.基于专用卷积神经网络加速器的编译器设计与实现[J].计算机应用,2022,42(S01):208-214. 被引量：1
5彭继达,马治国,张春桂.基于特征点的高分辨率卫星遥感影像自动配准方法[J].现代电子技术,2022,45(18):102-106.
6缪丹丹,张鹏,张鑫宇,崔敏.基于ZYNQ平台的通用卷积加速器设计[J].国外电子测量技术,2022,41(11):72-77. 被引量：4
7孙小坚,林瑞全,方子卿,马驰.基于FPGA加速的低功耗的MobileNetV2 网络识别系统[J].计算机测量与控制,2023,31(5):221-227. 被引量：2
8黄忠天,陈伟,李昭慧,解文龙.一种应用于PCB缺陷检测的改进SIFT算法[J].无线电工程,2023,53(6):1479-1486.
9毕江海.基于目标识别的轨旁设备定测装置研究[J].铁道建筑技术,2023(6):126-129.
10曹磊,王珺瑶,朱俊杰,徐昇.基于深度学习和高分辨率遥感图像的车流量统计[J].江苏大学学报（自然科学版）,2023,44(5):570-576. 被引量：2

1栗风永,魏璐,曾祎姝.融合神经网络变换和通道置乱的彩色图像加密[J].计算机工程与设计,2023,44(7):2118-2124.
2张小军,王俊英,王晓静,韩钦,王正荣,张德学.面向分布式卷积神经训练网络的FPGA加速器设计[J].实验室研究与探索,2023,42(9):100-104.
3肖汉,杨梦瑶,徐杰,胡丹峰,王加俊.基于视频的人体心率检测算法研究[J].计算机与数字工程,2023,51(9):2109-2113.
4叶钧超,徐聪,黄尧,柴志雷.基于FPGA的Izhikevich神经元定制计算方法[J].计算机工程,2023,49(12):35-45. 被引量：1
5雷仁强.面板堆石坝安全稳定性的可靠性分析[J].水上安全,2023(12):130-132.
6杜忠文,李庚霖,蒋菡,褚江恒,伍俊.基于次级缓存的SDRAM调度策略的研究[J].电子测量技术,2023,46(14):37-42. 被引量：1
7黄寅杰,王福元,肖海宁,王仲楼.基于改进YOLOv5s的交通信号灯检测算法[J].建模与仿真,2023,12(6):5860-5874.
8肝癌新辅助治疗中国专家共识协作组,中国研究型医院学会消化外科专业委员会,中国抗癌协会肝癌专业委员会,王学浩,张耀军,王锋,张慧,陈志强.肝癌新辅助治疗中国专家共识(2023版)[J].中华外科杂志,2023,61(12):1035-1045. 被引量：5
9王益勤,王建六.子宫内膜癌患者保留生育功能治疗[J].中国实用妇科与产科杂志,2023,39(11):1090-1095. 被引量：1
10洪起润,王琴.基于帧间数据复用的稀疏CNN加速器设计[J].计算机工程,2023,49(12):55-62.

计算机工程

2023年第12期

浏览历史

内容加载中请稍等...

混合精度频域卷积神经网络FPGA加速器设计

参考文献2

二级参考文献9

共引文献16

相关作者

相关机构

相关主题

浏览历史