面向小型边缘计算的深度可分离神经网络模型与硬件加速器设计

Design of depthwise separable neural network models and hardware accelerator for small-scale edge computing

下载PDF

导出

摘要神经网络参数量和运算量的扩大,使得在资源有限的硬件平台上流水线部署神经网络变得更加困难。基于此,提出了一种解决深度学习模型在小型边缘计算平台上部署困难的方法。该方法基于应用于自定义数据集的深度可分离网络模型,在软件端使用迁移学习、敏感度分析和剪枝量化的步骤进行模型压缩,在硬件端分析并设计了适用于有限资源FPGA的流水线硬件加速器。实验结果表明,经过软件端的网络压缩优化,这种量化部署模型具有94.60%的高准确率,16.64 M的较低的单次推理定点数运算量和0.079 M的参数量。此外,经过硬件资源优化后,在国产FPGA开发板上进行流水线部署,推理帧率达到了366 FPS,计算能效为8.57 GOPS/W。这一研究提供了一种在小型边缘计算平台上高性能部署深度学习模型的解决方案。 The parameter and computational requirements of neural networks have increased,making it increasingly difficult to deploy neural networks on hardware platforms with limited resources.This paper proposed a method to address the challenge of deploying deep learning models on small edge computing platforms.The method utilized a depthwise separable network model applied to a custom dataset.This method carried out model compression on the software end by employing steps as transfer learning,sensitivity analysis,and pruning quantization.On the hardware end,it analyzed and designed a pipeline hardware accelerator suitable for FPGA with limited resources.Experimental results demonstrate that after software-based network compression optimization,this quantized deployment model achieves a high accuracy rate of 94.60%,with a lower single-inference fixed-point operation count of 16.64 M and a parameter count of 0.079 M.Furthermore,after hardware resource optimization,the pipeline deployment on a domestic FPGA development board achieved an inference frame rate of 366 FPS and a computational efficiency of 8.57 GOPS/W.This research provides a solution for high-performance deployment of deep learning models on small-scale edge computing platforms.

作者孟群康李强赵峰庄莉王秋琳陈锴罗军常胜 Meng Qunkang;Li Qiang;Zhao Feng;Zhuang Li;Wang Qiulin;Chen Kai;Luo Jun;Chang Sheng(School of Physics and Technology,Wuhan University,Wuhan 430072,China;State Grid Information&Telecommunication Co.,Ltd.,Beijing 102211,China;Fujian Yirong Information Technology Co.,Ltd.,Fuzhou 350003,China;Institute of Electronic Fifth Research Dept.,Ministry of Industry and Information Technology,Guangzhou 510507,China)

机构地区武汉大学物理科学与技术学院国网信息通信产业集团有限公司福建亿榕信息技术有限公司工业和信息化部电子第五研究所

出处《计算机应用研究》 CSCD 北大核心 2024年第3期861-865,879,共6页 Application Research of Computers

基金国家自然科学基金资助项目(62074116,61874079) 广东省基础与应用基础研究基金资助项目(2021A1515110939) 武汉大学珞珈青年学者基金资助项目电网人工智能模型优化研究项目(SGITYLYRWZXX2202264) 武汉市知识创新专项资助项目(2023010201010077)。

关键词边缘计算深度可分离卷积流水线部署硬件加速器 FPGA edge computing depthwise separable convolution pipelined deployment hardware accelerator FPGA

分类号 TP391.7 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Dong Wu,Man-Wen Liao,Wei-Tian Zhang,Xing-Gang Wang,Xiang Bai,Wen-Qing Cheng,Wen-Yu Liu.YOLOP:You Only Look Once for Panoptic Driving Perception[J].Machine Intelligence Research,2022,19(6):550-562. 被引量：26
2安胜彪,郭昱岐,白宇,王腾博.小样本图像分类研究综述[J].计算机科学与探索,2023,17(3):511-532. 被引量：12
3陈瑶,王永强,王远飞,邵然,赵思成.降低实现神经网络的FPGA硬件资源消耗的方法研究[J].科学技术创新,2023(13):78-82. 被引量：1
4Liang CHANG,Chenglong LI,Zhaomin ZHANG,Jianbiao XIAO,Qingsong LIU,Zhen ZHU,Weihang LI,Zixuan ZHU,Siqi YANG,Jun ZHOU.Energy-efficient computing-in-memory architecture for AI processor: device, circuit, architecture perspective[J].Science China(Information Sciences),2021,64(6):41-55. 被引量：3
5江瑜,朱铁柱,蒋青松,丁晓文,张栋丞,李新澳.基于FPGA的卷积神经网络硬件加速器设计[J].电子器件,2023,46(4):973-977. 被引量：3
6Umair Muneer Butt,Hadiqa Aman Ullah,Sukumar Letchmunan,Iqra Tariq,Fadratul Hafinaz Hassan,Tieng Wei Koh.Leveraging Transfer Learning for Spatio-Temporal Human Activity Recognition from Video Sequences[J].Computers, Materials & Continua,2023(3):5017-5033. 被引量：1

二级参考文献7

1申志生,于明.说话人识别算法的定点DSP实现[J].单片机与嵌入式系统应用,2011,11(3):78-79. 被引量：3
2孙凡,李会艳,刘斌,段海龙.基于FPGA的基底核神经网络的实现[J].天津职业技术师范大学学报,2017,27(4):6-11. 被引量：2
3zhi-hua zhou.A brief introduction to weakly supervised learning[J].National Science Review,2018,5(1):44-53. 被引量：106
4赵凯琳,靳小龙,王元卓.小样本学习研究综述[J].软件学报,2021,32(2):349-369. 被引量：146
5张振伟,郝建国,黄健,潘崇煜.小样本图像目标检测研究综述[J].计算机工程与应用,2022,58(5):1-11. 被引量：14
6黄光红,林广栋,吴尔杰,赵旭东,宋亮亮.深度神经网络Softmax函数定点算法设计[J].中国集成电路,2022,31(7):60-64. 被引量：8
7刘春磊,陈天恩,王聪,姜舒文,陈栋.小样本目标检测研究综述[J].计算机科学与探索,2023,17(1):53-73. 被引量：13

共引文献40

1宋绍京,陆婷婷,孙翔,龚玉梅,陈建.面向自动驾驶的多任务环境感知算法[J].电子测量技术,2023,46(24):157-163. 被引量：1
2钱承山,沈有为,孙宁,戴仁天.基于Transformer改进YOLOv5的山火检测方法研究[J].电子测量技术,2023,46(16):46-56. 被引量：4
3宫保国,陶兆胜,赵瑞,李庆萍,伍毅,吴浩.基于改进YOLOv5s的道路场景多任务感知算法[J].齐齐哈尔大学学报（自然科学版）,2023,39(3):19-29. 被引量：3
4田博宇,李存阳,王孟凡,宋超,郑运昌,乔福宇,夏孟尧.基于改进YOLOv5算法的马铃薯表皮缺陷程度检测方法研究[J].科学技术创新,2023(11):123-126. 被引量：1
5张韬政,蒙佳健,李康.基于模型不可知元学习与对抗训练的中文情感分析研究[J].中国传媒大学学报（自然科学版）,2023,30(3):31-40. 被引量：1
6杜小芳,程思宇,戴福祥,徐琳,石可民.基于机器视觉的汽车前照灯照射角度调整算法[J].同济大学学报（自然科学版）,2023,51(8):1296-1305.
7赵麒博,王梦梅,潘海英,李晨欢,吴祥龙,郭晨阳.基于改进YOLOv5和DeepSort的车道线检测方法[J].信息技术与信息化,2023(7):217-220.
8潘雪玲,李国和,郑艺峰.面向深度网络的小样本学习综述[J].计算机应用研究,2023,40(10):2881-2888. 被引量：4
9冼卓滢,陈国明,罗家梁,梁伟堂.基于宽度学习防御对抗攻击的图像分类[J].现代计算机,2023,29(17):49-56.
10张炳力,王焱辉,潘泽昊,王怿昕,杨程磊,王欣雨.基于障碍物和车位检测的单阶段多任务YOLO-Parking算法研究[J].合肥工业大学学报（自然科学版）,2024,47(1):1-6. 被引量：1

1倪红.基于应用视角的计算机网络安全技术完善分析[J].网络安全和信息化,2024(2):138-140.
2李尧,李金哲,黄刚,周箩鱼.融合注意力机制的轻量级摔倒检测[J].光电子．激光,2024,35(3):283-292.
3陆小凡.小学语文课外阅读教学的有效策略探究[J].小作家选刊,2023(30):70-73.
4闫平,张彦,郑梦迪,冯永辉,张寒.基于应用能力培养为导向的药学实验改革探索[J].江苏科技信息,2024,41(1):94-96. 被引量：1
5陈学芬,许瑜函,于波,陈慧娟,宋花玲,董英,朱慧.基于应用能力培养的医学统计学导修课设计与实践[J].中医药管理杂志,2023,31(24):11-13.
6朱翊翔,闵志方,朱雪琼,王翔.基于重参数化的红外小目标检测网络[J].光学与光电技术,2024,22(1):10-17. 被引量：1
7张云帆.基于应用型服装专业人才培养的基础立裁课程教学改革与创新研究[J].化纤与纺织技术,2024,53(1):173-175.
8郑良芳,曾德斌,张倩.基于应用统计学专业的统计预测与决策课程在教学中的探索与改革[J].中文科技期刊数据库（全文版）教育科学,2024(2):0105-0108.
9李茂,肖洋轶,宗望远,宋宝.基于改进YOLOv8模型的轻量化板栗果实识别方法[J].农业工程学报,2024,40(1):201-209. 被引量：7
10马继玉.基于应用型国际化人才培养的通识选修课教学模式创新研究[J].山东农业工程学院学报,2024,41(2):115-118.

计算机应用研究

2024年第3期

浏览历史

内容加载中请稍等...

面向小型边缘计算的深度可分离神经网络模型与硬件加速器设计

参考文献6

二级参考文献7

共引文献40

相关作者

相关机构

相关主题

浏览历史