基于专用卷积神经网络加速器的编译器设计与实现被引量：1

Design and implementation of compiler based on special convolutional neural network accelerator

下载PDF

导出

摘要不同框架深度学习模型部署是人工智能落地的核心,然而模型计算量和参数量过大、编程模型未统一导致了各种新型的专用卷积神经网络(CNN)加速器层出不穷,增加了模型的部署难度。对模型压缩和编译工具链这两个方面进行了改进:在模型压缩方面,提出新的通道剪枝标准,结合了通道的相关性和影响性以及输出通道对应的激活值,在保证精度的同时可以极大地削减卷积神经网络的计算量和参数量;在编译工具链方面,设计了一套自动的端到端优化堆栈,提出了针对基于现场可编程门阵列(FPGA)的深度学习编译器设计方法,并在中间表示中添加了所提出的排序标准的剪枝算法。实验结果表明,所设计的编译器于舰船目标检测的任务中,在通用设备上,保证精度损失不超过1%的情况下取得了1.3倍的加速效果;在专用的CNN加速器上取得了1.6倍的加速效果,在部署中能够有效地针对卷积网络进行加速。 The deployment of deep learning models in different frameworks is deemed as the core of the implementation of artificial intelligence algorithms.However,various new-type special Convolutional Neural Network(CNN)accelerators emerge in endlessly caused by the oversize model calculation and parameter quantity and the inconsistent programming model,which has increased the difficulty of model deployment.The improvements has been done from two aspects:model compression and compilation tool chain.In terms of model compression,a new channel pruning standard was proposed,the correlation and influence of the channel were combined,and the activation value corresponding to the output channel was taken into account.It could greatly reduce the calculation and parameter amounts of convolutional neural network while ensuring the accuracy.In terms of compilation tool chain,a set of automatic end-to-end optimization stack was designed,a design method of deep learning complier based on Field Programmable Gate Array(FPGA)was proposed.Besides,the pruning algorithm with proposed sort standard was added to the intermediate representation.The experimental results show that in the task of ship target detection on general equipment,the designed compiler can achieve 1.3 times the acceleration effect while ensuring an accuracy loss of less than 1%.It can achieve 1.6 times the acceleration effect on the special CNN accelerator.In general,it can effectively accelerate the convolutional neural network in deployment.

作者焦禹铭吴凯郭风祥王昭宋庆增 JIAO Yuming;WU Kai;GUO Fengxiang;WANG Zhao;SONG Qingzeng(School of Computer Science and Technology,Tiangong University,Tianjin 300387,China;School of Electrical Engineering,Tiangong University,Tianjin300387,China;Information Science Academy,China Electronics Technology Group Corporation,Beijing 100086,China)

机构地区天津工业大学计算机科学与技术学院天津工业大学电气工程学院中国电子科技集团公司信息科学研究院

出处《计算机应用》 CSCD 北大核心 2022年第S01期208-214,共7页 journal of Computer Applications

关键词现场可编程门阵列模型压缩深度学习编译器中间表示目标检测 Field Programmable Gate Array(FPGA) model compression deep learning complier intermediate representation object detection

分类号 TP314 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1李磊,徐国伟,李文婧,宋庆增.基于深度学习的舰船目标检测算法与硬件加速[J].计算机应用,2021,41(S01):162-166. 被引量：7
2黄瑞,金光浩,李磊,姜文超,宋庆增.轻量化神经网络加速器的设计与实现[J].计算机工程,2021,47(9):185-190. 被引量：9

二级参考文献13

1尹首一.人工智能芯片概述[J].微纳电子与智能制造,2019,1(2):7-11. 被引量：16
2崔小乐,陈红英,崔小欣,张兴.一种软硬件协同设计工具原型及其设计描述方法[J].微电子学与计算机,2007,24(6):28-30. 被引量：4
3戴伟聪,金龙旭,李国宁,郑志强.遥感图像中飞机的改进YOLOv3实时检测算法[J].光电工程,2018,45(12):81-89. 被引量：57
4卢冶,陈瑶,李涛,蔡瑞初,宫晓利.面向边缘计算的嵌入式FPGA卷积神经网络构建方法[J].计算机研究与发展,2018,55(3):551-562. 被引量：47
5赵彤,乔庐峰,陈庆华.一种基于FPGA的CNN加速器设计[J].通信技术,2019,52(5):1242-1248. 被引量：6
6李子聪,曾宇航,熊晓明.基于SoC的卷积神经网络系统设计[J].电子测量技术,2019,42(10):126-131. 被引量：6
7蹇强,张培勇,王雪洁.一种可配置的CNN协加速器的FPGA实现方法[J].电子学报,2019,47(7):1525-1531. 被引量：20
8窦阳,卿粼波,何小海,廖海鹏.基于FPGA的CNN加速器设计与实现[J].信息技术与网络安全,2019,38(11):96-101. 被引量：6
9马啸,邵利民,金鑫,徐冠雷.舰船目标识别技术研究进展[J].科技导报,2019,37(24):65-78. 被引量：16
10赵江洪,张晓光,杨璐,马思宇,王殷瑞,董岩,孙铭悦,陈朝阳.深度学习的遥感影像舰船目标检测[J].测绘科学,2020,45(3):110-116. 被引量：19

共引文献13

1蒋翼浓,张世义.交通标志识别技术综述[J].汽车工程师,2021(8):15-18. 被引量：2
2王昱潭,薛君蕊.改进SSD的灵武长枣图像轻量化目标检测方法[J].农业工程学报,2021,37(19):173-182. 被引量：8
3王伟,穆洪云.基于ANSYS液压缸缸筒的模态分析和轻量化设计[J].液压气动与密封,2022,42(7):15-19. 被引量：3
4梁翼鸿,黄丹平,王鑫,于少东.基于FPGA的快速橡胶异物检测方法研究[J].国外电子测量技术,2022,41(10):112-118. 被引量：1
5唐明军,陈仁文,刘艳,葛鲲鹏.基于ARM和FPGA的船舶姿态测量系统的设计[J].电子器件,2022,45(6):1497-1502. 被引量：1
6缪丹丹,张鹏,张鑫宇,崔敏.基于ZYNQ平台的通用卷积加速器设计[J].国外电子测量技术,2022,41(11):72-77. 被引量：4
7孙小坚,林瑞全,方子卿,马驰.基于FPGA加速的低功耗的MobileNetV2 网络识别系统[J].计算机测量与控制,2023,31(5):221-227. 被引量：3
8毕江海.基于目标识别的轨旁设备定测装置研究[J].铁道建筑技术,2023(6):126-129.
9陈逸,刘博生,徐永祺,武继刚.混合精度频域卷积神经网络FPGA加速器设计[J].计算机工程,2023,49(12):1-9.
10陆天宇,徐湛,崔红元,龚昊,王琤.大幅宽SAR图像嵌入式舰船实时检测系统设计[J].计算机工程与应用,2024,60(1):301-309. 被引量：3

同被引文献8

1于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：8
2韩小芬,李凡长.动态模糊逻辑程序设计语言的指称语义[J].计算机科学,2009,36(1):153-157. 被引量：2
3刘磊,李振国,高艳华,丁岩,申春,刘雷.特定领域语言MISPC及其编译框架实现技术[J].吉林大学学报（理学版）,2016,54(4):805-812. 被引量：3
4王博,于哲舟,袁军,付宏,于建群.基于MBD和DEM耦合的新型CAE软件[J].吉林大学学报（理学版）,2020,58(2):371-378. 被引量：4
5胡坤,特日根.基于Runtime的iOS编程研究与实现[J].吉林大学学报（信息科学版）,2021,39(1):106-113. 被引量：1
6池昊宇,陈长波.基于机器学习的编译器自动调优综述[J].计算机科学,2022,49(1):241-251. 被引量：7
7徐浩然,王勇军,黄志坚,解培岱,范书珲.基于前馈神经网络的编译器测试用例生成方法[J].软件学报,2022,33(6):1996-2011. 被引量：8
8何杰,屈国兴.基于XML Schema分块的快速本体构建方法[J].吉林大学学报（理学版）,2022,60(5):1113-1122. 被引量：5

引证文献1

1赵小芳,窦全胜,姜云霄.动态模糊逻辑程序设计语言编译器的实现[J].吉林大学学报（信息科学版）,2023,41(3):503-511.

计算机应用

2022年第S01期

浏览历史

内容加载中请稍等...

基于专用卷积神经网络加速器的编译器设计与实现被引量：1

参考文献2

二级参考文献13

共引文献13

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于专用卷积神经网络加速器的编译器设计与实现 被引量：1

参考文献2

二级参考文献13

共引文献13

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于专用卷积神经网络加速器的编译器设计与实现被引量：1