基于可重构阵列的CNN数据量化方法

CNN data quantization method based on reconfigurable array

下载PDF

导出

摘要针对卷积神经网络(CNN)模型中大量卷积操作,导致网络规模大幅增加,从而无法部署到嵌入式硬件平台,以及不同粒度数据与底层硬件结构不协调导致计算效率低的问题,基于项目组开发的可重构阵列处理器,面向支持多种位宽的运算单元,通过软硬件协同和可重构计算方法,采用KL(Kullback-Leibler)散度自定义量化阈值和随机取整进行截断处理的方式,寻找参数定长的最佳基点位置,设计支持多种计算粒度并行操作的指令及其卷积映射方案,并以此实现三种不同位宽的动态数据量化。实验结果表明,将权值与特征图分别量化到8 bit可以在准确率损失2%的情况下将模型压缩为原来的50%左右;将测试图像量化到三种位宽下进行硬件测试的加速比分别达到1.012、1.273和1.556,最高可缩短35.7%的执行时间和降低56.2%的访存次数,同时仅带来不足1%的相对误差,说明该方法可以在三种量化位宽下实现高效率的神经网络计算,进而达到硬件加速和模型压缩的目的。 Convolution operations lead to a significant increase in the network size,which makes CNN models difficult to deploy to the embedded hardware platform,and different granularity data is not coordinated with the underlying hardware structure,which leads to low computing efficiency.Based on the reconfigurable array with the computing units supporting multiple bit widths,through software hardware cooperation and reconfigurable computing methods,this paper defined the quantization threshold using KL divergence and random integer method,proposed a strategy for finding the best basis point,designed an instruction set and a parallel mapping scheme supporting multiple bit widths to realize three distinct bit widths in data quantization.The results show the quantization scheme with 8 bit weight and feature map can compress model parameter quantity to about 50%with 2%accuracy loss.The acceleration ratios of quantifying the test images to three different bit widths reach 1.012,1.273,and 1.556,respectively,which can shorten the execution time by up to 35.7%and reduce memory access times by 56.2%,while only bringing less than 1%relative error.This indicates that this method can achieve efficient neural network computation under three quantization bit widths,thereby implementing hardware acceleration and model compression.

作者朱家扬蒋林李远成宋佳刘帅 Zhu Jiayang;Jiang Lin;Li Yuancheng;Song Jia;Liu Shuai(School of Communication&Information Engineering,Xi’an University of Science&Technology,Xi’an 710600,China;School of Computer Science&Technology,Xi’an University of Science&Technology,Xi’an 710600,China;School of Electrical&Control Engineering,Xi’an University of Science&Technology,Xi’an 710600,China)

机构地区西安科技大学通信与信息工程学院西安科技大学计算机科学与技术学院西安科技大学电气与控制工程学院

出处《计算机应用研究》 CSCD 北大核心 2024年第4期1070-1076,共7页 Application Research of Computers

基金科技创新2030-“新一代人工智能”重大项目(2022ZD0119005) 国家自然科学基金重点资助项目(61834005)。

关键词卷积神经网络数据量化可重构结构并行映射加速比 convolutional neural network(CNN) data quantization reconfigurable structure parallel mapping acceleration ratio

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1Yanan Lu,Leibo Liu,Jianfeng Zhu,Shouyi Yin,Shaojun Wei.Architecture, challenges and applications of dynamic reconfigurable computing[J].Journal of Semiconductors,2020,41(2):4-13. 被引量：4
2刘运韬,李渊,刘逊韵.基于可重叠混淆树的卷积神经网络[J].计算机应用研究,2022,39(3):938-942. 被引量：2
3巩杰,赵烁,何虎,邓宁.基于FPGA的量化CNN加速系统设计[J].计算机工程,2022,48(3):170-174. 被引量：2
4雷小康,尹志刚,赵瑞莲.基于FPGA的卷积神经网络定点加速[J].计算机应用,2020,40(10):2811-2816. 被引量：10
5常立博,张盛兵.面向混合量化CNNs的可重构处理器设计[J].西北工业大学学报,2022,40(2):344-351. 被引量：1
6山蕊,蒋林,吴昊玥,贺飞龙,刘新闯.Dynamical Self-Reconfigurable Mechanism for Data-Driven Cell Array[J].Journal of Shanghai Jiaotong university(Science),2021,26(4):511-521. 被引量：1

二级参考文献8

1蒋梦莹,林小竹,柯岩,魏战红.基于权值分布的多模型分类算法研究[J].计算机应用研究,2020,37(1):313-316. 被引量：3
2殷崇勇,尹首一,刘雷波,杨超,朱敏,魏少军.可重构媒体处理器任务编译器的前端设计[J].北京邮电大学学报,2011,34(3):108-112. 被引量：2
3WANG YanSheng,LIU LeiBo,YIN ShouYi,ZHU Min,CAO Peng,YANG Jun,WEI ShaoJun.Hierarchical representation of on-chip context to reduce reconfiguration time and implementation area for coarse-grained reconfigurable architecture[J].Science China(Information Sciences),2013,56(11):275-294. 被引量：7
4LIU LeiBo,WANG YanSheng,YIN ShouYi,ZHU Min,WANG Xing,WEI ShaoJun.Row-based configuration mechanism for a 2-D processing element array in coarse-grained reconfigurable architecture[J].Science China(Information Sciences),2014,57(10):166-183. 被引量：3
5余子健,马德,严晓浪,沈君成.基于FPGA的卷积神经网络加速器[J].计算机工程,2017,43(1):109-114. 被引量：36
6施一飞.对使用TensorRT加速AI深度学习推断效率的探索[J].科技视界,2017,0(31):26-27. 被引量：11
7魏浚峰,王东,山丹.基于FPGA的卷积神经网络加速器设计与实现[J].中国集成电路,2019,28(7):18-22. 被引量：6
8胡伟,高博川,黄振航,李瑞瑞.树形结构卷积神经网络优化的城区遥感图像语义分割[J].中国图象图形学报,2020,25(5):1043-1052. 被引量：7

共引文献14

1王利翔,林珊玲,林志贤,郭太良.基于Zynq平台的图像目标检测系统[J].半导体光电,2023,44(1):147-152.
2邱文杰,叶进,胡亮青,杨娟,李其利,莫贱友,易万茂.面向植物病害识别的卷积神经网络精简结构Distilled-MobileNet模型[J].智慧农业（中英文）,2021,3(1):109-117. 被引量：5
3李磊,徐国伟,李文婧,宋庆增.基于深度学习的舰船目标检测算法与硬件加速[J].计算机应用,2021,41(S01):162-166. 被引量：7
4满涛,郭子豪,曲志坚.卷积神经网络的FPGA并行加速设计与实现[J].电讯技术,2021,61(11):1438-1445. 被引量：9
5高彦钊,邬江兴,刘勤让,沈剑良,宋克,张帆.计算体系架构研究综述与思考[J].中国科学：信息科学,2022,52(3):377-398. 被引量：3
6吴宇航,何军.基于FPGA的人体行为识别系统的设计[J].南京信息工程大学学报（自然科学版）,2022,14(3):331-340.
7吴宇航,何军.基于FPGA加速的行为识别算法研究[J].电子测量技术,2022,45(13):25-32. 被引量：3
8张茹,张奋楠,周星宇,俞经虎.基于机器视觉的生鲜牛肉冷藏时间识别研究[J].食品与发酵工业,2022,48(18):75-80.
9何家俊,苏成悦,罗荣芳,施振华,陈堆钰,罗俊丰.基于FPGA的量化推理CNN加速系统研究与设计[J].计算机测量与控制,2022,30(9):162-169. 被引量：1
10谭会生,徐界铭,张驾祥.BP神经网络FPGA实现结构的优化设计[J].计算机工程与应用,2022,58(21):264-271. 被引量：2

1张学军,曹瑞浒,周寅峰,谷群远,梅年松.面向物联网安全认证的RO PUF模型的研究[J].电子设计工程,2024,32(2):56-60.
2刘晓.数字化技术助力房地产企业提升品牌价值[J].信息化建设,2023(12):63-64.
3张勇,李玲桐,崔黎黎.基于YOLOv5s的智慧工地安全管理系统的实现[J].沈阳师范大学学报（自然科学版）,2023,41(5):475-480.
4范瑞琦,陈铭志,牛鑫丽,董文阔,李晓霖,刘硕,刘静,赵明,蔡嘉跃,闫闱,朱树永,郑珂威,徐鹏,郝沁汾,孙凝晖.2023年全同态加密研究热点回眸[J].科技导报,2024,42(1):286-295.
5陈骏立,孙占全.一种阶段重置的知识蒸馏方法研究与仿真[J].建模与仿真,2024,13(2):1455-1465.
6蒋佳妮,陈俊玮.面向视障人群的购物场景服务设计研究[J].传感器技术与应用,2024,12(2):107-116.
7廖飞龙,刘冰倩,黄建业,郑州,武欣欣,游婷婷.基于轻量化模型的智能配电站房云边协同应用模式研究[J].自动化与仪器仪表,2024(3):210-215.
8葛品仕,刘甜甜.基于OpenCL的车道线检测算法加速[J].建模与仿真,2024,13(2):1039-1049.
9张慎,王义凡,李昀,程明,尹鹏飞.基于LBM-LES的不同尺度城市街区模型风环境对比分析[J].建筑科学,2024,40(2):248-257.
10柳振海,李刚,刘博,徐明强,吕晴,蒋上.考虑参数不确定性的海上风电结构模型修正方法[J].电力勘测设计,2024(3):6-11.

计算机应用研究

2024年第4期

浏览历史

内容加载中请稍等...

基于可重构阵列的CNN数据量化方法

参考文献6

二级参考文献8

共引文献14

相关作者

相关机构

相关主题

浏览历史