基于粗粒度数据流架构的稀疏卷积神经网络加速被引量：7

Acceleration of Sparse Convolutional Neural Network Based on Coarse-Grained Dataflow Architecture

下载PDF

导出

摘要卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明:与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77%的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和1.14倍(Alexnet)、1.23倍(VGG16). Convolutional neural network(CNN)achieves good performance in image processing,speech recognition,natural language processing and other fields.Large-scale neural network models often encounter resource constraints such as computing and storage.The emergence of sparse neural networks effectively relieves the need for computing and storage.Although existing domain-specific accelerators can effectively handle sparse networks,they achieve high energy efficiency through tight coupling of algorithms and structures,and lose the flexibility of the structure.The coarse-grained dataflow architecture can implement different neural network applications through flexible instruction scheduling.Based on this architecture,the regular computing characteristics of dense convolution allow different channels to share the same set of instruction to execute.However,there are sparse weights in sparse networks,making these instructions have 0-value-related invalid instructions,which makes the existing instruction execution method cannot automatically skip them,resulting in invalid calculations.At the same time,when executing an irregular sparse network,existing instruction mapping methods cause an unbalanced load on the computing array.These problems hinder the improvement of sparse network performance.In this paper,based on the premise that different channels share a set of instructions,we add an instruction control unit based on the data and instruction characteristics of the sparse network to achieve detection and skipping of 0-value related instructions in the weight data,while using the load balanced instruction mapping algorithm to solve the problem of uneven instruction execution in sparse networks.Experiments show that compared with dense networks,sparse networks achieve an average performance increase of 1.55X and an energy reduction of 63.77%.In addition,it achieves 2.39X(Alexnet),2.28X(VGG16)and 1.14X(Alexnet),1.23X(VGG16)speedup over GPU(cuSparse)and Cambricon-X,respectively.

作者吴欣欣欧焱李文明王达张浩范东睿 Wu Xinxin;Ou Yan;Li Wenming;Wang Da;Zhang Hao;Fan Dongrui(State Key Laboratory of Computer Architecture(Institute of Computing Technology,Chinese Academy of Sciences),Beijing 100190;Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;School of Computer Science and Technology,University of Chinese Academy of Sciences,Beijing 100049)

机构地区计算机体系结构国家重点实验室(中国科学院计算技术研究所) 中国科学院计算技术研究所中国科学院大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1504-1517,共14页 Journal of Computer Research and Development

基金国家自然科学基金项目(61732018,61872335,61802367,61672499) 中国科学院战略性先导科技专项(C类)(XDC05000000) 中国科学院国际伙伴计划(171111KYSB20170032) 计算机体系结构国家重点实验室创新项目(CARCH4408,CARCH4412)。

关键词领域专用加速器粗粒度数据流稀疏卷积神经网络指令映射指令控制 domain-specific accelerator coarse-grained dataflow sparse convolutional neural network instruction mapping instruction control

分类号 TP387 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1申小伟,叶笑春,王达,张浩,王飞,谭旭,张志敏,范东睿,唐志敏,孙凝晖.一种面向科学计算的数据流优化方法[J].计算机学报,2017,40(9):2181-2196. 被引量：9
2向陶然,叶笑春,李文明,冯煜晶,谭旭,张浩,范东睿.基于细粒度数据流架构的稀疏神经网络全连接层加速[J].计算机研究与发展,2019,56(6):1192-1204. 被引量：11

二级参考文献6

1Xiao-Wei Shen,Xiao-Chun Ye,Xu Tan,Da Wang,Lunkai Zhang,Wen-Ming Li,Zhi-Min Zhang,Dong-Rui Fan,Ning-Hui Sun.An Efficient Network-on-Chip Router for Dataflow Architecture[J].Journal of Computer Science & Technology,2017,32(1):11-25. 被引量：6
2申小伟,叶笑春,王达,张浩,王飞,谭旭,张志敏,范东睿,唐志敏,孙凝晖.一种面向科学计算的数据流优化方法[J].计算机学报,2017,40(9):2181-2196. 被引量：9
3Xu Tan,Xiao-Chun Ye,Xiao-Wei Shen,Yuan-Chao Xu,Da Wang,Lunkai Zhang,Wen-Ming Li,Dong-Rui Fan,Zhi-Min Tang.A Pipelining Loop Optimization Method for Dataflow Architecture[J].Journal of Computer Science & Technology,2018,33(1):116-130. 被引量：2
4Xu Tan,Xiao-Wei Shen,Xiao-Chun Ye,Da Wang,Dong-Rui Fan,Lunkai Zhang,Wen-Ming Li,Zhi-Min Zhang,Zhi-Min Tang.A Non-Stop Double Buffering Mechanism for Dataflow Architecture[J].Journal of Computer Science & Technology,2018,33(1):145-157. 被引量：4
5纪荣嵘,林绍辉,晁飞,吴永坚,黄飞跃.深度神经网络压缩与加速综述[J].计算机研究与发展,2018,55(9):1871-1888. 被引量：55
6陈桂林,马胜,郭阳.硬件加速神经网络综述[J].计算机研究与发展,2019,56(2):240-253. 被引量：17

共引文献17

1刘闯,何峰,肖兮,董小社,张兴军.计算流体力学程序单核指令级优化方法[J].西安交通大学学报,2018,52(12):77-83.
2李易,常成娟,卢圣健,江道忠,范东睿,叶笑春.面向数据流结构的指令映射优化方法[J].计算机工程与科学,2019,41(1):9-13.
3冯煜晶,欧焱,叶笑春,范东睿,谭旭,唐志敏.基于网络负载特征感知的数据流指令调度机制研究[J].高技术通讯,2018,28(11):885-898. 被引量：2
4向陶然,叶笑春,李文明,冯煜晶,谭旭,张浩,范东睿.基于细粒度数据流架构的稀疏神经网络全连接层加速[J].计算机研究与发展,2019,56(6):1192-1204. 被引量：11
5贾小飞.基于代码设计工具地素描教育研究[J].粘接,2020,42(5):173-176.
6季玉香,朱延.数据中心网络链路负载传输优化方法[J].信息技术,2020,44(6):104-107. 被引量：1
7方瑞,于俊洋,董李锋.基于特征矩阵构造与BP神经网络的垃圾文本过滤模型[J].计算机工程,2020,46(8):271-276. 被引量：6
8安述倩,李文明,范志华,吴海彬,吴萌,王达,张浩,唐志敏.NDP-Ledger:面向区块链应用的通用高通量加速架构[J].高技术通讯,2020,30(11):1093-1103.
9路晶,胡顺仿.基于粒度理论的高维数据流并行计算方法[J].计算机仿真,2021,38(5):246-249.
10范志华,李文明,叶笑春,范东睿.数据流计算研究进展与概述[J].数据与计算发展前沿,2021,3(5):65-81. 被引量：1

同被引文献56

1范东睿,袁楠,张军超,周永彬,林伟,宋风龙,叶笑春,黄河,余磊,龙国平,张浩,刘磊.Godson-T:An Efficient Many-Core Architecture for Parallel Program Executions[J].Journal of Computer Science & Technology,2009,24(6):1061-1073. 被引量：11
2蔡湛,李如仁,李新科,吴华意.一种基于激光点云数据的房屋轮廓线提取方法[J].地理与地理信息科学,2013,29(5):17-21. 被引量：33
3Li-Jing Wang,Yong-Qiang Lv,Ilya Moiseenko,Dong-Sheng Wang.A Dataflow-Oriented Programming Interface for Named Data Networking[J].Journal of Computer Science & Technology,2018,33(1):158-168. 被引量：1
4唐晟,赵耀华,刁彦华,全贞花.多孔挤压铝扁管电子芯片热沉的热性能研究[J].山东科学,2018,31(3):39-47. 被引量：4
5刘志成,祝永新,汪辉,田犁,封松林.基于FPGA的卷积神经网络并行加速结构设计[J].微电子学与计算机,2018,35(10):80-84. 被引量：9
6王飞,张雪莲,裴为华,陈弘达.基于CMOS工艺的抗光噪声神经微电极[J].半导体光电,2018,39(5):671-674. 被引量：2
7刘芳,杨志鹏,袁卫星,任柯先.电子芯片散热技术的研究现状及发展前景[J].科学技术与工程,2018,18(23):163-169. 被引量：33
8何凯波,冯鲁文,王钧,刘宗尧.基于航空发动机叶片结构的电子芯片散热器设计[J].技术与市场,2019,26(1):117-117. 被引量：3
9王慧丽,郭阳,屈婉霞.基于通用向量DSP的深度学习硬件加速技术[J].中国科学：信息科学,2019,49(3):256-276. 被引量：5
10向陶然,叶笑春,李文明,冯煜晶,谭旭,张浩,范东睿.基于细粒度数据流架构的稀疏神经网络全连接层加速[J].计算机研究与发展,2019,56(6):1192-1204. 被引量：11

引证文献7

1左倪娜,覃晓.物体表面三维虚拟图像点云数据提取仿真[J].计算机仿真,2023,40(1):255-258.
2石峰,石若愚.代码自动生成的小程序漏洞实时检测系统设计[J].微型电脑应用,2023,39(11):199-203.
3程祥.基于改进迁移学习的智能变电站设备巡检平台[J].电气技术与经济,2023(9):352-354.
4马春燕,陈晶,姚鼎,张涛.嵌入式智能计算机计算能力评测方法[J].计算机学报,2023,46(11):2279-2301. 被引量：3
5李德建,杨小坤,杨立新,沈冲飞,邱宇航.面向片上系统的多区域温度控制系统设计[J].集成技术,2023,12(6):43-56.
6李德建,冯曦,王国旋,谭浪,沈冲飞,范志华,李文明.Flex-DMA:支持多模式高效传输的DMA系统设计[J].微电子学与计算机,2024,41(6):103-114.
7李瑾辉,张国梁,苏杨,朱晓鸿,王鑫.基于深度卷积神经网络的端到端语音识别方法研究[J].自动化技术与应用,2024,43(6):55-59.

二级引证文献3

1李卓.计算机算法设计及数据结构离散性研究[J].科技资讯,2024,22(5):51-53.
2甘惟,王元楷,李翔.嵌入式机器学习方法在街区形态生成设计中的应用探索[J].西部人居环境学刊,2024,39(3):1-7.
3黄宏涛,袁红春.基于轻量级非线性无激活网络的水下图像增强[J].渔业现代化,2024,51(5):63-71.

1中国主导的首个盘条领域专用国际标准提案获ISO批准立项[J].企业决策参考,2021(13):25-25.
2陈飞玥,朱玉莲,陈晓红.多层特征融合的PCANet及其在人脸识别中的应用[J].南京师大学报（自然科学版）,2021,44(2):127-133. 被引量：5
3张娜.探讨探究式教学在职业高中生物教学中的应用[J].爱情婚姻家庭（中旬）,2021(3):0102-0102.
4肖光义,董张玉,杨学志.双重判别的SAR图像超分辨率重建[J].计算机科学与应用,2021,11(6):1617-1626.
5简世德,占娟娟.“互联网+教育”下乡村师资均衡发展研究——以衡阳市为例[J].中国集体经济,2021(22):163-164.
6王蓓蓓,谢明成,张汀荟,吴敏.考虑收益公平性的分布式光储系统基于动态费率的共享模式研究[J].电网技术,2021,45(6):2228-2236. 被引量：8
7赵进,杨小军.基于GRW和FastText模型的电信用户投诉文本分类应用[J].电信科学,2021,37(6):125-131. 被引量：2
8朱琼,袁永晖,田春岐.基于改进条件变分自编码器的入侵检测研究[J].计算机科学与应用,2021,11(6):1637-1648.
9王双印.超薄碳包覆过渡金属掺杂磷化钼电解水制氢催化剂[J].物理化学学报,2021,37(7):14-15. 被引量：3
10吴留恩,赵迪.石灰石粉混凝土在核电联合泵房工程中的应用[J].电力勘测设计,2021(6):42-49. 被引量：2

计算机研究与发展

2021年第7期

浏览历史

内容加载中请稍等...

基于粗粒度数据流架构的稀疏卷积神经网络加速被引量：7

参考文献2

二级参考文献6

共引文献17

同被引文献56

引证文献7

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于粗粒度数据流架构的稀疏卷积神经网络加速 被引量：7

参考文献2

二级参考文献6

共引文献17

同被引文献56

引证文献7

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于粗粒度数据流架构的稀疏卷积神经网络加速被引量：7