一种神经网络指令集扩展与代码映射机制被引量：2

Neural Network Instruction Set Extension and Code Mapping Mechanism

下载PDF

导出

摘要近年来,卷积神经网络(CNN)在图像识别和分类领域的高精度表现使其在机器学习领域受到了广泛关注.然而CNN的计算与访存密集特性给需要支持各种负载的通用处理器带来了巨大压力.因此,涌现了大量CNN专用硬件加速器.它们虽然提高了效率但却缺乏灵活性.基于新兴的RISC-V架构设计了包含10条矩阵指令的专用指令集RV-CNN.通过抽象典型CNN中的计算为指令,该指令集可灵活支持CNN推理过程并具有比通用ISA更高的代码密度.在此基础上,提出了代码至指令的映射机制.通过在Xilinx ZC702上使用该指令集构建不同网络模型后发现,相比于x86处理器,RV-CNN平均具有141倍的能效和8.91倍的代码密度;相比于GPU,平均具有1.25倍的能效和1.95倍的代码密度.另外,相比于以往的CNN加速器,该设计在支持典型CNN模型的同时仍具有不错的能效. In recent years,due to the high-accuracy performance of Convolutional Neural Network(CNN)in character recognition and image classification,it has received widespread attention in the field of machine learning.Nevertheless,the compute-intensive and memory-intensive characteristics of CNN have posed huge challenges to the general-purpose processor,which needs to support various workloads.Therefore,a large number of CNN-specific hardware accelerators have emerged to improve efficiency.Whereas,although previous accelerators are significantly efficient,they usually lack flexibility.In this study,classical CNN models are analyzed and a domain-specific instruction set of 10 matrix instructions,called RV-CNN,is design based on the promising RISC-V architecture.By abstracting CNN computation into instructions,the proposed design can provide sufficient flexibility for CNN and possesses a higher code density than the general ISA.Based on this,a code-to-instruction mapping mechanism is proposed.By using the RV-CNN to build different CNN models on the Xilinx ZC702,it was found that compared to x86 processors,RV-CNN has an average of 141 times energy efficiency and 8.91 times the code density;compared to GPU,it has an average of 1.25 times energy efficiency and 1.95 times the code density.Besides,compared to previous CNN accelerators,the design supports typical CNN models while having good energy efficiency.

作者娄文启王超宫磊周学海 LOU Wen-Qi;WANG Chao;GONG Lei;ZHOU Xue-Hai(School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)

机构地区中国科学技术大学计算机科学与技术学院

出处《软件学报》 EI CSCD 北大核心 2020年第10期3074-3086,共13页 Journal of Software

基金国家重点研发计划(2017YFA0700900,2017YFA0700903) 国家自然科学基金(61379040) 江苏省自然科学基金(BK20181193) 中国科学院青年创新促进会资助项目(2017497)。

关键词卷积神经网络特定领域指令 RISC-V 代码映射现场可编程门阵列 CNN domain-specific instruction RISC-V code maping FPGA

分类号 TP306 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1Yun-Gang Bao,Sa Wang, Member, CCF.Labeled yon Neumann Architecture for Software-Defined Cloud[J].Journal of Computer Science & Technology,2017,32(2):219-223. 被引量：8
2卢丽强,郑思泽,肖倾城,陈德铭,梁云.面向卷积神经网络的FPGA设计[J].中国科学：信息科学,2019,49(3):277-294. 被引量：14

共引文献20

1Bin-Lei Cai,Rong-Qi Zhang,Xiao-Bo Zhou,Lai-Ping Zhao,Ke-Qiu Li.Experience Availability： Tail-Latency Oriented Availability in Software-Defined Cloud Computing[J].Journal of Computer Science & Technology,2017,32(2):250-257. 被引量：1
2徐志伟,李春典.低熵云计算系统[J].中国科学：信息科学,2017,47(9):1149-1163. 被引量：6
3余子濠,刘志刚,李一苇,黄博文,王卅,孙凝晖,包云岗.芯片敏捷开发实践:标签化RISC-V[J].计算机研究与发展,2019,56(1):35-48. 被引量：16
4刘宇航.效率与公平:最大加速比与博弈论上的公平预示下一代云计算新形态[J].前沿科学,2018,12(4):21-26.
5刘建梁,袁贤珍.全并行转置型FIR滤波器在加速卷积神经网络上的应用[J].现代计算机,2019,0(22):19-21.
6丁豪杰,唐迪,姚琳,顾幸生.对伪随机数生成算法的随机性评价方法的研究[J].上海电机学院学报,2020,23(1):44-49. 被引量：3
7Wen-Li Zhang,Ke Liu,Yi-Fan Shen,Ya-Zhu Lan,Hui Song,Ming-Yu Chen,Yuan-Fei Chen.Labeled Network Stack: A High-Concurrency and Low-Tail Latency Cloud Server Framework for Massive IoT Devices[J].Journal of Computer Science & Technology,2020,35(1):179-193.
8李启慧.基于ZYNQ的摄像头采集系统设计与实现[J].电子设计工程,2020,28(8):108-113. 被引量：4
9朱劲涛.基于FPGA的无刷直流电机控制系统探讨[J].通信电源技术,2021,38(4):170-172.
10谢思璞,魏榕山.多分支卷积神经网络的FPGA设计与优化[J].电子技术应用,2021,47(7):97-101. 被引量：1

同被引文献11

1任胜兵,卢念,张万利,潘震宇.基于LLVM架构的NiosⅡ后端快速移植[J].计算机应用与软件,2011,28(12):22-25. 被引量：3
2庄福振,罗平,何清,史忠植.迁移学习研究进展[J].软件学报,2015,26(1):26-39. 被引量：468
3杨一晨,张国和,梁峰,何平,吴斌,高震霆.一种基于可编程逻辑器件的卷积神经网络协处理器设计[J].西安交通大学学报,2018,52(7):153-159. 被引量：7
4陈桂林,马胜,郭阳.硬件加速神经网络综述[J].计算机研究与发展,2019,56(2):240-253. 被引量：18
5曾成龙,刘强.面向嵌入式FPGA的高性能卷积神经网络加速器设计[J].计算机辅助设计与图形学学报,2019,31(9):1645-1652. 被引量：11
6吴艳霞,梁楷,刘颖,崔慧敏.深度学习FPGA加速器的进展与趋势[J].计算机学报,2019,42(11):2461-2480. 被引量：58
7刘杰,葛一凡,田明,马力强.基于ZYNQ的可重构卷积神经网络加速器[J].电子学报,2021,49(4):729-735. 被引量：10
8焦李成,孙其功,杨育婷,冯雨歆,李秀芳.深度神经网络FPGA设计进展、实现与展望[J].计算机学报,2022,45(3):441-471. 被引量：13
9袁海英,曾智勇,成君鹏.面向灵活并行度的稀疏卷积神经网络加速器[J].电子学报,2022,50(8):1811-1818. 被引量：2
10任仕伟,刘朝钾,李剑铮,蒋荣堃,王晓华,薛丞博.面向端到端目标检测神经网络的高效硬件加速系统设计[J].北京理工大学学报,2022,42(12):1312-1320. 被引量：2

引证文献2

1王鹏,陈影,邢明杰.基于LLVM的RISC-V自定义扩展指令支持方法[J].计算机系统应用,2021,30(11):20-26. 被引量：3
2黄佳美,张伟彬,熊官送.基于深度卷积神经网络的汽车图像分类算法与加速研究[J].现代电子技术,2024,47(7):140-144. 被引量：3

二级引证文献6

1黄玉坤,裴喜龙,徐志宇,王建民.基于RISC-V平台openEuler系统的COMO构件技术移植与应用[J].计算机系统应用,2022,31(9):167-172.
2王淳睿,何先波,易洋.基于BERT模型的指令集多标签分类研究[J].智能计算机与应用,2022,12(10):75-78. 被引量：2
3刘阳,汪丹,方林伟,王利明.基于RISC-V的数据安全指令[J].计算机系统应用,2023,32(1):392-398. 被引量：3
4刘春彦,张致铭,赵孝芬.基于计算机视觉的图书识别系统[J].无线互联科技,2024,21(17):50-53.
5颜德彪,黄婧.基于深度学习的人脸识别算法改进与实践[J].电脑编程技巧与维护,2024(9):100-102.
6吉梦雯.神经网络在智能汽车中的应用研究[J].内燃机与配件,2024(18):96-98.

1卢喜东,段哲民,钱叶魁,周巍.一种基于深度森林的恶意代码分类方法[J].软件学报,2020,31(5):1454-1464. 被引量：19
2吴进,张伟华,席萌,代巍.高性能人脸识别加速器优化设计及FPGA实现[J].计算机工程与应用,2020,56(22):48-54. 被引量：3
3魏少军,李兆石,朱建峰,刘雷波.可重构计算:软件可定义的计算引擎[J].中国科学：信息科学,2020,50(9):1407-1426. 被引量：8

软件学报

2020年第10期

浏览历史

内容加载中请稍等...

一种神经网络指令集扩展与代码映射机制被引量：2

参考文献2

共引文献20

同被引文献11

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种神经网络指令集扩展与代码映射机制 被引量：2

参考文献2

共引文献20

同被引文献11

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种神经网络指令集扩展与代码映射机制被引量：2