二进制张量分解法简化神经网络推理计算

Simplifying inference computation of neural networks by identical-binary-tensor-factorization

下载PDF

导出

摘要针对现有的简化神经网络推理计算方法面临模型精度下滑及重训练带来的额外开销问题,本文提出一种在比特级减少乘积累加运算(MAC)的乘加操作数的二进制张量分解法(IBTF)。该方法利用张量分解消除多个卷积核之间由于权值比特位重复导致的计算重复,并保持计算结果不变,即无需重训练。在比特级简化模型计算的IBTF算法与量化、稀疏等数据级简化方法正交,即可以协同使用,从而进一步减少MAC计算量。实验结果表明,在多个主流神经网络中,相较于量化与稀疏后的模型,IBTF进一步使计算量减少了3.32倍,并且IBTF在不同卷积核大小、不同权值位宽及不同稀疏率的卷积运算中都发挥了显著的效果。 Existing methods to simplify neural network inference often face the problem of model accuracy degradation and additional overhead caused by retraining. In this work, an identical binary tensor factorization(IBTF) algorithm is proposed for the further reduction of multiply-accumulate(MAC) operands under bit-level. IBTF uses tensor decomposition to extract the computation repetition between multiple convolution kernels due to the bit repetition of synapses, and keep computational results identical without retraining. Moreover, IBTF, which simplifies models under bit-level, is orthogonal to these data-level simplification methods such as quantization and sparsity, so they can be used synergistically to further reduce MAC operands. The experimental results show that, in several mainstream neural networks, compared with models after quantization and sparsity, IBTF further reduces 3. 32 times MAC operands. In addition, IBTF plays a significant role in convolution layers with different sizes, bit-widths and sparsity rates.

作者郝一帆杜子东支天 HAO Yifan;DU Zidong;ZHI Tian(Intelligent Processor Research Center,Institute of Computing Technology,Chinese Academy of Sciences,Beijing 100190;University of Chinese Academy of Sciences,Beijing 100049)

机构地区中国科学院计算技术研究所智能处理器研究中心中国科学院大学

出处《高技术通讯》 CAS 2022年第7期687-695,共9页 Chinese High Technology Letters

基金国家重点研发计划(2017YFB1003101,2018AAA0103300,2017YFA0700900) 国家自然科学基金(61532016,61732007)资助项目。

关键词神经网络二进制张量分解(IBTF) 乘积累加运算(MAC) neural network identical binary tensor factorization(IBTF) multiply-accumulate(MAC)

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1孙建辉,方向忠.卷积神经网络的混合精度量化技术研究[J].信息技术,2020,44(6):66-69. 被引量：5
2陈昀,蔡晓东,梁晓曦,王萌.权重量化的深度神经网络模型压缩算法[J].西安电子科技大学学报,2019,46(2):132-138. 被引量：9
3尹文枫,梁玲燕,彭慧民,曹其春,赵健,董刚,赵雅倩,赵坤.卷积神经网络压缩与加速技术研究进展[J].计算机系统应用,2020,29(9):16-25. 被引量：8

二级参考文献4

1陈俊保,方向忠.卷积神经网络的定点化研究[J].信息技术,2018,42(7):94-96. 被引量：4
2纪荣嵘,林绍辉,晁飞,吴永坚,黄飞跃.深度神经网络压缩与加速综述[J].计算机研究与发展,2018,55(9):1871-1888. 被引量：54
3曹立宇,方向忠.一种基于BNN的行人再识别方法[J].信息技术,2018,42(12):129-133. 被引量：1
4Kaiming Nan,Sicong Liu,Junzhao Du,Hui Liu.Deep Model Compression for Mobile Platforms:A Survey[J].Tsinghua Science and Technology,2019,24(6):677-693. 被引量：7

共引文献18

1石盛林.私营企业的发展战略[J].经济管理,2000,26(4):37-37.
2张明哲,邬海峰,魏世哲.针对宽带功率放大器设计的人工神经网络算法[J].西安电子科技大学学报,2019,46(6):118-124. 被引量：3
3陈嘉钰.智慧档案馆数据化管理功能的实现[J].档案管理,2021(1):57-58. 被引量：9
4马壮,杨威.边缘计算驱动的对话机器人终端部署[J].软件工程,2021,24(2):19-23. 被引量：3
5李付.基于计算机辅助的交换器外壳注塑模具优化研究[J].塑料科技,2020,48(12):90-94. 被引量：4
6李刚.聚类分析和神经网络的无线网络流量预测研究[J].现代电子技术,2021,44(7):91-94. 被引量：5
7田佳鹭,邓立国.基于改进VGG-16神经网络的图像分类方法[J].计算技术与自动化,2021,40(2):131-135. 被引量：10
8张有波,郭威,周悦,徐高飞,李广伟,孙洪鸣.基于多粒度剪枝的水下遗迹实时目标检测[J].激光与光电子学进展,2021,58(14):278-287. 被引量：7
9王国泰,董晶晶,高杨,王乾.基于Bert预训练模型的虚假新闻文本检测[J].信息技术,2022,46(1):137-142. 被引量：2
10杨学杰,宋凯,曹付勇,王一夔,许荣浩.前端化目标检测技术在电力巡检中的应用研究[J].山东电力技术,2022,49(1):7-12. 被引量：5

高技术通讯

2022年第7期

浏览历史

内容加载中请稍等...

二进制张量分解法简化神经网络推理计算

参考文献3

二级参考文献4

共引文献18

相关作者

相关机构

相关主题

浏览历史