深度强化学习模型轻量化算法研究被引量：1

Research on Lightweight Algorithms for Deep Reinforcement Learning

下载PDF

导出

摘要针对深度强化学习网络难以部署到资源受限终端设备的问题,本文提出一种深度神经网络优化压缩算法。该算法引入倒残差模块作为主干网络,实现网络的轻量化;采用基于响应的知识蒸馏,以动作策略为蒸馏目标,弥补网络轻量化造成的精度损失;采用基于特征的知识蒸馏,对网络中间层的特征向量进行蒸馏,进一步提升网络精度。实验结果表明,轻量化后的网络参数量为19.79M,参数量为原网络的59.8%,性能提升约12.1%,且在网络轻量化的同时,提升了模型表现,验证了所提算法的有效性。 In response to the difficulty of deploying deep reinforcement learning networks on resource- constrained terminal devices, a deep neural network optimization compression algorithm is proposed in this paper. This algorithm introduces an inverse residual module as the backbone network to achieve the lightweight of network;adopts response-based knowledge distillation, with action strategy as the distillation target, to make up for the accuracy loss caused by the lightweight of network;adopts feature-based knowledge distillation to distill the feature vectors in the middle layer of the network, further improving network accuracy. Experimental results show that the parameter size of the lightweight network is 19.79M, the parameter size is 59.8% of the original network, the performance is improved by about 12.1%, and the model performance is improved while the network is lightweight, verifying the effectiveness of the proposed algorithm.

作者安天一李宁王超

机构地区北京信息科技大学计算机学院

出处《计算机科学与应用》 2023年第4期779-788,共10页 Computer Science and Application

关键词深度强化学习轻量化设计知识蒸馏

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献3

1李琛,黄炎焱,张永亮,陈天德.Actor-Critic框架下的多智能体决策方法及其在兵棋上的应用[J].系统工程与电子技术,2021,43(3):755-762. 被引量：25
2赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
3SAMCHENKO A. N. KOSHELEVA A.V. SHVYREV A. N. PIVOVAROV A. A..Low-Frequency Hydroacoustic Experiments on the Shelf Using the Data of Geoacoustic Sediment Model[J].Chinese Physics Letters,2014,31(12):66-69. 被引量：1

二级参考文献143

1Gulin O E and Yaroshchuk I O 2014 Dokl. Earth Sci. 458 1121.
2Gulin O E and Yaroshchuk I O 2014 J. Comp. Acoust. 22 1440002.
3Gulin O 1 and Yaroshchuk I O 2014 J. Comp. Acoust. 22 1440006.
4Peng H S and Li F H 2007 Chin. Phys. Lett. 24 1977.
5Lin W S, Liang G L, h J et al 2013 Acta Phys. Sin. 62 144301 (in Chinese).
6Miao G Q, Wei R J and Hu Y 2009 Chin. Phys. Lett. 26 114303.
7Yang J, Tang D and Williams K L 2008 J. Acoust, Soc. Am. 124 EL116.
8Lynch J F and Tang D 2008 J. Acoust. Soc. Am. 124 EL63.
9Dettmer J and Dosso S E 2013 J. Aeoust. Soc. Am. 133 2612.
10Liang G L, Pang F B and Zhang G P 2014 Acta Phys. Sin. 63 034303 (in Chinese).

共引文献153

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：46
2舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
3程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：120
4张董,游福成,王惠华,姜超,李明.受限制Boltzmann机深度置信网络与手写数字识别[J].北京印刷学院学报,2016,24(4):56-58. 被引量：4
5侯宇青阳,全吉成,王宏伟.深度学习发展综述[J].舰船电子工程,2017,37(4):5-9. 被引量：39
6王奇,秦进.基于动作空间划分的MAXQ自动分层方法[J].计算机应用,2017,37(5):1357-1362.
7石征锦,王康.深度强化学习在Atari视频游戏上的应用[J].电子世界,2017,0(16):105-106. 被引量：3
8刘勇,李青,于翠波.深度学习技术教育应用:现状和前景[J].开放教育研究,2017,23(5):113-120. 被引量：42
9陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
10温暖,刘正华,祝令谱,孙扬.深度强化学习在变体飞行器自主外形优化中的应用[J].宇航学报,2017,38(11):1153-1159. 被引量：18

同被引文献27

1陈云斌,王全,陆威.MEC硬件加速技术分析[J].移动通信,2020,44(8):7-11. 被引量：2
2沈学民,承楠,周海波,吕丰,权伟,时伟森,吴华清,周淙浩.空天地一体化网络技术:探索与展望[J].物联网学报,2020,4(3):3-19. 被引量：78
3王怡,那振宇,修露婵,林彬,管明祥.高空平台通信及其网络部署技术[J].移动通信,2020,44(12):39-44. 被引量：4
4徐常志,靳一,李立,张学娇,谢天娇,汪晓燕,李明玉,曹振新.面向6G的星地融合无线传输技术[J].电子与信息学报,2021,43(1):28-36. 被引量：34
5唐清清,李斌.面向空天地一体化网络的移动边缘计算技术[J].无线电通信技术,2021,47(1):27-35. 被引量：9
6徐晓帆,王妮炜,高璎园,陆洲,汪春霆,陆军.陆海空天一体化信息网络发展研究[J].中国工程科学,2021,23(2):39-45. 被引量：19
7李新,王强.6G网络架构演进及挑战[J].通信与信息技术,2021(4):35-37. 被引量：4
8张飞,陈小前,于帅,季明江,刘勇,曹璐.基于天基边缘计算的在轨智能技术[J].上海航天（中英文）,2021,38(4):19-24. 被引量：7
9张晓凯,郭道省,张邦宁.空天地一体化网络研究现状与新技术的应用展望[J].天地一体化信息网络,2021,2(4):19-26. 被引量：19
10刘杨,彭木根.星地融合智能组网:愿景与关键技术[J].北京邮电大学学报,2021,44(6):1-12. 被引量：10

引证文献1

1武燕燕,吴松.空天地海一体化网络边缘计算的资源管理研究[J].移动通信,2024,48(9):124-131.

1张松兰.基于卷积神经网络的图像识别综述[J].西安航空学院学报,2023,41(1):74-81. 被引量：21
2邢璐,李鸿燕,张昱,任健.改进多级混合注意力跳变连接的语音增强算法[J].电子设计工程,2023,31(8):15-20. 被引量：1
3黄思萌,王梅,杨晨.基于注意力机制的交通信号控制技术[J].信息技术与信息化,2023(3):93-96. 被引量：1
4石晴晴,张润锋,张连洪,兰世泉.基于强化学习算法的水下滑翔机路径跟踪研究[J].中国机械工程,2023,34(9):1100-1110. 被引量：1
5王影,程磊.基于深度学习的农作物病态叶片识别算法[J].信息技术与信息化,2023(4):195-198. 被引量：1
6颜永,白宗文.基于强化学习的生成式对话系统研究[J].数据挖掘,2023,13(2):185-193.
7王雪柯,陈晋音,陆小松,张旭鸿.结合模仿对抗策略的深度强化学习鲁棒性增强方法[J].小型微型计算机系统,2023,44(5):930-938.
8骆祖莹,万桢洪,李玉顺.面向考场视频中作弊行为的层次式检测方法[J].中国考试,2023(5):45-52. 被引量：4
9无.健康型智能化数码涂装关键技术与集成[J].中国人造板,2023,30(5):44-44.
10杨会渠,杨国为,何金钟,徐健.支持全整数推断的神经网络递增定点量化算法研究[J].青岛大学学报（工程技术版）,2023,38(2):10-17.

计算机科学与应用

2023年第4期

浏览历史

内容加载中请稍等...

深度强化学习模型轻量化算法研究被引量：1

参考文献3

二级参考文献143

共引文献153

同被引文献27

引证文献1

相关作者

相关机构

相关主题

浏览历史

深度强化学习模型轻量化算法研究 被引量：1

参考文献3

二级参考文献143

共引文献153

同被引文献27

引证文献1

相关作者

相关机构

相关主题

浏览历史

深度强化学习模型轻量化算法研究被引量：1