深度Q学习的二次主动采样方法被引量：16

Twice Sampling Method in Deep Q-network

下载PDF

导出

摘要实现深度Q学习的一种方式是深度Q网络(Deep Q-networks,DQN).经验回放方法利用经验池中的样本训练深度Q网络,构造经验池需要智能体与环境进行大量交互,这样会增加成本和风险.一种减少智能体与环境交互次数的有效方式是高效利用样本.样本所在序列的累积回报对深度Q网络训练有影响.累积回报大的序列中的样本相对于累积回报小的序列中的样本更能加速深度Q网络的收敛速度,并提升策略的质量.本文提出深度Q学习的二次主动采样方法.首先,根据序列累积回报的分布构造优先级对经验池中的序列进行采样.然后,在已采样的序列中根据样本的TD-error(Temporal-difference error)分布构造优先级对样本采样.随后用两次采样得到的样本训练深度Q网络.该方法从序列累积回报和TD-error两个方面选择样本,以达到加速深度Q网络收敛,提升策略质量的目的.在Atari平台上进行了验证.实验结果表明,用经过二次主动采样得到的样本训练深度Q网络取得了良好的效果. One way of implementing the deep Q-learning is the deep Q-networks (DQN). Experience replay is known to train deep Q-networks by reusing transitions from a replay memory. However, an agent needs to interact with the environment lots of times to construct the replay memory, which will increase the cost and risk. To reduce the times of interaction, one way is to use the transitions more efficiently. The cumulative reward of an episode where one transition is obtained from has an impact on the training of DQN. If a transition is obtained from the episode which can get a big cumulative reward, it can accelerate the convergence of DQN and improve the best policy compared with the transition which is obtained from a small cumulative reward's episode. In this paper, we develop a framework for twice active sampling method in the deep Q-learning. First of all, we sample the episodes from the replay memory based on their cumulative reward. Then we sample the transitions from the selected episodes based on their temporal-difference error (TD-error). In the end, we train the DQN with these transitions. The method proposed in this paper not only accelerates the convergence of the deep Q-learning, but also leads to better policies because we replay transitions based on both TD-error and cumulative reward. By analyzing the results on Atari games, the experiments have shown that our method can achieve good results.

作者赵英男刘鹏赵巍唐降龙 ZHAO Ying-Nan;LIU Peng;ZHAO Wei(Pattern Recognition and Intelligent System Research Center,School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001)

机构地区哈尔滨工业大学计算机科学与技术学院模式识别与智能系统研究中心

出处《自动化学报》 EI CSCD 北大核心 2019年第10期1870-1882,共13页 Acta Automatica Sinica

基金国家自然科学基金(61671175,61672190)资助~~

关键词优先经验回放 TD-error 深度Q网络累积回报 Prioritized experience replay temporal-difference error (TD-error) deep Q-networks (DQN) cumulative reward

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1陈兴国,俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报,2016,42(5):685-695. 被引量：32
2郭潇逍,李程,梅俏竹.深度学习在游戏中的应用[J].自动化学报,2016,42(5):676-684. 被引量：22
3田渊栋.阿法狗围棋系统的简要分析[J].自动化学报,2016,42(5):671-675. 被引量：35
4高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268

二级参考文献77

1Silver D, Huang A, Maddison C J, Guez A, Sifre L, van den Driessche G, Schrittwieser J, Antonoglou I, Panneershelvam V, Lanctot M, Dieleman S, Grewe D, Nham J, Kalchbren- ner N, Sutskever I, Lillicrap T, Leach M, Kavukcuoglu K, Graepel T, Hassabis D. Mastering the game of go with deep neural networks and tree search. Nature, 2016, 529(7587): 484-489.
2Tian Y D, Zhu Y. Better computer go player with neural network and long-term prediction. In: International Confer- ence on Learning Representation (ICLR). San Juan, Puerto Rico, 2016.
3Werbos P. Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences [Ph.D. dissertation], Harvard University, USA, 1974.
4Parker D B. Learning Logic, Technical Report TR-47, MIT Press, Cambridge, 1985.
5LeCun Y. Une proc6dure d'apprentissage pour R6seau seuil assymatrique (a learning scheme for asymmetric threshold networks). In: Proceddings of the Cognitiva 85. Paris, France. 599-604 (in French).
6Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors. Nature, 1986, 323(6088): 533-536.
7Bengio Y. Learning Deep Architectures for AI. Hanover MA: Now Publishers Inc. 2009.
8Hinton G E, Osindero S, Teh Y W. A fast learning algo- rithm for deep belief nets. Neural Computation, 2006, 18(7): 1527-1554.
9Ranzato M, Poultney C, Chopra S, LeCun Y. Efficient learn- ing of sparse representations with an energy-based model. In: Proceedings of the 2007 Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007.
10Bengio Y, Lamblin P, Popovici D, Larochelle H. Greedy layer-wise training of deep networks. In: Proceedings of the 2007 Advances in Neural Information Processing Systems. Cambridge, MA: MIT Press, 2007.

共引文献340

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献94

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
2王钦钊,多南讯,吕强,杨奇东.基于强化学习的多智能体合作博弈对抗算法[J].装甲兵学报,2022(5):80-85. 被引量：4
3李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
4李辉,祁宇明.一种复杂环境下基于深度强化学习的机器人路径规划方法[J].计算机应用研究,2020,37(S01):129-131. 被引量：13
5周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
6王雨琪,宁国栋,王晓峰,郝明瑞,王江华.基于微分对策的临近空间飞行器机动突防策略[J].航空学报,2020(S02):69-78. 被引量：14
7朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：329
8杨杰,贺利乐,李荣丽,仪怀亮.基于改进势场栅格法的移动机器人路径规划[J].煤矿机械,2012,33(8):74-76. 被引量：16
9张科南,周浩,陈万春.高超声速飞行器多约束多种机动突防模式弹道规划[J].弹道学报,2012,24(3):85-90. 被引量：16
10舒波,李大铭,赵新良.基于强化学习算法的公交信号优先策略[J].东北大学学报（自然科学版）,2012,33(10):1513-1516. 被引量：4

引证文献16

1刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2
2王云鹏,郭戈.基于深度强化学习的有轨电车信号优先控制[J].自动化学报,2019,45(12):2366-2377. 被引量：16
3罗坤,赵新颖.工业WSNs中基于Q-学习的图路由算法[J].传感技术学报,2020,33(10):1496-1501. 被引量：1
4董永峰,杨琛,董瑶,屈向前,肖华昕,王子秋.基于改进的DQN机器人路径规划[J].计算机工程与设计,2021,42(2):552-558. 被引量：20
5杨彤,秦进.基于平均序列累计奖赏的自适应ε-greedy策略[J].计算机工程与应用,2021,57(11):148-155. 被引量：5
6张建行,刘全.基于情节经验回放的深度确定性策略梯度方法[J].计算机科学,2021,48(10):37-43. 被引量：6
7杨彤,秦进,谢仲涛,袁琳琳.基于遗传交叉算子的深度Q网络样本扩充[J].计算机系统应用,2021,30(12):155-162. 被引量：1
8张佳能,李辉,吴昊霖,王壮.一种平衡探索和利用的优先经验回放方法[J].计算机科学,2022,49(5):179-185. 被引量：1
9何湘远,尘军,郭昊,余卓阳,田博.基于深度强化学习的高速飞行器攻防博弈[J].航天控制,2022,40(4):76-83. 被引量：2
10齐嵘,吴宪凤.基于深度强化学习的机器人路径规划[J].制造业自动化,2022,44(12):177-180. 被引量：4

二级引证文献68

1郑文,朱静宜,刘朝辉.平台智慧监管标尺设计:价格非理性测算与实证数据分析[J].价格理论与实践,2023(11):73-77.
2邓修朋,崔建明,李敏,张小军,宋戈.深度强化学习在机器人路径规划中的应用[J].电子测量技术,2023,46(6):1-8. 被引量：4
3王鹏勇,陈龚涛,赵江烁.基于深度强化学习的机场出租车司机决策方法[J].计算机与现代化,2020(8):94-99.
4孙长银,穆朝絮.多智能体深度强化学习的若干关键科学问题[J].自动化学报,2020,46(7):1301-1312. 被引量：84
5南英,蒋亮.基于深度强化学习的弹道导弹中段突防控制[J].指挥信息系统与技术,2020,11(4):1-9. 被引量：10
6殷耀文.深度强化学习在物联网边缘计算中的应用研究[J].信息技术,2021,45(1):121-125.
7郑忠斌,宋青青,熊增薪.基于雾计算的NB-IoT资源优化模型及仿真[J].粘接,2021(4):87-90. 被引量：2
8尚春琳,刘小明,田玉林,董路熙.基于深度强化学习的综合干线协调控制方法[J].交通运输系统工程与信息,2021,21(3):64-70. 被引量：5
9吴晓光,刘绍维,杨磊,邓文强,贾哲恒.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2021,47(8):1976-1987. 被引量：27
10张荣霞,武长旭,孙同超,赵增顺.深度强化学习及在路径规划中的研究进展[J].计算机工程与应用,2021,57(19):44-56. 被引量：26

1徐进,刘全,章宗长,梁斌,周倩.基于多重门限机制的异步深度强化学习[J].计算机学报,2019,42(3):636-653. 被引量：1
2白辰甲,刘鹏,赵巍,唐降龙.基于TD-error自适应校正的深度Q学习主动采样方法[J].计算机研究与发展,2019,56(2):262-280. 被引量：12
3尼俊红,史上乐.超密集异构网中的Q学习资源调度算法[J].现代电子技术,2019,42(18):5-9. 被引量：2
4吕品.人工智能在网络故障预警的应用[J].电信工程技术与标准化,2019,32(10):42-45. 被引量：3
5蒋鸣和.创新人才是如何培养的[J].中国信息技术教育,2019(3):1-1. 被引量：1
6王晓红,刘芳,麻祥才.基于深度残差学习的彩色图像去噪研究[J].包装工程,2019,40(17):235-242. 被引量：8
7夏蕊,马宏斌.生成式对抗网络的通信网络安全技术[J].移动通信,2019,43(8):21-24.
8周思雨,白成超.基于深度强化学习的行星车路径规划方法研究[J].无人系统技术,2019,2(4):38-45. 被引量：8
9薛俏,丁慧霞,张庚,朱毅,孟萨出拉,高凯强.基于Q Learning算法的电力通信业务路由规划[J].光学与光电技术,2019,17(4):51-56. 被引量：8
10刘全,闫岩,朱斐,吴文,张琳琳.一种带探索噪音的深度循环Q网络[J].计算机学报,2019,42(7):1588-1604. 被引量：11

自动化学报

2019年第10期

浏览历史

内容加载中请稍等...

深度Q学习的二次主动采样方法被引量：16

参考文献4

二级参考文献77

共引文献340

同被引文献94

引证文献16

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

深度Q学习的二次主动采样方法 被引量：16

参考文献4

二级参考文献77

共引文献340

同被引文献94

引证文献16

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

深度Q学习的二次主动采样方法被引量：16