基于平均神经网络参数的DQN算法被引量：2

DQN Algorithm Based on Averaged Neural Network Parameters

下载PDF

导出

摘要在深度强化学习领域,如何有效地探索环境是一个难题。深度Q网络(Deep Q-Network,DQN)使用ε-贪婪策略来探索环境,ε的大小和衰减需要人工进行调节,而调节不当会导致性能变差。这种探索策略不够高效,不能有效解决深度探索问题。针对DQN的ε-贪婪策略探索效率不够高的问题,提出一种基于平均神经网络参数的DQN算法(Averaged Parameters DQN,AP-DQN)。该算法在回合开始时,将智能体之前学习到的多个在线值网络参数进行平均,得到一个扰动神经网络参数,然后通过扰动神经网络进行动作选择,从而提高智能体的探索效率。实验结果表明,AP-DQN算法在面对深度探索问题时的探索效率优于DQN,在5个Atari游戏环境中相比DQN获得了更高的平均每回合奖励,归一化后的得分相比DQN最多提升了112.50%,最少提升了19.07%。 In the field of deep reinforcement learning,how to efficiently explore environment is a hard problem.Deep Q-network algorithm explores environment with epsilon-greedy policy whose size and decay need manual tuning.Unsuitable tuning will cause a poor performance.The epsilon-greedy policy is ineffective and cannot resolve deep exploration problem.In this paper,in order to solve the problem,a deep reinforcement learning algorithm based on averaged neural network parameters(AP-DQN)is proposed.At the beginning of episode,the algorithm averages the multiple online network parameters learned by the agent to obtain a perturbed neural network parameter,and then selects an action through the perturbed neural network,which can improve the agent’s exploration efficiency.Experiment results show that the exploration efficiency of AP-DQN is better than that of DQN on deep exploration problem and AP-DQN get higher scores than DQN in five Atari games.The normalized score increases by 112.50%at most and 19.07%at least compared with DQN.

作者黄志勇吴昊霖王壮李辉 HUANG Zhi-yong;WU Hao-lin;WANG Zhuang;LI Hui(College of Computer Science,Sichuan University,Chengdu 610065,China)

机构地区四川大学计算机学院

出处《计算机科学》 CSCD 北大核心 2021年第4期223-228,共6页 Computer Science

基金教育部联合基金(6141A02011607)。

关键词深度强化学习深度Q网络神经网络参数深度探索 Deep reinforcement learning Deep Q-network Neural network parameters Deep exploration

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
2杨文臣,张轮,Zhu Feng.多智能体强化学习在城市交通网络信号控制方法中的应用综述[J].计算机应用研究,2018,35(6):1613-1618. 被引量：31
3刘全,闫岩,朱斐,吴文,张琳琳.一种带探索噪音的深度循环Q网络[J].计算机学报,2019,42(7):1588-1604. 被引量：11
4杨珉,汪洁.解决深度探索问题的贝叶斯深度强化学习算法[J].计算机科学与探索,2020,14(2):307-316. 被引量：8
5刘全,翟建伟,钟珊,章宗长,周倩,章鹏.一种基于视觉注意力机制的深度循环Q网络模型[J].计算机学报,2017,40(6):1353-1366. 被引量：20

二级参考文献29

1高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
2Puterman M L.Markov Decision Process:Discrete Dynamic Dtochastic Programming.New-York:Wiley,1994
3Kaya M,Alhajj R.Fuzzy olap association rules mining based modular reinforcement learning approach for multiagent systems.IEEE Transactions on Systems,Man and Cybernetics part B:Cybernetics,2005,35(2):326-338
4Singh S,Bertsekas D.Reinforcement learning for dynamic channel allocation in cellular telephone systems//Mozer M C,Jordan M L,Petsche T.Proceedings of the NIPS-9.Cambridge MA:MIT Press,1997:974
5Vengerov D N,Berenji H R.A fuzzy reinforcement learning approach to power control in wireless transmitters.IEEE Transactions on Systems,Man,and Cybernetics part B:Cybernetics,2005,35(4):768-778
6Critesl R H,Barto A G.Elevator group control using multiple reinforcement learning Agents.Machine Learning,1998,33(2/3):235-262
7Kaelbling L P,Littman M L,Moore A P.Reinforcement learning:A survey.Journal of Artificial Intelligence Research,1996,4:237-285
8Sutton R S,Barto A G.Reinforcement Learning:An Introduction.Cambridge MA:MIT Press,1998
9Schwartz A.A reinforcement learning method for maximizing undiscounted rewards//Huns M N,Singh M P eds.Proceedings of the 10th Annual Conference on Machine Learning.San Francisco:Morgan Kaufmann,1993:298-305
10Tadepalli P,Ok D.Model-based average reward reinforcement learning.Artificial Intelligence,1998,100(1/2):177-224

共引文献98

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2Di Cao,Weihao Hu,Junbo Zhao,Guozhou Zhang,Bin Zhang,Zhou Liu,Zhe Chen,Frede Blaabjerg.Reinforcement Learning and Its Applications in Modern Power and Energy Systems: A Review[J].Journal of Modern Power Systems and Clean Energy,2020,8(6):1029-1042. 被引量：27
3段雯瑜,陈敏东,黄山江,戴美魁,王新宁,徐利.融合Lamb-Jenkinson分型法和LSTM神经网络的PM2.5预测研究[J].环境科学与技术,2020(1):92-97. 被引量：5
4李瑾,刘全,杨旭东,杨凯,翁东良.一种改进的平均奖赏强化学习方法在RoboCup训练中的应用[J].苏州大学学报（自然科学版）,2012,28(2):21-26. 被引量：2
5张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
6王巍巍,陈兴国,高阳.一种结合Tile Coding的平均奖赏强化学习算法[J].模式识别与人工智能,2008,21(4):446-452.
7王冠军,王茂励,赵莹.基于马尔可夫决策模型的测试向量排序新方法[J].计算机科学,2010,37(5):287-290. 被引量：1
8付燕宁,张家臣,刘磊.面向预定义过程的强化学习WS组合[J].吉林大学学报（工学版）,2010,40(5):1313-1317.
9刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15
10彭正辉.摩天大楼里的复仇女郎[J].传奇故事（百家讲堂）,2000(8):4-24.

同被引文献11

1周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
2刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：472
3朱斐,吴文,刘全,伏玉琛.一种最大置信上界经验采样的深度Q网络方法[J].计算机研究与发展,2018,55(8):1694-1705. 被引量：14
4吴昊霖,蔡乐才,高祥.在线更新的信息强度引导启发式Q学习[J].计算机应用研究,2018,35(8):2323-2327. 被引量：4
5赵英男,刘鹏,赵巍,唐降龙.深度Q学习的二次主动采样方法[J].自动化学报,2019,45(10):1870-1882. 被引量：16
6王桂芝,吕光宏,贾吾财,贾创辉,张建申.机器学习在SDN路由优化中的应用研究综述[J].计算机研究与发展,2020,57(4):688-698. 被引量：6
7王俊茜,郑文先,徐勇.基于测试样本误差重构的协同表示分类方法[J].计算机科学,2020,47(6):104-113. 被引量：3
8Yang Yang,Li Juntao,Peng Lingling.Multi-robot path planning based on a deep reinforcement learning DQN algorithm[J].CAAI Transactions on Intelligence Technology,2020,5(3):177-183. 被引量：35
9欧阳一鸣,陈志谋,王奇,鲁迎春,黄正峰,梁华国.WiNoC中基于Edge-first算法的流量平衡设计[J].电子测量与仪器学报,2021,35(1):62-73. 被引量：3
10车向北,康文倩,欧阳宇宏,杨柯涵,李剑.基于强化学习的SDN路由优化算法[J].计算机工程与应用,2021,57(12):93-98. 被引量：5

引证文献2

1张佳能,李辉,吴昊霖,王壮.一种平衡探索和利用的优先经验回放方法[J].计算机科学,2022,49(5):179-185. 被引量：1
2李国燕,史东雨,张宗辉.基于改进Dueling DQN的多园区网络动态路由算法[J].电子测量与仪器学报,2022,36(11):211-220. 被引量：1

二级引证文献2

1张人文,赖俊,陈希亮,赵春宇.面向作战决策智能体的融合赋权评估方法[J].火力与指挥控制,2024,49(2):180-188.
2符平博,陶旭,张见,李晖.异构网络中基于深度强化学习的用户关联与资源分配策略[J].国外电子测量技术,2024,43(4):39-47.

1肖凌.经济学视阈下环境侵权归责原则分析[J].法制博览（名家讲坛、经典杂文）,2021(9):70-71.
2吴金.基于LSTM改进的Q-learning协同式自适应巡航控制算法[J].长春工程学院学报（自然科学版）,2020,21(4):65-70. 被引量：1
3黄雯,邓澄.“环境思政”视角下分年级管理创新模式初探——以湖北经济学院法商学院会计系为例[J].教育进展,2021,11(2):317-322. 被引量：1

计算机科学

2021年第4期

浏览历史

内容加载中请稍等...

基于平均神经网络参数的DQN算法被引量：2

参考文献5

二级参考文献29

共引文献98

同被引文献11

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于平均神经网络参数的DQN算法 被引量：2

参考文献5

二级参考文献29

共引文献98

同被引文献11

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于平均神经网络参数的DQN算法被引量：2