基于自适应噪声的最大熵进化强化学习方法被引量：2

Adaptive Noise-based Evolutionary Reinforcement Learning With Maximum Entropy

下载PDF

导出

摘要近年来,进化策略由于其无梯度优化和高并行化效率等优点,在深度强化学习领域得到了广泛的应用.然而,传统基于进化策略的深度强化学习方法存在着学习速度慢、容易收敛到局部最优和鲁棒性较弱等问题.为此,提出了一种基于自适应噪声的最大熵进化强化学习方法.首先,引入了一种进化策略的改进办法,在“优胜”的基础上加强了“劣汰”,从而提高进化强化学习的收敛速度;其次,在目标函数中引入了策略最大熵正则项,来保证策略的随机性进而鼓励智能体对新策略的探索;最后,提出了自适应噪声控制的方式,根据当前进化情形智能化调整进化策略的搜索范围,进而减少对先验知识的依赖并提升算法的鲁棒性.实验结果表明,该方法较之传统方法在学习速度、最优性收敛和鲁棒性上有比较明显的提升. Recently,evolution strategies have been widely investigated in the field of deep reinforcement learning due to their promising properties of derivative-free optimization and high parallelization efficiency.However,traditional evolutionary reinforcement learning methods suffer from several problems,including the slow learning speed,the tendency toward local optima,and the poor robustness.A systematic method is proposed,named adaptive noisebased evolutionary reinforcement learning with maximum entropy,to tackle these problems.First,the canonical evolution strategies is introduced to enhance the influence of well-behaved individuals and weaken the impact of those with bad performance,thus improving the learning speed of evolutionary reinforcement learning.Second,a regularization term of maximizing the policy entropy is incorporated into the objective function,which ensures moderate stochastically of actions and encourages the exploration to new promising solutions.Third,the exploration noise is proposed to automatically adapt according to the current evolutionary situation,which reduces the dependence on prior knowledge and promotes the robustness of evolution.Experimental results show that this method achieves faster learning speed,better convergence to global optima,and improved robustness,compared to traditional approaches.

作者王君逸王志李华雄陈春林 WANG Jun-Yi;WANG Zhi;LI Hua-Xiong;CHEN Chun-Lin(Department of Control Science and Intelligence Engineering,Nanjing University,Nanjing 210008)

机构地区南京大学控制科学与智能工程系

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第1期54-66,共13页 Acta Automatica Sinica

基金国家自然科学基金(62006111,62073160,62176116) 江苏省自然科学基金(BK20200330)资助。

关键词深度强化学习进化策略进化强化学习最大熵自适应噪声 Deep reinforcement learning evolution strategies evolutionary reinforcement learning maximum entropy adaptive noise

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1李凯文,张涛,王锐,覃伟健,贺惠晖,黄鸿.基于深度强化学习的组合优化研究进展[J].自动化学报,2021,47(11):2521-2537. 被引量：42
2王云鹏,郭戈.基于深度强化学习的有轨电车信号优先控制[J].自动化学报,2019,45(12):2366-2377. 被引量：16
3吴晓光,刘绍维,杨磊,邓文强,贾哲恒.基于深度强化学习的双足机器人斜坡步态控制方法[J].自动化学报,2021,47(8):1976-1987. 被引量：28
4赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
5刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：132
6张化祥,陆晶.基于Q学习的适应性进化规划算法[J].自动化学报,2008,34(7):819-822. 被引量：5
7王柳静,张贵军,周晓根.基于状态估计反馈的策略自适应差分进化算法[J].自动化学报,2020,46(4):752-766. 被引量：10

二级参考文献152

1刘习春,喻寿益.局部快速微调遗传算法[J].计算机学报,2006,29(1):100-105. 被引量：37
2Fogel L J, Owens A J, Walsh M J. Artificial Intelligence Through Simulated Evolution: Forty Years of Evolutionary Programming. New York: Wiley-Interscience, 1999.
3Yao X, Liu Y, Lin G M. Evolutionary programming made faster. IEEE Transactions on Evolutionary Computation, 1999, 3(2): 82-102.
4Lee C Y, Yao X. Evolutionary programming using mutations based on the Levy probability distribution. IEEE Transactions on Evolutionary Computation, 2004, 8(1): 1-13.
5Ji M J, Tang H W, Guo J. A single-point mutation evolutionary programming. Information Processing Letters, 2004, 90(6): 293-299.
6Dong H, He J, Huang H, Hou W. Evolutionary programming using a mixed mutation strategy IOnline], available: http://www.cs.bham.ac.uk/jxh/hejunpl.html, December 20, 2006.
7Fogel D B. Evolving Artificial Intelligence [Ph.D. dissertation].California, USA: University of California. 1992.
8Iwamatsu M. Generalized evolutionary programming with Levy-type mutation. Computer Physics Communications, 2002, 147(1): 729-732.
9Lee S H, Jun H B, Sim K B. Performance improvement of evolution strategies using reinforcement learning. In: Proceedings of IEEE International Fuzzy Systems Conference. Seoul, Korea: IEEE, 1999. 639-644.
10Sutton R S, Barto A C. Reinforcement Learning: An Introduction. Cambridge: MIT Press, 1998.

共引文献344

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：46
2张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
3舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
4马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
5闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
6邢长明,刘方爱.基于强化学习的适应性微粒群算法[J].控制与决策,2011,26(1):54-58. 被引量：4
7刘俊红.3中药汤剂对胃溃疡治疗机理的探讨[J].河南中医,2000,20(3):28-28. 被引量：3
8丁彬楚,汤洪涛.面向作业车间重调度的改进合同网机制研究[J].机电工程,2013,30(2):147-151.
9程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：120
10盛歆漪,孙俊,周頔,须文波.一种Q学习的量子粒子群优化方法[J].计算机工程与应用,2014,50(21):8-13. 被引量：4

同被引文献23

1吴军,袁少博,祝玉恒,郭润夏,张晓瑜.采用自适应背景聚类的激光雷达与相机外参标定优化方法[J].仪器仪表学报,2023,44(2):230-237. 被引量：4
2孙伟,刘经洲.基于Huber鲁棒容积裂变粒子滤波的协同导航方法[J].仪器仪表学报,2022,43(2):166-175. 被引量：5
3余志鹏,熊剑,衷卫声,郭杭,钟启林.基于秩卡尔曼滤波的室内行人航位推算算法[J].仪器仪表学报,2020(5):214-220. 被引量：20
4班朝,任国营,王斌锐,陈相君.基于IMU的机器人姿态自适应EKF测量算法研究[J].仪器仪表学报,2020,41(2):33-39. 被引量：31
5江涛,钱富才,杨恒占,胡绍林.具有双重不确定性系统的联合滤波算法[J].自动化学报,2016,42(4):535-544. 被引量：13
6杨菊花,李文元,陈光武,张琳婧,程鉴皓.引入滑模观测器的GPS/INS组合导航滤波方法[J].仪器仪表学报,2019,40(9):78-86. 被引量：25
7吕东辉,王炯琦,熊凯,侯博文,何章鸣.适用处理非高斯观测噪声的强跟踪卡尔曼滤波器[J].控制理论与应用,2019,36(12):1997-2004. 被引量：9
8张一鸣,周兵,吴晓建,崔庆佳,柴天.基于前车轨迹预测的高速智能车运动规划[J].汽车工程,2020,42(5):574-580. 被引量：13
9陈欣,葛耿育,刘银梅,成爱民.基于BBO算法的WSN覆盖与连接节点部署方案[J].计算机应用研究,2021,38(1):260-263. 被引量：7
10孙明思,赵宏伟,赵浩宇,王也然.利用空间分布熵的改进VLAD图像检索[J].光学精密工程,2021,29(1):152-159. 被引量：2

引证文献2

1田时宇,刘岚喆,夏秀云.网络集群部署约束最大熵模型仿真研究[J].计算机仿真,2023,40(11):274-278.
2刘明杰,陈俊虎,刘平,陈俊生,朴昌浩.复杂交通流下基于卡尔曼滤波的多目标全生命周期状态估计[J].仪器仪表学报,2024,45(1):321-334.

1查理.优胜鸽翅膀的特征[J].中华信鸽,2022(3):27-27.
2张冉,张鹏,赵锋.基于CEEMDAN-SG的爆炸冲击波去噪算法研究[J].国外电子测量技术,2022,41(10):119-125. 被引量：3
3刘树鑫,刘学识,李静,曹云东,刘洋.基于SSA ELM的直流串联故障电弧检测方法研究[J].电器与能效管理技术,2022(10):65-73. 被引量：3
4王阳,仪垂杰,赵鹏,张强,刘尊民.基于CEEMDAN-IGWO-BP的供热管道泄漏孔径预测[J].传感器与微系统,2023,42(1):135-139. 被引量：4
5韩泰在王《Auto Express》全季轮胎测试中连续两年赢得优胜[J].橡塑智造与节能环保,2022,6(11):40-40.
6樊敏,张文渲,李红.基于人工智能的期刊专家审稿系统编辑策略的优化研究[J].太原理工大学学报（社会科学版）,2022,40(6):95-98. 被引量：12
7张太原.从蒋介石日记看中国共产党的优胜之处[J].领导文萃,2022(2):47-51.
8孙继平,余星辰.基于CEEMD分量样本熵与SVM分类的煤矿瓦斯和煤尘爆炸声音识别方法[J].采矿与安全工程学报,2022,39(5):1061-1070. 被引量：8
9周金星,吴柳.国际中文教育虚拟仿真在线口语教学实践及案例分析[J].汉字文化,2022(16):79-81.

自动化学报

2023年第1期

浏览历史

内容加载中请稍等...

基于自适应噪声的最大熵进化强化学习方法被引量：2

参考文献7

二级参考文献152

共引文献344

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于自适应噪声的最大熵进化强化学习方法 被引量：2

参考文献7

二级参考文献152

共引文献344

同被引文献23

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于自适应噪声的最大熵进化强化学习方法被引量：2