异策略深度强化学习中的经验回放研究综述被引量：2

Research on Experience Replay of Off-policy Deep Reinforcement Learning:A Review

下载PDF

导出

摘要作为一种不需要事先获得训练数据的机器学习方法,强化学习(Reinforcement learning,RL)在智能体与环境的不断交互过程中寻找最优策略,是解决序贯决策问题的一种重要方法.通过与深度学习(Deep learning,DL)结合,深度强化学习(Deep reinforcement learning,DRL)同时具备了强大的感知和决策能力,被广泛应用于多个领域来解决复杂的决策问题.异策略强化学习通过将交互经验进行存储和回放,将探索和利用分离开来,更易寻找到全局最优解.如何对经验进行合理高效的利用是提升异策略强化学习方法效率的关键.首先对强化学习的基本理论进行介绍;随后对同策略和异策略强化学习算法进行简要介绍;接着介绍经验回放(Experience replay,ER)问题的两种主流解决方案,包括经验利用和经验增广;最后对相关的研究工作进行总结和展望. As a machine learning method that does not need to obtain training data in advance,reinforcement learning(RL)is an important method to solve the sequential decision-making problem by finding the optimal strategy in the continuous interaction between the agent and the environment.Through the combination of deep learning(DL),deep reinforcement learning(DRL)has both powerful perception and decision-making capabilities,and is widely used in many fields to solve complex decision-making problems.Off-policy reinforcement learning separates exploration and utilization by storing and replaying interactive experience,making it easier to find the global optimal solution.How to make reasonable and efficient use of experience is the key to improve the efficiency of off-policy reinforcement learning methods.First,this paper introduces the basic theory of reinforcement learning.Then,the on-policy and off-policy reinforcement learning algorithms are briefly introduced.Next,two mainstream solutions of experience replay(ER)problem are introduced,including experience utilization and experience expansion.Finally,the relevant research work is summarized and prospected.

作者胡子剑高晓光万开方张乐天汪强龙 NERETIN Evgeny HU Zi-Jian;GAO Xiao-Guang;WAN Kai-Fang;ZHANG Le-Tian;WANG Qiang-Long;NERETIN Evgeny(School of Electronics and Information,Northwestern Polytechnical University,Xi'an 710129,China;School of Foreign Languages,Xidian University,Xi'an 710126,China;School of Robotic and Intelligent Systems,Moscow Aviation Institute(National Research University),Moscow 125993,Russia)

机构地区西北工业大学电子信息学院西安电子科技大学外国语学院莫斯科航空学院机器人与智能系统学院

出处《自动化学报》 EI CAS CSCD 北大核心 2023年第11期2237-2256,共20页 Acta Automatica Sinica

基金国家自然科学基金(62003267,61573285) 中央高校基本科研业务费专项资金(G2022KY0602) 电磁空间作战与应用重点实验室(2022ZX0090) 西安市科技计划项目--关键核心技术攻关工程项目计划(21RGZN0016) 陕西省重点研发计划项目(2023-GHZD-33)资助。

关键词深度强化学习异策略经验回放人工智能 Deep reinforcement learning(DRL) off-policy experience replay(ER) artificial intelligence

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：270
2李晨溪,曹雷,张永亮,陈希亮,周宇欢,段理文.基于知识的深度强化学习研究综述[J].系统工程与电子技术,2017,39(11):2603-2613. 被引量：40
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：482
4刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：136
5赵英男,刘鹏,赵巍,唐降龙.深度Q学习的二次主动采样方法[J].自动化学报,2019,45(10):1870-1882. 被引量：16
6时圣苗,刘全.采用分类经验回放的深度确定性策略梯度方法[J].自动化学报,2022,48(7):1816-1823. 被引量：12
7刘晓宇,许驰,曾鹏,于海斌.面向异构工业任务高并发计算卸载的深度强化学习算法[J].计算机学报,2021,44(12):2367-2381. 被引量：14
8朱斐,吴文,伏玉琛,刘全.基于双深度网络的安全深度强化学习方法[J].计算机学报,2019,42(8):1812-1826. 被引量：27

二级参考文献22

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：20
5高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
6孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：625
7余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：614
8傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
9李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
10杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献892

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：47
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376. 被引量：1
5项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
7周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
8安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
9李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
10王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.

同被引文献14

1周黎英,赵国树.模糊PID控制算法在恒速升温系统中的应用[J].仪器仪表学报,2008,29(2):405-409. 被引量：109
2刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：136
3申翔翔,侯新文,尹传环.深度强化学习中状态注意力机制的研究[J].智能系统学报,2020,15(2):317-322. 被引量：11
4Hao-nan WANG,Ning LIU,Yi-yun ZHANG,Da-wei FENG,Feng HUANG,Dong-sheng LI,Yi-ming ZHANG.Deep reinforcement learning:a survey[J].Frontiers of Information Technology & Electronic Engineering,2020,21(12):1726-1744. 被引量：17
5李茂松,黄大志,朱虹姣,胡琼.金锡合金自动共晶焊接工艺参数优化研究[J].微电子学,2021,51(3):449-454. 被引量：8
6贺俊杰,张洁,张朋,汪俊亮,郑鹏,王明.基于长短期记忆近端策略优化强化学习的等效并行机在线调度方法[J].中国机械工程,2022,33(3):329-338. 被引量：8
7江凯,朱虹姣,李金龙,王旭光,谈侃侃.硅基芯片金锡共晶焊工艺中金硅扩散机理研究[J].微电子学,2022,52(3):510-512. 被引量：1
8吴敏,王晓璐,姜玉东,钟磊,莫飞扬.深度确定性策略梯度与模糊PID的协同温度控制[J].控制理论与应用,2022,39(12):2358-2365. 被引量：6
9冯晓晶,夏维娟,赵晋敏,贾旭洲,赵炜.基于国产金锡焊料的功率芯片焊接工艺及可靠性研究[J].宇航材料工艺,2023,53(2):74-78. 被引量：1
10史栋元,王丽娜.一种用于天基低轨卫星网络边缘计算的GA-DDPG卸载算法[J].工程科学学报,2024,46(2):343-353. 被引量：5

引证文献2

1钟欣见,王永华,李明.深度强化学习的通用插件研究综述[J].河北科技大学学报,2024,45(4):362-372.
2刘家池,陈秀梅,邓娅莉.基于改进DDPG-PID的芯片共晶键合温度控制[J].半导体技术,2024,49(11):973-980.

1刘肖.全媒体融合视角下高校思想政治教育创新路径研究[J].中文科技期刊数据库（全文版）教育科学,2023(5):19-21.
2刘宏莉.本期导读[J].中华解剖与临床杂志,2023,28(10).
3张严心,孔涵,殷辰堃,王子豪,黄志清.一类基于概率优先经验回放机制的分布式多智能体软行动-评论者算法[J].北京工业大学学报,2023,49(4):459-466. 被引量：4
4隋丽蓉,高曙,何伟.基于多智能体深度强化学习的船舶协同避碰策略[J].控制与决策,2023,38(5):1395-1402. 被引量：6
5叶国玺.台球运动进校园的价值意蕴与相关机制理论模型的构建[J].运动-休闲（大众体育）,2023(20):85-87.
6白文倩,向佐军,汤佳佩.师范生数据素养的现状与提升策略[J].教师教育论坛,2023,36(3):34-40. 被引量：2
7刘旭旺,王骏嘉,齐微,雒兴刚.基于在线评论的产品上市模式选择策略[J].系统工程,2023,41(5):135-143. 被引量：3
8赖红珍,周艳菊,王傅强.新零售背景下贸易信贷对资金约束零售商渠道选择的影响[J].中国管理科学,2023,31(10):205-214. 被引量：1
9朱庆,陈俊桦,郭永欣,丁雨淋,潘岩,赵元祯,刘铭崴,王强,张利国.数字孪生铁路隧道线路-瓦片-构件多粒度时空数据高效索引方法[J].武汉大学学报（信息科学版）,2023,48(11):1844-1853. 被引量：1
10张晓林,高新亚.城市轨道交通障碍物探测系统设计方案研究[J].城市建设理论研究（电子版）,2023(29):168-170.

自动化学报

2023年第11期

浏览历史

内容加载中请稍等...

异策略深度强化学习中的经验回放研究综述被引量：2

参考文献8

二级参考文献22

共引文献892

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

异策略深度强化学习中的经验回放研究综述 被引量：2

参考文献8

二级参考文献22

共引文献892

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

异策略深度强化学习中的经验回放研究综述被引量：2