强化学习算法与应用综述被引量：35

Overview on Algorithms and Applications for Reinforcement Learning

下载PDF

导出

摘要强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程.强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤.本文综述了强化学习算法与应用的研究进展和发展动态,首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题.其次,回顾强化学习经典算法,包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法,以及综述强化学习前沿研究,主要介绍多智能体强化学习和元强化学习方向.最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用,以及总结与展望. Reinforcement learning(RL)is a research hotpot in the machine learning area,which is considering a process of agent-environment interaction,sequential decision making,and total reward maximization.Reinforcement learning is worthy of in-depth research and a wide range of applications in the real world,and represents a vital step toward the Artificial General Intelligence(AGI).In this survey,we review the research progress and development in the algorithms and applications for reinforcement learning.We start with a brief review of the principle of reinforcement learning,including Markov decision process,value function,and exploration v.s.exploitation.Next,we discuss the traditional RL algorithms,including value-based algorithms,policy-based algorithms,and Actor-Critic algorithms,and further discuss the frontiers of RL algorithms,including multi-agent reinforcement learning and meta reinforcement learning.Then,we sketch some successful RL applications in the fields of games,robotics,urban traffic,and business.Finally,we summarize briefly and prospect the development trends of reinforcement learning.

作者李茹杨彭慧民李仁刚赵坤 LI Ru-Yang;PENG Hui-Min;LI Ren-Gang;ZHAO Kun(Inspur(Beijing)Electronic Information Industry Co.Ltd.,Beijing 100085,China;State Key Laboratory of High-End Server&Storage Technology,Inspur Group Co.Ltd.,Beijing 100085,China;Guangdong Inspur Big Data Research Co.Ltd.,Guangzhou 510632,China)

机构地区浪潮(北京)电子信息产业有限公司浪潮集团有限公司高效能服务器和存储技术国家重点实验室广东浪潮大数据研究有限公司

出处《计算机系统应用》 2020年第12期13-25,共13页 Computer Systems & Applications

关键词强化学习算法应用多智能体强化学习元强化学习 reinforcement learning algorithms applications multi-agent reinforcement learning meta reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：431
2马骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真,2018,40(6):68-72. 被引量：41
3杜威,丁世飞.多智能体强化学习综述[J].计算机科学,2019,46(8):1-8. 被引量：45
4杨文臣,张轮,Zhu Feng.多智能体强化学习在城市交通网络信号控制方法中的应用综述[J].计算机应用研究,2018,35(6):1613-1618. 被引量：30

二级参考文献24

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：26
4赵冬斌,刘德荣,易建强.基于自适应动态规划的城市交通信号优化控制方法综述[J].自动化学报,2009,35(6):676-681. 被引量：39
5陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：59
6何兆成,佘锡伟,杨文臣,陈宁宁.结合Q学习和模糊逻辑的单路口交通信号自学习控制方法[J].计算机应用研究,2011,28(1):199-202. 被引量：11
7孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：592
8聂建强,徐大林.基于模糊Q学习的分布式自适应交通信号控制[J].计算机技术与发展,2013,23(3):171-174. 被引量：3
9余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：590
10傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：25

共引文献517

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：2
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：35
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：3
5李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430.
6刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：1
7谢育星,陆屹,管聪,纪德东.协同空战与多智能体强化学习下的关键问题[J].飞机设计,2023,43(1):6-10.
8蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
9甘惟,吴志强,王元楷,徐浩文,严娟,何珍,赵紫辰.AIGC辅助城市设计的理论模型建构[J].城市规划学刊,2023(2):12-18. 被引量：6
10崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14.

同被引文献231

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：18
2项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
3谌海云,陈华胄,刘强.基于改进人工势场法的多无人机三维编队路径规划[J].系统仿真学报,2020,32(3):414-420. 被引量：32
4袁钰莹,张箬菡,程凯悦.基于路径分析的UBI车险市场需求研究[J].企业改革与管理,2020,0(8):9-12. 被引量：1
5闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：55
6冯正平.国外自治水下机器人发展现状综述[J].鱼雷技术,2005,13(1):5-9. 被引量：53
7罗春,杨军,凌明.基于遗传算法和覆盖率驱动的功能验证向量自动生成算法[J].应用科学学报,2005,23(4):375-379. 被引量：15
8魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
9谭冠政,贺欢,Aaron Sloman.Global optimal path planning for mobile robot based onimproved Dijkstra algorithm and ant system algorithm[J].Journal of Central South University of Technology,2006,13(1):80-86. 被引量：20
10张晓宇.城市空间的模式语言设计──计算机辅助城市设计方法探讨[J].城市规划汇刊,1996(6):26-32. 被引量：4

引证文献35

1王昊,林远山,李然,于红,王芳.面向养殖网箱巡检任务的强化学习训练系统[J].计算机与数字工程,2023,51(1):103-111.
2王瑞星,董诗音,江飞龙,黄胜全.稀疏奖励下基于强化学习的异构多智能体对抗[J].信息技术,2021,45(5):12-20. 被引量：2
3赵春领.强化学习在混合动力汽车能量管理上的研究综述[J].汽车实用技术,2021,46(16):178-180.
4黄宁馨,尹翔,乐云亮,彭坤彦.一种基于元学习的改进深度强化学习算法[J].扬州大学学报（自然科学版）,2021,24(3):19-23. 被引量：2
5耿俊香,姜静,魏胜楠,段昶.CIDDPG的多智能体通信优化方法研究[J].沈阳理工大学学报,2021,40(4):29-34. 被引量：1
6杨彤,秦进,谢仲涛,袁琳琳.基于遗传交叉算子的深度Q网络样本扩充[J].计算机系统应用,2021,30(12):155-162. 被引量：1
7吴晓军,张成,原盛,任晓春,王玮.基于强化学习的云资源混合式弹性伸缩算法[J].西安交通大学学报,2022,56(1):142-150. 被引量：2
8王帅,洪振宇.基于强化学习的机场行李装箱优化方法[J].包装工程,2022,43(3):257-263. 被引量：1
9王昊,颜承昊,任俊丽,邵思扬.基于视觉的AUV自主水下管线跟踪方法[J].现代信息科技,2021,5(20):16-19.
10付红圣,曾辉,罗钧鼎.基于强化学习的尺寸质量解决方案[J].汽车工艺与材料,2022(7):7-11. 被引量：1

二级引证文献26

1周东阳,曹军,毕胜山,邵壮,司风琪.强化学习性能最优控制框架及其在高压给水加热器运行优化中的应用[J].西安交通大学学报,2022,56(8):32-42.
2杨书恒,张栋,任智,唐硕.基于多智能体强化学习的无人机集群对抗方法研究[J].无人系统技术,2022,5(5):51-62. 被引量：2
3邹文仲,张高峰,章金峰.基于神经网络的云平台弹性伸缩研究[J].现代计算机,2022,28(20):9-13. 被引量：1
4张哲,秦同,师一帅,乔栋,简抗抗,陈辉,张天柱,徐瑞,金霄.月球科研站人工智能技术研究[J].深空探测学报（中英文）,2022,9(6):560-570. 被引量：1
5邓柏荣,陈俊斌,丁巧宜,潘振宁,余涛,王克英,侯佳萱.融合电网运行场景聚类的多任务深度强化学习优化调度[J].电网技术,2023,47(3):978-987. 被引量：5
6师亮,温亮明,雷声,黎建辉.基于决策树和由均匀分布改进Q学习的虚拟机整合算法[J].计算机科学,2023,50(6):36-44. 被引量：1
7李超,王瑞星,黄建忠,江飞龙,魏雪梅,孙延鑫.稀疏奖励下基于强化学习的无人集群自主决策与智能协同[J].兵工学报,2023,44(6):1537-1546. 被引量：4
8王年文,王劲松,毕翼飞,张立杰,陈国强,万中华.人工智能在感性工学研究中的应用与趋势[J].包装工程,2023,44(16):32-40.
9李骁,曹子建,贾浩文,郭瑞麒.一种差分演化Q表的改进Q-Learning方法[J].西安工业大学学报,2023,43(4):369-382. 被引量：1
10张晶蓉,贺占文,周艳杰,李玉民.基于混合整数规划的工厂产品托盘打包及装箱问题研究[J].包装工程,2023,44(17):143-151.

1蔡辉.彰显读写结合价值,促进学生全面发展[J].新作文（小学低年级版）,2020(4):10-10.
2王锐.独角兽企业商业模式与价值共创研究——以字节跳动为例[J].商展经济,2021(15):93-95. 被引量：3

计算机系统应用

2020年第12期

浏览历史

内容加载中请稍等...

强化学习算法与应用综述被引量：35

参考文献4

二级参考文献24

共引文献517

同被引文献231

引证文献35

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

强化学习算法与应用综述 被引量：35

参考文献4

二级参考文献24

共引文献517

同被引文献231

引证文献35

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

强化学习算法与应用综述被引量：35