逆向强化学习研究综述被引量：2

Survey on Inverse Reinforcement Learning

下载PDF

导出

摘要逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. Inverse reinforcement learning(IRL),also known as inverse optimal control(IOC),is an important research method of reinforcement learning and imitation learning.IRL solves a reward function from expert samples,and the optimal strategy is then solved to imitate expert strategies.In recent years,fruitful achievements have been yielded by IRL in imitation learning,with widespread application in vehicle navigation,path recommendation,and robotic optimal control.First,this study presents the theoretical basis of IRL.Then,from the perspective of reward function construction methods,IRL algorithms based on linear and non-linear reward functions are analyzed.The algorithms include maximum marginal IRL,maximum entropy IRL,maximum entropy deep IRL,and generative adversarial imitation learning.In addition,frontier research directions of IRL are reviewed to compare and analyze relevant representative algorithms containing IRL with incomplete expert demonstrations,multi-agent IRL,IRL with sub-optimal expert demonstrations,and guiding IRL.Finally,the primary challenges of IRL and future developments in its theoretical and application significance are summarized.

作者张立华刘全黄志刚朱斐 ZHANG Li-Hua;LIU Quan;HUANG Zhi-Gang;ZHU Fei(School of Computer Science&Technology,Soochow University,Suzhou 215006,China;Provincial Key Laboratory for Computer Information Processing Technology(Soochow University),Suzhou 215006,China;Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education(Jilin University),Changchun 130012,China;Collaborative Innovation Center of Novel Software Technology and Industrialization,Nanjing 210023,China)

机构地区苏州大学计算机科学与技术学院江苏省计算机信息处理技术重点实验室(苏州大学) 符号计算与知识工程教育部重点实验室(吉林大学) 软件新技术与产业化协同创新中心

出处《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页 Journal of Software

基金国家自然科学基金(61772355,61702055,61876217,62176175) 江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004) 吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172017K18,93K172021K08) 苏州市应用基础研究计划工业部分(SYG201422) 江苏高校优势学科建设工程。

关键词逆向强化学习模仿学习生成对抗模仿学习逆向最优控制强化学习 inverse reinforcement learning(IRL) imitation learning generative adversarial imitation learning inverse optimal control(IOC) reinforcement learning(RL)

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1林嘉豪,章宗长,姜冲,郝建业.基于生成对抗网络的模仿学习综述[J].计算机学报,2020,43(2):326-351. 被引量：22
2刘潇,刘书洋,庄韫恺,高阳.强化学习可解释性基础问题探索和方法综述[J].软件学报,2023,34(5):2300-2316. 被引量：15
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
4傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
5杨世贵,王媛媛,刘韦辰,姜徐,赵明雄,方卉,杨宇,刘迪.基于强化学习的温度感知多核任务调度[J].软件学报,2021,32(8):2408-2424. 被引量：4
6梁天新,杨小平,王良,韩镇远.基于强化学习的金融交易系统研究与发展[J].软件学报,2019,30(3):845-864. 被引量：14
7刘全,闫岩,朱斐,吴文,张琳琳.一种带探索噪音的深度循环Q网络[J].计算机学报,2019,42(7):1588-1604. 被引量：11

二级参考文献17

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
3王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
4金卓军,钱徽,陈沈轶,朱淼良.回报函数学习的学徒学习综述[J].智能系统学报,2009,4(3):208-212. 被引量：2
5刘全,傅启明,龚声蓉,伏玉琛,崔志明.最小状态变元平均奖赏的强化学习方法[J].通信学报,2011,32(1):66-71. 被引量：15
6徐昕,沈栋,高岩青,王凯.基于马氏决策过程模型的动态系统学习控制:研究前沿与展望[J].自动化学报,2012,38(5):673-687. 被引量：21
7孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：619
8李耀宇,朱一凡,杨峰,贾全.基于逆向强化学习的舰载机甲板调度优化方案生成方法[J].国防科技大学学报,2013,35(4):171-175. 被引量：20
9余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
10傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26

共引文献538

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
3韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
4张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
5李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
6杜文风,王英奇,王辉,赵艳男,高博青,董石麟.基于边界平衡生成对抗网络的十字板式节点新构形智能生成方法[J].建筑结构学报,2022,43(S01):315-324. 被引量：3
7周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
8周帆,陈晓蝶,钟婷,吴劲.面向金融科技的深度学习技术综述[J].计算机科学,2022,49(S02):20-36. 被引量：3
9李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
10王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.

同被引文献13

1Su Wenshan,Yao Dangnai,Li Kebo,Chen Lei.A novel biased proportional navigation guidance law for close approach phase[J].Chinese Journal of Aeronautics,2016,29(1):228-237. 被引量：7
2孙亚楠,钟选明,王俐云,李希媛.天基信息支持远程精确打击作战及其体系建设的需求[J].战术导弹技术,2018(5):13-18. 被引量：15
3高昂,董志明,叶红兵,宋敬华,郭齐胜.基于深度强化学习的巡飞弹突防控制决策[J].兵工学报,2021,42(5):1101-1110. 被引量：18
4李亦言,胡荣兴,宋立冬,贾乾罡,陆宁.机器学习在智能配用电领域中的应用:北美工程实践概述[J].电力系统自动化,2021,45(16):99-113. 被引量：12
5蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J].自动化学报,2022,48(3):627-643. 被引量：26
6王宁宇,白瑜亮,魏金鹏,崔乃刚.多弹最优协同诱导突防制导律[J].宇航学报,2022,43(4):434-444. 被引量：9
7吴玲,卢俊霖,许俊飞.激光武器反无人机集群建模与效能评估[J].激光与红外,2022,52(6):887-892. 被引量：7
8王珂,穆朝絮,蔡光斌,汪韧,孙长银.基于安全自适应强化学习的自主避障控制方法[J].中国科学：信息科学,2022,52(9):1672-1686. 被引量：8
9张堃,刘泽坤,华帅,张振冲,李珂,于竞婷.基于T/S-SAS的多无人机四维协同攻击航线生成[J].兵工学报,2023,44(6):1576-1587. 被引量：1
10郭华,郭小和.改进速度障碍法的无人机局部路径规划算法[J].航空学报,2023,44(11):266-276. 被引量：6

引证文献2

1韩颖.基于卷积神经网络的电力设备故障预测模型的研究[J].自动化应用,2023,64(24):107-109. 被引量：1
2孙浩,黎海青,梁彦,马超雄,吴翰.基于知识辅助深度强化学习的巡飞弹组动态突防决策[J].兵工学报,2024,45(9):3161-3176.

二级引证文献1

1欧雯萍.基于物联网技术的电力设备故障信息采集系统[J].智能物联技术,2024,56(2):110-113.

1李璐.小学写作的“三贴近”原则[J].作文成功之路,2023(8):12-13.
2詹吟霄,刘潇,梁军.基于深度强化学习与风险矫正的智能车辆决策研究[J].汽车工程学报,2023,13(5):656-667. 被引量：1
3缪刘洋,朱其新,丁正凯,王旭.结合先验知识与深度强化学习的机械臂抓取研究[J].西安工程大学学报,2023,37(4):92-101. 被引量：2
4李福白.新能源光伏发电站大规模并网频率主动控制研究[J].中国新技术新产品,2023(17):17-19. 被引量：1
5姜国,刘富钢,陈丹.利用带有改进算子矩阵的模块脉冲函数求非线性随机微分方程数值解[J].应用数学,2023,36(4):1059-1068.
6杨洁,郑志忠,刘艳彬,朱建鲁,杨光辉,李玉星.高倍泡沫覆盖率表征量化研究[J].工业安全与环保,2023,49(10):1-4.
7何媛媛.提高跨境旅游翻译质量的统计机器翻译研究[J].自动化与仪器仪表,2023(9):201-204.
8杨怀珍,张静,李雷.基于多重相似度和CatBoost的个性化推荐[J].计算机工程与设计,2023,44(9):2687-2693. 被引量：1
9贾慧芳,黄晖,邱祖峰.汽车前保险杠随机振动疲劳分析与优化设计[J].工程塑料应用,2023,51(9):63-68. 被引量：1

软件学报

2023年第10期

浏览历史

内容加载中请稍等...

逆向强化学习研究综述被引量：2

参考文献7

二级参考文献17

共引文献538

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

逆向强化学习研究综述 被引量：2

参考文献7

二级参考文献17

共引文献538

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

逆向强化学习研究综述被引量：2