深度逆向强化学习研究综述被引量：18

Overview of deep inverse reinforcement learning

下载PDF

导出

摘要深度逆向强化学习是机器学习领域的一个新的研究热点,它针对深度强化学习的回报函数难以获取问题,提出了通过专家示例轨迹重构回报函数的方法。首先介绍了3类深度强化学习方法的经典算法;接着阐述了经典的逆向强化学习算法,包括基于学徒学习、最大边际规划、结构化分类和概率模型形式化的方法;然后对深度逆向强化学习的一些前沿方向进行了综述,包括基于最大边际法的深度逆向强化学习、基于深度Q网络的深度逆向强化学习和基于最大熵模型的深度逆向强化学习和示例轨迹非专家情况下的逆向强化学习方法等。最后总结了深度逆向强化学习在算法、理论和应用方面存在的问题和发展方向。 Deep inverse reinforcement learning is a new research hotspot in the field of machine learning. It aims at recovering the reward function of deep reinforcement learning by the experts' example trajectories. This paper systematically introduces three kinds of classic deep reinforcement learning methods. Then inverse reinforcement learning algorithms including apprenticeship learning, max margin plan, structured classification and probability models are described; then,some frontier researches of deep inverse reinforcement learning are reviewed, including the deep max margin plan inverse reinforcement learning, deep inverse reinforcement learning based on DQN and deep maximum entropy inverse reinforcement learning and recovering reward functions from non-expert trajectories etc. Finally, the existing issues and development direction are summarized.

作者陈希亮曹雷何明李晨溪徐志雄

机构地区陆军工程大学指挥信息系统学院

出处《计算机工程与应用》 CSCD 北大核心 2018年第5期24-35,共12页 Computer Engineering and Applications

基金国家重点研发计划(No.2016YFC0800606) 中国工程院重点咨询课题(No.2017-XZ-05) 总装备部预研基金(No.9140A06020315JB25081) 江苏省自然科学基金(No.BK20161469 No.BK20150721) 中国博士后基金(No.2015M582786 No.2016T91017) 江苏省重点研发计划(No.BE2015728 No.BE2016904)

关键词深度学习强化学习深度逆向强化学习 deep learning reinforcement learning deep inverse reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1Li Li,Yisheng Lv,Fei-Yue Wang.Traffic Signal Timing via Deep Reinforcement Learning[J].IEEE/CAA Journal of Automatica Sinica,2016,3(3):247-254. 被引量：71
2李晨溪,曹雷,张永亮,陈希亮,周宇欢,段理文.基于知识的深度强化学习研究综述[J].系统工程与电子技术,2017,39(11):2603-2613. 被引量：40
3刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：468

二级参考文献11

1王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策,2004,19(5):485-489. 被引量：332
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
4王皓,高阳,陈兴国.强化学习中的迁移:方法和进展[J].电子学报,2008,36(B12):39-43. 被引量：27
5孙志军,薛磊,许阳明,王正.深度学习研究综述[J].计算机应用研究,2012,29(8):2806-2810. 被引量：616
6王飞跃.平行控制:数据驱动的计算控制方法[J].自动化学报,2013,39(4):293-302. 被引量：130
7余凯,贾磊,陈雨强,徐伟.深度学习的昨天、今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. 被引量：610
8傅启明,刘全,王辉,肖飞,于俊,李娇.一种基于线性函数逼近的离策略Q(λ)算法[J].计算机学报,2014,37(3):677-686. 被引量：26
9黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
10杨钊,陶大鹏,张树业,金连文.大数据下的基于深度神经网的相似汉字识别[J].通信学报,2014,35(9):184-189. 被引量：28

共引文献563

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
3吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：15
4吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：29
5韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
7周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：6
8李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1
9王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
10刘洋,李建军.深度确定性策略梯度算法优化[J].辽宁工程技术大学学报（自然科学版）,2020(6):545-549. 被引量：2

同被引文献171

1张瑞杰,李俐俐,李礼,姚剑,乔江伟.利用无人机影像数据进行油菜长势监测[J].测绘地理信息,2021,46(S01):227-231. 被引量：6
2吴炳方,张峰,刘成林,张磊,罗治敏.农作物长势综合遥感监测方法[J].遥感学报,2004,8(6):498-514. 被引量：125
3薛利红,曹卫星,罗卫红.基于冠层反射光谱的水稻产量预测模型[J].遥感学报,2005,9(1):100-105. 被引量：46
4魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
5吴志勇,蔡莲红.基于动态贝叶斯网络的音视频双模态说话人识别[J].计算机研究与发展,2006,43(3):470-475. 被引量：11
6高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
7杨鹏,吴文斌,周清波,陈仲新,查燕,唐华俊,柴崎亮介.基于作物模型与叶面积指数遥感影像同化的区域单产估测研究[J].农业工程学报,2007,23(9):130-136. 被引量：44
8徐亚,陈秋双,龙磊,杨立志,刘丽芸.集装箱倒箱问题的启发式算法研究[J].系统仿真学报,2008,20(14):3666-3669. 被引量：29
9王纪华,李存军,刘良云,黄文江,赵春江.作物品质遥感监测预报研究进展[J].中国农业科学,2008,41(9):2633-2640. 被引量：32
10XU Jian-Xin,HOU Zhong-Sheng.Notes on Data-driven System Approaches[J].自动化学报,2009,35(6):668-675. 被引量：31

引证文献18

1马骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真,2018,40(6):68-72. 被引量：41
2吴宏杰,戴大东,傅启明,陈建平,陆卫忠.强化学习与生成式对抗网络结合方法研究进展[J].计算机工程与应用,2019,55(10):36-44. 被引量：11
3何杨,肖基毅.基于深度强化学习的网络共享资源智能调度方法[J].自动化与仪器仪表,2019,0(6):80-82. 被引量：3
4陈建平,陈其强,傅启明,高振,吴宏杰,陆悠.基于生成对抗网络的最大熵逆强化学习[J].计算机工程与应用,2019,55(22):119-126. 被引量：3
5李国法,陈耀昱,吕辰,陶达,曹东璞,成波.智能汽车决策中的驾驶行为语义解析关键技术[J].汽车安全与节能学报,2019,10(4):391-412. 被引量：6
6孙彧,曹雷,陈希亮,徐志雄,赖俊.多智能体深度强化学习研究综述[J].计算机工程与应用,2020,56(5):13-24. 被引量：66
7曹雷,孙彧,陈希亮,吴宜珈.联合作战任务智能规划关键技术及其应用思考[J].国防科技,2020,41(3):49-56. 被引量：10
8文永明,石晓荣,黄雪梅,余跃.一种无人机集群对抗多耦合任务智能决策方法[J].宇航学报,2021,42(4):504-512. 被引量：15
9张艳伟,蔡梦蝶.基于逆向强化学习的装船时堆场翻箱智能决策[J].同济大学学报（自然科学版）,2021,49(10):1417-1425. 被引量：7
10程哲,胡超,辛阔,唐卓尧,吴小刚.基于交互式学习技术的多元化业务建模框架研究[J].信息技术,2021,45(12):49-54. 被引量：1

二级引证文献224

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2王楠,李震,李佳盟,张源,孙红,李民赞.融合多光谱成像与深度学习的作物植株叶绿素检测系统研究[J].农业机械学报,2023,54(S02):260-269. 被引量：1
3王鹏新,王婕,田惠仁,张树誉,刘峻明,李红梅.基于遥感多参数和门控循环单元网络的冬小麦单产估测[J].农业机械学报,2022,53(9):207-216. 被引量：7
4赵晋陵,詹媛媛,王娟,黄林生.基于SE-UNet的冬小麦种植区域提取方法[J].农业机械学报,2022,53(9):189-196. 被引量：10
5刘立波,王涛,张鹏.基于CNN-S-GPR的宁夏枸杞高光谱影像估产方法[J].农业机械学报,2022,53(8):250-257. 被引量：2
6周西嘉,张悦,王鹏新,张树誉,李红梅,田惠仁.基于Sentinel的时间序列田块尺度LAI重建与冬小麦估产[J].农业机械学报,2022,53(8):173-185. 被引量：6
7王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
8蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
9崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14.
10劳钰钞,刘秀峰,杨锦礼,蒋志.基于随机森林构建集装箱堆存时间预测分类器的港口翻箱研究[J].装备制造技术,2022(2):209-212.

1Anusha Nagabandi,Gregory Kahn.利用神经网络动力学实现基于模型的强化学习[J].机器人产业,2018(1):52-57.
2于占波.挑战极寒,安凯发力东北新能源市场[J].商用汽车,2017,0(10):34-35.
3郭敏.环境设计专业毕业设计的教学改革研究[J].知识文库,2017(17):125-125.
4白娟,谢登峰,周颂东,何兴金.多星韭分布格局对末次盛冰期以来气候的响应[J].西北植物学报,2018,38(1):176-182. 被引量：6
5李义天.美德伦理研究的心理学资源与走向[J].天津社会科学,2017(6):30-36. 被引量：5
6邱东黎,施晶晶.基于强化学习方法的访存调度算法[J].计算机工程与应用,2018,54(2):62-67. 被引量：3
7缪倩,王丽霞,顾白永.BDNF与焦虑障碍关联性的研究进展[J].海南医学,2018,29(3):385-388. 被引量：6
8刘鸿雁,唐艳鸿.北京大学生物地理学与生态学的发展与成就[J].地理学报,2017,72(11):1997-2008. 被引量：5
9刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：468
10姜栋,徐欣.基于帕累托改进的多机器人动态任务分配算法[J].计算机应用,2017,37(12):3620-3624. 被引量：5

计算机工程与应用

2018年第5期

浏览历史

内容加载中请稍等...

深度逆向强化学习研究综述被引量：18

参考文献3

二级参考文献11

共引文献563

同被引文献171

引证文献18

二级引证文献224

相关作者

相关机构

相关主题

浏览历史

深度逆向强化学习研究综述 被引量：18

参考文献3

二级参考文献11

共引文献563

同被引文献171

引证文献18

二级引证文献224

相关作者

相关机构

相关主题

浏览历史

深度逆向强化学习研究综述被引量：18