基于深度逆向强化学习的行动序列规划问题研究被引量：7

Research on course of action planning based on deep inversereinforcement learning

下载PDF

导出

摘要针对深度强化学习在解决序贯决策任务中严重依赖回报函数,而回报函数又存在着反馈稀疏和反馈延迟等问题,论文提出了基于深度逆向强化学习方法的行动序列生成与优化方法,通过专家示例轨迹数据重构回报函数,实现高质量示例轨迹数据中隐性专家经验的获取和利用,挖掘数据背后的规律。然后将重构的回报函数与环境固有的回报函数进行奖赏塑型,生成的新的回报函数能够更加及时、准确地对智能实体的行为给予反馈,大幅加速了强化学习的收敛速度。 Deep reinforcement learning relies heavily on the reward function in solving sequential decision tasks, and the reward function faces the problems of sparse feedback and delayed feedback. In this paper, a method of generating and optimizing action sequence based on deep inverse reinforcement learning method is proposed, and the reward function is reconstructed by expert demonstrations to achieve high-quality display. The acquisition and utilization of implicit expert experience in demonstration trajectory data are exemplified, and the potential laws behind the demonstrations are mined. Then the reconstructed reward function is merged with the inherent return function of the environment. The new reward function can give more timely and accurate feedback to the behavior of intelligent entities, and can greatly accelerate the convergence speed of reinforcement learning.

作者陈希亮曹雷沈驰 CHEN Xiliang;CAO Lei;SHEN Chi(College of Command and Control Engineering,Army Engineering University, Nanjing 210007, China;The 28th Research Institute of China Electronic Science and Technology Group Corporation, Nanjing 210007, China)

机构地区陆军工程大学指挥控制工程学院中国电子科技集团公司第二十八研究所

出处《国防科技》 2019年第4期55-61,共7页 National Defense Technology

关键词深度强化学习作战行动序列智能化战争 deep reinforcement learning course of action planning smart warfare

分类号 E917 [军事]

引文网络
相关文献

参考文献6

1赵国宏,罗雪山.作战任务规划系统研究[J].指挥与控制学报,2015,1(4):391-394. 被引量：30
2孔德锋,陈超,杜正军.序贯博弈中作战行动执行时间的优化建模与求解[J].火力与指挥控制,2013,38(10):42-45. 被引量：2
3张迎新,陈超,刘忠,石建迈.资源不确定军事任务计划预测调度模型与算法[J].国防科技大学学报,2013,35(3):30-35. 被引量：13
4杜正军,陈超,姜鑫.基于影响网络与序贯博弈的作战行动序列模型与求解[J].系统工程理论与实践,2013,33(1):215-222. 被引量：13
5殷阶,王本胜,朱旭.信息作战行动序列规划随机博弈模型及求解方法[J].指挥信息系统与技术,2016,7(2):7-12. 被引量：3
6赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：127

二级参考文献168

1唐金国.美军任务规划系统的现状、发展和关键技术[J].军事运筹与系统工程,2003,17(3):62-64. 被引量：22
2阳东升,张维明,刘忠,胡剑文.组织过程策略优化的案例分析与求解[J].系统仿真学报,2005,17(7):1648-1654. 被引量：15
3张广军,邓剑,柳少军.联合任务计划决策支持系统研究与实现[J].军事运筹与系统工程,2006,20(3):13-17. 被引量：4
4Levchuk G M, Levchuk Y N, Luo J, et al. Normative design of organizations. I. Mission planning [J]. IEEE Transactions on Systems, Man and Cybernetics Part A: Systems and Humans ,2002, 32 (3) :346 - 359.
5Belfares L, Klibi W, Lo N, et al. Multi-objectives tabu search based algorithm for progressive resource allocation [J]. European Journal of Operational Research, 2007, 177 ( 3 ) : 1779 - 1799.
6Lambrechts O, Demeulemeester E, Herroelen W. Time slack- based techniques for robust project scheduling subject to resource uncertainty [J]. Annals of Operations Research, 2011, 186( 1 ) :443 -464.
7Lambrechts O, Demeulemeester E, Herroelen W. Proaetive and reactive strategies for resource-constrained project scheduling with uncertain resource availabilities [J]. Journal of Scheduling,2008, 11 (2) :121 - 136.
8Van de Vonder S, Demeulemeester E, Herroelen W. A classification of predictive-reactive project scheduling procedures [J]. Journal of Scheduling,2007, 10(3) : 195 -207.
9Deb K, Pratap A, Agarwal S, et al. A fast and elitist muhiobjective genetic algorithm: NSGA-II[J]. IEEE Transactions on Evolutionary Computation, 2002, 6(2): 182-197.
10Alcaraz J, Maroto C. A robust genetic algorithm for resource allocation in project sCheduling [J]. Annals of Operations Research,2001, 102( 1 ) :83 - 109.

共引文献177

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：42
2舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
3刘兆鹏,柳少军,司光亚,周文.面向推演分析的联合作战方案概念建模研究[J].系统仿真学报,2018,30(12):4563-4573. 被引量：6
4李凌昊,邱兴业,李凌,许鹏.面向舰载航空兵作战的不间断指挥能力研究[J].指挥与控制学报,2018,4(4):334-338. 被引量：3
5程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：116
6雷霆,张维明.体系攻防条件下的多阶段目标选择模型[J].军事运筹与系统工程,2014,28(2):18-23. 被引量：3
7刘文明,唐建军.乒乓球序贯行动博弈的纳什均衡[J].北京体育大学学报,2015,38(7):140-144. 被引量：8
8黄红兵,李贤玉,王学宁,张桂元.作战计划生成中的理论与技术问题:一种综合视角[J].指挥与控制学报,2016,2(2):98-113. 被引量：2
9张董,游福成,王惠华,姜超,李明.受限制Boltzmann机深度置信网络与手写数字识别[J].北京印刷学院学报,2016,24(4):56-58. 被引量：4
10孙昱,姚佩阳,孙鹏,任高明.基于鲁棒多目标优化的智能体群组协同任务规划[J].控制与决策,2016,31(11):2045-2052. 被引量：8

同被引文献44

1Xiaohong WANG,Yuan ZHANG,Lizhi WANG,Dawei LU,Guoqi ZENG.Robustness evaluation method for unmanned aerial vehicle swarms based on complex network theory[J].Chinese Journal of Aeronautics,2020,33(1):352-364. 被引量：25
2李天柱,银路.情景规划应对不确定性的思路研究[J].技术经济,2009,28(6):52-55. 被引量：22
3李春好,孙永河,贾艳辉,杜元伟.变权层次分析法[J].系统工程理论与实践,2010,30(4):723-731. 被引量：83
4杜正军,陈超,姜鑫.基于影响网络与序贯博弈的作战行动序列模型与求解[J].系统工程理论与实践,2013,33(1):215-222. 被引量：13
5姚佩阳,万路军,马方方,税冬东.基于动态影响网的任务联盟演化过程行动策略优选[J].系统工程与电子技术,2014,36(8):1527-1536. 被引量：4
6陈晓峰,刘兴,高元博,郑亚波.基于数据挖掘的海战场态势可视化平台构建[J].火力与指挥控制,2015,40(4):144-147. 被引量：16
7陈宇寒,张宏.基于PSO和扩展TOPSIS方法的COA优选方法[J].系统工程理论与实践,2015,35(8):2144-2151. 被引量：11
8尹强,叶雄兵.作战筹划方法研究[J].国防科技,2016,37(1):95-99. 被引量：10
9李小花,李姝.基于数据挖掘的战场目标综合识别技术[J].指挥控制与仿真,2016,38(3):16-23. 被引量：8
10陶九阳,吴琳,胡晓峰.AlphaGo技术原理分析及人工智能军事应用展望[J].指挥与控制学报,2016,2(2):114-120. 被引量：73

引证文献7

1董浩洋,张永亮,齐宁,周志宇.基于综合势能的作战行动序列生成方法研究[J].军事运筹与系统工程,2020,34(3):11-18. 被引量：4
2包战,张驭龙,朱松岩,王春光,刘忠.智能临机规划技术要点研究[J].国防科技,2023,44(1):112-118.
3刘佳楠,于洋,赵亚威.基于逆向强化学习的虚拟人物行为生成方法[J].信息技术与信息化,2023(6):114-117.
4赵芷若,曹雷,陈希亮,赖俊,章乐贵.基于多智能体博弈强化学习的无人机智能攻击策略生成模型[J].系统工程与电子技术,2023,45(10):3165-3171.
5李丽,吴琳,陶九阳,贺筱媛,叶林发.作战任务序列智能生成方式及其态势表征方法[J].指挥与控制学报,2023,9(5):542-548.
6钟赟,张杰勇,蔡明,万路军,李军.影响网在作战行动过程优选中的应用[J].指挥信息系统与技术,2024,15(1):51-58.
7Yun Zhong,Jieyong Zhang,Peng Sun,Lujun Wan,Kepeng Wang.Optimized Selection Method of Air Combat Course of Action under Stochastic Uncertainty[J].Journal of Systems Science and Systems Engineering,2024,33(4):494-518.

二级引证文献4

1王娜,国艳群,李和平,李翔.一种基于混合推理的电子对抗作战行动生成框架[J].中国电子科学研究院学报,2023,18(1):43-47.
2孙宇祥,彭益辉,李斌,周佳炜,张鑫磊,周献中.智能博弈综述:游戏AI对作战推演的启示[J].智能科学与技术学报,2022,4(2):157-173. 被引量：11
3章乐贵,曹雷,陈希亮,汤伟,王军,张启阳.智能蓝军作战行为决策模型优化技术研究[J].火力与指挥控制,2023,48(11):17-24.
4张永亮,倪黎,倪晚成,刘轩.基于深度强化学习的作战任务规划技术研究[J].军事运筹与评估,2024,39(1):60-67.

1程恺,陈刚,尹成祥,康睿智,康兴挡.作战行动序列核心本体建模及其推理方法[J].系统工程与电子技术,2018,40(4):805-814. 被引量：4
2于国柱.信息技术在小学科学课程中的应用[J].读与写（上旬）,2019(12):79-79.
3刘万民,马越.新媒体视域下大学生隐性思想政治教育的路径研究[J].新闻研究导刊,2019,10(12):224-224. 被引量：2
4李军苗,杨登法,华浅近,陈建华,张海涛,吴贵阳.1.5TMRI成像单指数模型及体素内不相干运动诊断胰腺癌的应用价值[J].浙江临床医学,2019,21(1):4-6. 被引量：4
5罗玛.从科学推理到证据推理:内涵的探讨[J].化学教学,2019,0(9):3-6. 被引量：30
6彭文华.哈利维的人工智能犯罪观及其启示[J].上海政法学院学报（法治论丛）,2019,34(4):70-88. 被引量：8
7江其洲,曾碧.基于深度强化学习的移动机器人导航策略研究[J].计算机测量与控制,2019,27(8):217-221. 被引量：11
8赵非,黄新文.基于BENTLY平台的地质三维建模技术研究[J].铁道勘察,2019,45(3):60-64. 被引量：7
9柏艳芳,杨天珍,刘梅丽,李凤姣.抽真空塑型垫在胸科手术患者侧卧位安置中的应用[J].中华现代护理杂志,2019,25(22):2820-2824. 被引量：7
10李福进,张俊琴,任红格.基于仿生学内在动机的Q学习算法移动机器人路径规划研究[J].现代电子技术,2019,42(17):133-137. 被引量：5

国防科技

2019年第4期

浏览历史

内容加载中请稍等...

基于深度逆向强化学习的行动序列规划问题研究被引量：7

参考文献6

二级参考文献168

共引文献177

同被引文献44

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度逆向强化学习的行动序列规划问题研究 被引量：7

参考文献6

二级参考文献168

共引文献177

同被引文献44

引证文献7

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度逆向强化学习的行动序列规划问题研究被引量：7