基于层次情节性元强化学习的对抗行为评估被引量：2

Combat Behavior Evaluation Based on Hierarchical EpisodicMeta-deep Reinforcement Learning

下载PDF

导出

摘要基于强化学习的敌方对抗行为评估能够提高仿真推演的智能化水平,强化学习算法的训练速度成为制约其实际军事应用的关键。为了加快强化学习速度,首先将敌方对抗行为评估建模为多任务强化学习,并将环境知识和经验集成到学习算法,提出基于层次情节性元强化学习(Hierarchical Episodic Meta-Deep Reinforcement Learning,HE Meta DRL)的敌方对抗行为评估方法,协同加快强化学习速度。设计了层次情节性元强化学习智能体结构,给出了具体流程;采用可微分神经字典(Differentiable Neural Dictionary,DND)的情节记忆系统,解决参数增量的问题,并在长短时记忆神经网络里叠加设计好的情节记忆系统,恢复长短时记忆神经网络里的活动模式;最后选用OpenAI Gym平台和飞行器攻防对抗智能博弈平台对方法进行测试验证。结果表明,HE Meta DRL在倒立摆任务、情节性两步任务和敌方对抗行为评估任务上都表现出良好性能,实现了层次情节性DRL和元RL协同加速强化学习的目标。 Combat behavior evaluation of the enemy based on reinforcement learning can enhance the intelligent ability of simulation and deduction.The training speed of reinforcement learning has become the key of its military application.Firstly the combat behavior evaluation of the enemy is modeled as multi-task reinforcement learning and the environment knowledge and experience are introduced into the learning algorithm.The combat behavior evaluation method of enemy based on hierarchical episodic meta-deep reinforcement learning is proposed with the idea of cooperation.The hierarchical episodic meta-deep reinforcement learning agent structure is designed and its concretely flow is discussed.The episodic memory system is designed based on the Differentiable Neural Dictionary(DND)to solve the incremental parameter adjustment problem.The architecture melds the standard Long-Short Term Memory(LSTM)working memory with an episodic memory.The hidden activations from the previous encounter of LSTM are reinstated.The OpenAI Gym and aircraft intelligent game simulation platforms are chosen for the method validation.The results show that the prediction method has better performance on the task of CartPole-V0,episodic“two-step task”and combat behavior evaluation and attains the goal of accelerating the reinforcement learning speed with cooperation of hierarchical episodic deep reinforcement learning and meta-learning.

作者聂凯孟庆海 NIE Kai;MENG Qing-hai(Unit 91550 of PLA, Dalian 116023, China)

机构地区中国人民解放军

出处《指挥控制与仿真》 2021年第2期65-71,共7页 Command Control & Simulation

关键词仿真推演行为评估强化学习元学习情节性深度强化学习层次 simulation deduction behavior evaluation reinforcement learning meta-learning episodic deep reinforcement learning hierarchical

分类号 TJ761.1 [兵器科学与技术—武器系统与运用工程]

引文网络
相关文献

参考文献9

1胡晓峰,贺筱媛,陶九阳.AlphaGo的突破与兵棋推演的挑战[J].科技导报,2017,35(21):49-60. 被引量：37
2刘静,张昭,张阳,刘江伟.支持强化学习多智能体的网电博弈仿真平台[J].指挥与控制学报,2019,5(1):55-62. 被引量：10
3金欣.指挥控制智能化现状与发展[J].指挥信息系统与技术,2017,8(4):10-18. 被引量：50
4李晨溪,曹雷,张永亮,陈希亮,周宇欢,段理文.基于知识的深度强化学习研究综述[J].系统工程与电子技术,2017,39(11):2603-2613. 被引量：40
5赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
6刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：470
7梁星星,冯旸赫,黄金才,王琦,马扬,刘忠.基于自回归预测模型的深度注意力强化学习方法[J].软件学报,2020,31(4):948-966. 被引量：17
8周文吉,俞扬.分层强化学习综述[J].智能系统学报,2017,12(5):590-594. 被引量：20
9汪亮,王文,王禹又,侯松林,乔裕哲,吴天珩,陶先平.强化学习方法在通信拒止战场仿真环境中多无人机目标搜寻问题上的适用性研究[J].中国科学：信息科学,2020,50(3):375-395. 被引量：10

二级参考文献153

1LI Chang-chun1, ZHANG Guang-sheng1, LEI Tian-jie2, 3, GONG A-du2, 3 1. School of Surveying & Land Information Engineering, Henan Polytechnic University, Jiaozuo 454000, China,2. Key Laboratory of Environmental Change and Natural Disaster, Ministry of Education, Beijing Normal University, Beijing 100875, China,3. Ministry of Civil Affairs/Ministry of Education of China Academy of Disaster Reduction and Emergency Management, Beijing Normal University, Beijing 100875, China.Quick image-processing method of UAV without control points data in earthquake disaster area[J].中国有色金属学会会刊：英文版,2011,21(S3):523-528. 被引量：14
2魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
3高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
4阮武杰,赵伟华.基于HLA的直升机作战仿真平台研究[J].科技咨询导报,2007(27):3-3. 被引量：1
5MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
6SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
7AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
8TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
9SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.
10KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232.

共引文献714

1傅汇乔,唐开强,邓归洲,王鑫鹏,陈春林.基于深度强化学习的六足机器人运动规划[J].智能科学与技术学报,2020(4):361-371. 被引量：3
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
3李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：21
4韩志豪,汪益兵,张宇,郝永志.基于深度强化学习的船舶航线自动规划[J].中国航海,2021,44(1):100-105. 被引量：9
5张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
6李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
7舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
8周瑶瑶,李烨.基于排序优先经验回放的竞争深度Q网络学习[J].计算机应用研究,2020,37(2):486-488. 被引量：7
9席磊,余璐,张弦,胡伟.基于深度强化学习的泛在电力物联网综合能源系统的自动发电控制[J].中国科学：技术科学,2020,50(2):221-234. 被引量：19
10李逊,李俊超,邓林忠,康旭云,欧启捷,劳恒辉.人工智能优化技术在钢筋混凝土结构的应用[J].建筑结构,2023,53(S02):1425-1430. 被引量：1

同被引文献20

1叶军,刘天宇,王竣德.基于启发式算法的联合投送方案优化[J].军事交通学院学报,2020,22(5):21-27. 被引量：3
2刘宁,杜菲菲,王美丽.联合投送系统效能分析[J].军事交通学院学报,2019,21(10):1-5. 被引量：1
3海军,苑德春.综合运用LOGIT模型和AHP法预测部队联合投送方式分担率[J].国防交通工程与技术,2014,12(6):28-32. 被引量：4
4郭志明,李长福,姬广振,刘勤,钱云鹏,胡冰甦.改进布谷鸟算法在成败型产品可靠性抽样检验方案设计中的应用研究[J].兵工学报,2017,38(4):758-765. 被引量：3
5侯小平,胡坚明,陈兴德.部队陆空联合投送路径优化[J].军事交通学院学报,2017,19(5):5-9. 被引量：2
6张彬超,寇雅楠,邬蒙,左家亮.基于深度置信网络的近距空战态势评估[J].北京航空航天大学学报,2017,43(7):1450-1459. 被引量：21
7欧微,李卫军,廖鹰.基于深度学习的兵棋实体决策效果智能评估模型[J].军事运筹与系统工程,2018,32(4):29-34. 被引量：9
8赵晓晓,肖玉杰,马吟龙,徐蕾,郭慧鑫.基于深度学习的作战任务规划合理性分析[J].指挥与控制学报,2019,5(2):153-158. 被引量：8
9王亚辉,余隋怀,陈登凯,初建杰,刘卓,王金磊,马宁.基于深度学习的人工智能设计决策模型[J].计算机集成制造系统,2019,25(10):2467-2475. 被引量：24
10李益兵,王磊,江丽.基于PSO改进深度置信网络的滚动轴承故障诊断[J].振动与冲击,2020,39(5):89-96. 被引量：41

引证文献2

1郭志明,高亮,叶军,刘天宇,乔虎.联合投送任务规划方案智能集成评估[J].指挥与控制学报,2023,9(1):58-65.
2陈奕宇,霍静,丁天雨,高阳.元强化学习研究综述[J].软件学报,2024,35(4):1618-1650.

1吴以溪(编译).黏糊糊的生命[J].大自然探索,2021,40(3):64-67.
2李香龙,付晓,朱洁,赵向阳,马龙飞.基于多智能体系统理论的配电网运行控制策略[J].电力系统及其自动化学报,2020,32(9):49-54. 被引量：3
3魏翔宇,张琪.基于非合作博弈的路网对抗行为建模研究[J].系统仿真学报,2021,33(2):271-279.
4张鑫,张席.优先状态估计的双深度Q网络[J].计算机工程与应用,2021,57(8):78-83.
5付景超,周健博.混沌记忆系统的自适应反馈控制和轨迹跟踪控制[J].数学的实践与认识,2021,51(4):117-122. 被引量：2
6韩鹏,赵嶷飞,刘宏.无人机地面撞击风险评估体系构建及趋势展望[J].中国民航大学学报,2021,39(1):40-47. 被引量：2
7朱永华.用硬币清偿执行款何错之有?[J].法制与社会,2021(3):7-7.
8田玉杰.船舶维修风险量化评估的层次分析法应用[J].中国水运,2021(3):98-100. 被引量：2
9徐丽芳,左涛.基于人工智能的开放式文字冒险游戏——AI Dungeon个案研究[J].出版参考,2021(2):19-23. 被引量：2
10王雨琪,宁国栋,王晓峰,郝明瑞,王江华.基于微分对策的临近空间飞行器机动突防策略[J].航空学报,2020(S02):69-78. 被引量：14

指挥控制与仿真

2021年第2期

浏览历史

内容加载中请稍等...

基于层次情节性元强化学习的对抗行为评估被引量：2

参考文献9

二级参考文献153

共引文献714

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于层次情节性元强化学习的对抗行为评估 被引量：2

参考文献9

二级参考文献153

共引文献714

同被引文献20

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于层次情节性元强化学习的对抗行为评估被引量：2