基于分层强化学习的联合作战仿真作战决策算法被引量：7

Joint Operation Simulation Decision-making Algorithm Based on Hierarchical Reinforcement Learning

下载PDF

导出

摘要如何对复杂装备体系进行有效的认知决策,一直以来都是联合作战研究领域中的热点与难点,采用一种具有较强适应性的决策算法,对于应对战场突发状况具有重要意义。通过结合近端策略优化和分层强化学习,提出了一种基于分层强化学习的联合作战仿真作战决策算法,以空地一体化联合作战为背景进行作战想定,结合自主设计的作战原型系统,分析了武器装备体系作战决策流程,对分层强化学习的层次结构、奖励函数的设计、决策网络结构和训练方法进行了详细说明。通过自主开发的仿真平台对算法的有效性进行验证,为联合作战中指挥决策的适应性机制问题提供较为有效的解决方法和辅助参考价值。 How to make effective cognitive decision-making on complex weapon equipment systems has always been a hot and difficult point in the realm of joint operation research.The use of a more adaptive decision-making algorithm is of great significance for dealing with emergencies on the battlefield.By combining proximal strategy optimization and hierarchical reinforcement learning,this paper has proposed a joint operation simulation decision-making algorithm based on hierarchical reinforcement learning is proposed.By assumpting air and ground integrated joint operations as the background for operational scenarios,the self-designed combat prototype system is combined to analyze the combat decision-making process of weapon equipment system and make detailed description of the hierarchical structure of hierarchical reinforcement learning,the design of reward function,decision-making network structure and training method.Finally,the effectiveness of the algorithm has been verified through a self-developed simulation platform,which has provided a more effective solution and auxiliary reference value for the adaptive mechanism problem of command and decision-making in joint operations.

作者于博文吕明张捷 YU Bo-wen;LYU Ming;ZHANG Jie(Nanjing University of Science and Technology,Nanjing 210094,China)

机构地区南京理工大学

出处《火力与指挥控制》 CSCD 北大核心 2021年第10期140-146,共7页 Fire Control & Command Control

基金江苏省自然科学基金资助项目(BK20180467)。

关键词联合作战作战仿真作战决策分层强化学习近端优化 joint operations operation simulation operation decision-making hierarchical reinfor-cement learning the proximal optimization

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置] TJ01 [兵器科学与技术—兵器发射理论与技术]

引文网络
相关文献

参考文献8

1刘昊,张策,丁文韬.基于智能对抗进化的联合火力打击任务规划方法[J].兵工学报,2019,40(6):1287-1296. 被引量：9
2张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：19
3徐志雄,曹雷,陈希亮.基于强化学习的无人坦克对战仿真研究[J].计算机工程与应用,2018,54(8):166-171. 被引量：13
4杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：21
5徐安,寇英信,于雷,李战武.基于RBF神经网络的Q学习飞行器隐蔽接敌策略[J].系统工程与电子技术,2012,34(1):97-101. 被引量：8
6李誌,胡坤,余雪丽.基于半马氏博弈模型的分层强化学习研究[J].计算机工程与设计,2012,33(9):3558-3562. 被引量：2
7杨萍,毕义明,刘卫东.基于模糊马尔科夫理论的机动智能体决策模型[J].系统工程与电子技术,2008,30(3):511-514. 被引量：8
8熊健,赵青松,葛冰峰,陈英武.基于多目标优化模型的武器装备体系能力规划[J].国防科技大学学报,2011,33(3):140-144. 被引量：13

二级参考文献74

1岑凯辉,谭跃进,杨克巍,李孟军.军事能力到装备系统的双层规划模型及其求解算法[J].国防科技大学学报,2007,29(5):128-131. 被引量：4
2苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
3祝世虎,董朝阳,张金鹏,陈宗基.基于神经网络与专家系统的智能决策支持系统[J].电光与控制,2006,13(1):8-11. 被引量：15
4杨镜宇,司光亚,胡晓峰.战争系统体系能力需求的建模与仿真[J].系统仿真学报,2006,18(12):3599-3602. 被引量：14
5Watkins C J, Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3):279-292.
6高阳,周如益,王皓,曹志新.平均奖赏强化学习算法研究[J].计算机学报,2007,30(8):1372-1378. 被引量：38
7DoD Architecture Franework Woking Grup.DoD Architechure Franework Version 1.0 Vohurne I;Definritons and Guidelines[R].U.S:Departmenrt of Defense,2008.
8NATO. Handlx~k on Long Term Defense Planningt R J, St. Joseph Print Group Inc., Canada, 2003.
9McPuay W K.Collaborative Enviroment for Capability based Planring [C]//Proceeding of SPIE Enabling Technologes for Sirrulation Science,2005:318-327.
10The Joint Capability Integration and l)evdopment System(JCIDS) [ R]. PM - 2001 - ISE, 2003.

<12 3 4 5…8 >

共引文献77

1徐安,于雷,寇英信,徐保伟,李战武.基于MDP框架的飞行器隐蔽接敌策略[J].系统工程与电子技术,2011,33(5):1063-1068. 被引量：11
2任凯,浦金云.虚拟指挥训练环境中受控对象的建模技术研究[J].系统仿真学报,2011,23(6):1077-1081. 被引量：1
3徐安,寇英信,于雷,李战武.基于RBF神经网络的Q学习飞行器隐蔽接敌策略[J].系统工程与电子技术,2012,34(1):97-101. 被引量：8
4张蓉,陈云翔,李大伟.多目标优化理论在武器装备采办委托代理策略中的应用[J].应用科技,2013,40(6):29-33. 被引量：1
5张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：19
6刘旭,李为民,宋文静.不确定条件下武器装备体系发展规划模型[J].现代防御技术,2015,43(5):26-32. 被引量：3
7闫雪飞,李新明,刘东.武器装备体系评估技术与研究[J].火力与指挥控制,2016,41(1):7-10. 被引量：11
8辜磊,王书宁,赵峰.基于期望效能的武器装备体系能力规划模型[J].系统工程与电子技术,2017,39(2):329-334. 被引量：7
9王寿彪,李新明,杨凡德,裴忠民,刘东.武器装备体系演化研究[J].火力与指挥控制,2017,42(3):1-7. 被引量：7
10闫雪飞,李新明,刘东,王寿彪.基于Nash-Q的网络信息体系对抗仿真技术[J].系统工程与电子技术,2018,40(1):217-224. 被引量：7

<12 3 4 5…8 >

同被引文献54

1李斌,刘苏洋,李春洪,谢涌纹.探索性仿真实验仿真想定空间筛选[J].火力与指挥控制,2012,37(S1):142-145. 被引量：4
2杨镜宇,司光亚,胡晓峰.信息化战争体系对抗探索性仿真分析方法研究[J].系统仿真学报,2005,17(6):1469-1472. 被引量：44
3陈彩辉,姜汉龙.任务空间概念模型(CMM S)研究[J].计算机仿真,2005,22(9):80-84. 被引量：13
4Cai Huaiping Liu Jingxu Chen Yingwu Wang Hao.Survey of the research on dynamic weapon-target assignment problem[J].Journal of Systems Engineering and Electronics,2006,17(3):559-565. 被引量：48
5丁泽柳,罗爱民,罗雪山.一种C^4ISR系统通信网络结构优化方法[J].火力与指挥控制,2011,36(5):21-24. 被引量：2
6李斌,刘苏洋,李春洪,谢涌纹.探索性仿真实验仿真想定空间筛选[J].火力与指挥控制,2013,38(5):152-156. 被引量：4
7牛轶峰,肖湘江,柯冠岩.无人机集群作战概念及关键技术分析[J].国防科技,2013,34(5):37-43. 被引量：122
8喻飞飞,赵志敏,包俊.探索性仿真分析框架下的实验点设计方法[J].指挥控制与仿真,2014,36(2):80-84. 被引量：6
9张博,康凤举,苏冰.一种面向论证仿真的舰艇作战系统任务空间概念模型[J].兵工学报,2015,36(S2):112-117. 被引量：2
10朱新华,马润聪,孙柳,陈宏朝.基于知网与词林的词语语义相似度计算[J].中文信息学报,2016,30(4):29-36. 被引量：64

<12 3 4 5 6 >

引证文献7

1苏萌韬,曾碧.基于渐进式神经网络的多任务强化学习算法[J].机电工程技术,2022,51(11):21-25. 被引量：1
2陈涛,林萌龙,陈洪辉,张萌萌.基于深度强化学习的体系设计空间探索方法[J].火力与指挥控制,2022,47(12):109-114. 被引量：1
3安靖,司光亚,周杰,韩旭.基于知识图谱的仿真想定智能生成方法[J].指挥与控制学报,2023,9(1):103-109. 被引量：2
4安靖,司光亚,张雷.基于深度强化学习的立体投送策略优化方法研究[J].系统仿真学报,2024,36(1):39-49. 被引量：3
5安靖,刘伟,周杰.基于深度强化学习的作战概念能力需求分析关键技术[J].指挥控制与仿真,2024,46(3):18-24.
6伍国华,李冰洁,袁于斐,陆志沣.基于任务分解与强化学习的多平台协同火力分配方法[J].控制与决策,2024,39(5):1727-1735. 被引量：1
7傅妍芳,雷凯麟,魏佳宁,曹子建,杨博,王炜,孙泽龙,李秦洁.基于演员-评论家框架的层次化多智能体协同决策方法[J].兵工学报,2024,45(10):3385-3396.

二级引证文献8

1林萌龙,陈涛,任棒棒,张萌萌,陈洪辉.基于多智能体深度强化学习的体系任务分配方法[J].指挥与控制学报,2023,9(1):93-102. 被引量：3
2洪子祺,许文波,吕晨,欧阳权,王志胜.基于遗传算法优化的深度强化学习-PI空气舵伺服系统控制策略[J].机电工程,2023,40(7):1071-1078. 被引量：3
3安靖,司光亚,曾妙婷.模型与数据混合驱动的代理模型构建方法研究[J].系统仿真学报,2024,36(3):756-769.
4安靖,刘伟,周杰.基于深度强化学习的作战概念能力需求分析关键技术[J].指挥控制与仿真,2024,46(3):18-24.
5郭亚楠,曹小群,杨术,周晓光.面向空战仿真的智能对手建模研究进展与展望[J].火力与指挥控制,2024,49(5):1-8. 被引量：1
6刘洋,刘颢,曲腾腾,陈炜.一种基于时空知识图谱的意图识别置信度评估方法[J].指挥与控制学报,2024,10(2):154-161.
7李乔易,王正杰,张小宁,程杞元.基于深度确定性梯度学习的集群多目标分配方法[J].北京理工大学学报,2024,44(10):1051-1057.
8王瑞,孙鹏宇,李联邦,燕厚仪.基于改进遗传算法的运输投送任务规划模型[J].军事运筹与评估,2024,39(5):23-28.

1张鹏昊,秦斌.深度强化学习研究进展[J].电脑知识与技术,2021,17(28):104-106. 被引量：1
2许华,宋佰霖,蒋磊,饶宁,史蕴豪.一种通信对抗干扰资源分配智能决策算法[J].电子与信息学报,2021,43(11):3086-3095. 被引量：11
3赵仁星,何明浩,冯明月,郭小龙.美军“马赛克战”相关技术项目发展[J].舰船电子对抗,2021,44(6):1-6. 被引量：1
4赵禄达,王斌.基于DBN的电子战指挥决策辅助方法研究[J].电光与控制,2021,28(11):16-20. 被引量：2
5孟庆林,陈健,毛建舟.基于多值关联规则的编队作战案例调整方法研究[J].舰船电子对抗,2021,44(6):38-43.
6韩驰,熊伟.基于改进灰狼算法优化SVR的航天侦察装备效能评估[J].系统工程与电子技术,2021,43(10):2902-2910. 被引量：11
7宋一程.碳达峰、碳中和背景下商业银行ESG治理机制建设研究[J].海南金融,2021(12):59-67. 被引量：18
8钟伟杰,李小兵,常昊天,梁飞.基于嵌套PSO算法的反无人机集群防空部署模型[J].电光与控制,2021,28(12):6-10. 被引量：4
9冯远博,王冰切,赵上.电子对抗无人机蜂群组建构想[J].飞航导弹,2021(10):47-51. 被引量：6
10毛少杰,戚志刚,易侃,闫晶晶,毛晓彬.网络信息体系工程中的若干问题研究[J].中国电子科学研究院学报,2021,16(10):973-978. 被引量：3

<12 >

火力与指挥控制

2021年第10期

基于分层强化学习的联合作战仿真作战决策算法被引量：7

参考文献8

二级参考文献74

共引文献77

同被引文献54

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

基于分层强化学习的联合作战仿真作战决策算法 被引量：7

参考文献8

二级参考文献74

共引文献77

同被引文献54

引证文献7

二级引证文献8

相关作者

相关机构

相关主题

微信扫一扫：分享

基于分层强化学习的联合作战仿真作战决策算法被引量：7