基于强化学习的体系对抗仿真战役层次指控算法被引量：1

A RL-based command and control algorithm for SoS confrontation simulation at the tactical level

下载PDF

导出

摘要针对传统的认知决策技术无法有效应对体系对抗环境具有的不确定性、未知性以及复杂性问题,提出一种基于强化学习(RL)的体系对抗仿真战役层次指控算法。介绍了包含侦察类、打击类、通信类、补给类、修复类以及指控类Agent的UML体系架构,对自主开发的作战仿真原型系统及其作战想定进行了说明,在对战役层次指控Agent认知域描述与假设的基础上,对改进Q-learning认知决策算法的参数归一化、基于GRBF神经网络的Q离散、基于TD公式的跨步差分机制以及网络结构的学习训练过程进行了详细说明。最后,通过地空一体化联合体系对抗仿真验证了算法的有效性,并通过对算法的大量可视化回溯分析发现,一定程度的火力协调以及不间断的战术机动对于作战效能的提升以及毁伤的减免具有重要的意义。 Aiming at the problem that the traditional cognition techniques are not adaptive to the uncertainty and complexity in the Weapon System-of-Systems（WSoS）confrontation environment,a Command and Control（C2）algorithm based on Reinforcement Learning（RL）is proposed for the WSoS confrontation simulation at the tactical level.The UML architecture of WSoS that consists of a communication class,scouting class,attacking class,command class,supplying class and repairing class is designed and the battle simulation platform with the battle scenario is introduced.Then,based on the illustration and hypothesis for the command agent＇s cognition problem,the parameter＇s normalization,the discrete of the Q table based on GRBF neural network,the strip temporal difference mechanism and the learning process of the structure of the network are explained for the improved Q-leaning cognition algorithm.Finally,the validation and effectiveness of the algorithm is proved through the battle simulation experiment of the air-ground unify confrontation SoS.Besides,through a lot of visualization recall analysis for the C2 algorithm,we found that the coordination of the firepower and the continuous tactical maneuver are important to the operational effectiveness and injure decrease.

作者闫雪飞李新明刘东刘德生李强 YAN Xue-fei;LI Xin ruing;LIU Dong;LIU De sheng;LI Qiang(Laboratory of Science and Technology on Complex Electronic System Simulation,Equipment Academy,Beijing 101416,China)

机构地区装备学院复杂电子系统仿真实验室

出处《计算机工程与科学》 CSCD 北大核心 2018年第8期1511-1520,共10页 Computer Engineering & Science

基金装备预研领域基金项目(61400010103) 重点实验室基础研究项目(DXZT-JC-ZZ-2015-007)

关键词武器装备体系作战仿真强化学习 GRBF神经网络认知决策 weapon system of systems battle simulation reinforcement learning GRBF neural network cognition

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1熊健,赵青松,葛冰峰,陈英武.基于多目标优化模型的武器装备体系能力规划[J].国防科技大学学报,2011,33(3):140-144. 被引量：12
2庞毅,孙青林,焦纲领,赵春龙,陈增强.基于多Agent的舰艇编队对海攻击仿真系统[J].系统工程与电子技术,2015,37(10):2396-2403. 被引量：2
3金欣.“深绿”及AlphaGo对指挥与控制智能化的启示[J].指挥与控制学报,2016,2(3):202-207. 被引量：29
4马耀飞,龚光红,彭晓源.基于强化学习的航空兵认知行为模型[J].北京航空航天大学学报,2010,36(4):379-383. 被引量：14
5徐安,寇英信,于雷,李战武.基于RBF神经网络的Q学习飞行器隐蔽接敌策略[J].系统工程与电子技术,2012,34(1):97-101. 被引量：8
6杨萍,毕义明,刘卫东.基于模糊马尔科夫理论的机动智能体决策模型[J].系统工程与电子技术,2008,30(3):511-514. 被引量：8
7杨克巍,张少丁,岑凯辉,谭跃进.基于半自治agent的profit-sharing增强学习方法研究[J].计算机工程与应用,2007,43(15):72-75. 被引量：3
8贾子英,周世华,赵磊.基于数据场的体系作战能力分析[J].现代防御技术,2015,43(6):194-198. 被引量：2

二级参考文献84

1岑凯辉,谭跃进,杨克巍,李孟军.军事能力到装备系统的双层规划模型及其求解算法[J].国防科技大学学报,2007,29(5):128-131. 被引量：4
2吴强,姜玉宪.反舰导弹综合突防技术[J].北京航空航天大学学报,2004,30(12):1212-1215. 被引量：13
3淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262. 被引量：82
4杨镜宇,司光亚,胡晓峰.战争系统体系能力需求的建模与仿真[J].系统仿真学报,2006,18(12):3599-3602. 被引量：14
5Watkins C J, Dayan P. Q-learning[J]. Machine Learning, 1992, 8(3):279-292.
6Howard R A. Dynamic programming and markov processes[ M ]. Cambridge: MIT Press, 1960.
7Sutton R S, Barto A G. Time derivative models of pavlovian rein- forcement,learning and computational neuroscience : foundations of adaptive networks [ M ]. Cambridge : MIT Press, 1990 : 497 - 537.
8Baron Sheldon,Kelinman D L,Serben Saul. A study of the markov game approach to tactical maneuvering problems [ R ]. NASA CR-1979,1972.
9Moore A W, Atkeson C G. The patti-game algorithm for variable resolution reinforcement learning in multidimensional statespaces [ J]. Machine Learning, 1995,21 ( 3 ) : 199 - 233.
10Park J, Sandberg I W. Universal approximation using radial-basis function network [ J]. Neural Computation, 1991 (3) :246 - 257.

共引文献64

1徐安,于雷,寇英信,徐保伟,李战武.基于MDP框架的飞行器隐蔽接敌策略[J].系统工程与电子技术,2011,33(5):1063-1068. 被引量：11
2任凯,浦金云.虚拟指挥训练环境中受控对象的建模技术研究[J].系统仿真学报,2011,23(6):1077-1081. 被引量：1
3徐安,寇英信,于雷,李战武.基于RBF神经网络的Q学习飞行器隐蔽接敌策略[J].系统工程与电子技术,2012,34(1):97-101. 被引量：8
4赵凤飞,覃征.一种多动机强化学习框架[J].计算机研究与发展,2013,50(2):240-247. 被引量：6
5尹云飞,关海超,曾亚飞,王晓楠,孙天昊.飞行员动态行为评估方法[J].重庆大学学报（自然科学版）,2013,36(6):154-160. 被引量：3
6张蓉,陈云翔,李大伟.多目标优化理论在武器装备采办委托代理策略中的应用[J].应用科技,2013,40(6):29-33. 被引量：1
7刘志强,周亮,汪澎,倪捷.交叉口驾驶员转向意图辨识研究[J].科学技术与工程,2014,22(17):299-302. 被引量：2
8杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：19
9张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：19
10毛梦月,张安,周鼎,毕文豪.基于机动预测的强化学习无人机空中格斗研究[J].电光与控制,2019,26(2):5-10. 被引量：10

同被引文献12

1魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
2杨瑞平,郭齐胜.指挥实体建模与仿真研究[J].火力与指挥控制,2008,33(10):63-66. 被引量：7
3王锐平,高正红.无人机空战仿真中基于机动动作库的决策模型[J].飞行力学,2009,27(6):72-75. 被引量：16
4李昌玺,于军,徐颖,陈骋.联合作战条件下战场态势感知体系构建问题研究[J].中国电子科学研究院学报,2018,13(6):680-684. 被引量：19
5张福海,李宁,袁儒鹏,付宜利.基于强化学习的机器人路径规划算法[J].华中科技大学学报（自然科学版）,2018,46(12):65-70. 被引量：46
6申普兵,高凯,赵卫伟.作战指挥流程建模研究[J].火力与指挥控制,2015,40(6):1-5. 被引量：14
7吴昊霖,蔡乐才,高祥.在线更新的信息强度引导启发式Q学习[J].计算机应用研究,2018,35(8):2323-2327. 被引量：4
8付文博,孙涛,梁藉,闫宝伟,范福新.深度学习原理及应用综述[J].计算机科学,2018,45(B06):11-15. 被引量：67
9赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：62
10张晓海,操新文.基于深度学习的军事智能决策支持系统[J].指挥控制与仿真,2018,40(2):1-7. 被引量：29

引证文献1

1吴昭欣,李辉,王壮,陶伟,吴昊霖,侯贤乐.基于深度强化学习的智能仿真平台设计[J].战术导弹技术,2020(4):193-200. 被引量：6

二级引证文献6

1况立群,李思远,冯利,韩燮,徐清宇.深度强化学习算法在智能军事决策中的应用[J].计算机工程与应用,2021,57(20):271-278. 被引量：6
2侯贤乐,李辉,王壮,吴昭欣,文瀚.基于DDPG算法的导弹末制导律设计[J].战术导弹技术,2021(4):110-116. 被引量：3
3黄江涛,刘刚,周攀,章胜,杜昕.基于深度强化学习技术的舰载无人机自主着舰控制研究[J].南京师范大学学报（工程技术版）,2022,22(3):63-71. 被引量：3
4刘宝宏.海空集群对抗深度强化学习算法研究平台设计[J].软件工程,2024,27(1):32-35.
5安靖,司光亚,张雷.基于深度强化学习的立体投送策略优化方法研究[J].系统仿真学报,2024,36(1):39-49. 被引量：2
6安靖,刘伟,周杰.基于深度强化学习的作战概念能力需求分析关键技术[J].指挥控制与仿真,2024,46(3):18-24.

1张博孜,张国忠,常华耀.武器装备体系贡献度评估问题研究[J].计算机仿真,2018,35(2):397-401. 被引量：19
2江其玟,马季.互联网金融企业运营模式分析——基于风险管理的角度[J].上海商学院学报,2017,18(6):16-25. 被引量：4
3艾少平,刘俊峰,刘欣.广播电台网络热点新闻采集分析系统设计[J].广播电视信息,2018,0(3):71-74.
4周伟杰,张宏如,党耀国,王正新.新息优先累加灰色离散模型的构建及应用[J].中国管理科学,2017,25(8):140-148. 被引量：17
5吴亮.作战仿真数据VV&C研究[J].航天电子对抗,2018,34(3):56-59.
6闫雪飞,李新明,刘东,王寿彪.基于Nash-Q的网络信息体系对抗仿真技术[J].系统工程与电子技术,2018,40(1):217-224. 被引量：7
7胡小闹.新农村建设背景下农业经济管理优化方式研究[J].当代旅游,2018,0(1):64-64. 被引量：5
8刘李伟,林承焰,董春梅,马存飞.苏北盆地阜二段泥页岩储层测井解释[J].海洋地质前沿,2018,34(2):53-60. 被引量：1
9孟晓阳,朱卫国,黄迎萍,张楠,陈小平.医院网络渗透测试与数据包分析技术实践[J].中国卫生信息管理杂志,2017,14(6):838-842. 被引量：3
10吕帮俊,彭利坤,黄斌,徐延.潜艇机电指挥军官操艇能力构成要素研究[J].海军工程大学学报（综合版）,2018,15(2):64-67.

计算机工程与科学

2018年第8期

浏览历史

内容加载中请稍等...

基于强化学习的体系对抗仿真战役层次指控算法被引量：1

参考文献8

二级参考文献84

共引文献64

同被引文献12

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于强化学习的体系对抗仿真战役层次指控算法 被引量：1

参考文献8

二级参考文献84

共引文献64

同被引文献12

引证文献1

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于强化学习的体系对抗仿真战役层次指控算法被引量：1