基于近端策略优化的空战决策算法研究被引量：1

Research on air combat decision algorithm based on proximal policy optimization

下载PDF

导出

摘要面对未来有/无人机协同作战场景,实时准确的空战决策是制胜的关键。复杂的空中环境、瞬变的态势数据以及多重繁琐的作战任务,使有/无人机协同作战将替代单机作战成为未来空战的发展趋势,但多智能体建模和训练过程却面临奖励分配困难、网络难收敛的问题。针对5v5有/无人机协同的空战场景,抽象出有人机和无人机智能体的特征模型,提出基于近端策略优化算法的空战智能决策算法,通过设置态势评估奖励引导空战过程中有/无人机智能体的决策行为向有利态势发展,实现在与环境的实时交互中,输出空战决策序列。通过仿真实验对所提空战决策算法进行验证,结果表明:本文提出的算法在经过训练学习后,能够适应复杂的战场态势,在连续动作空间中得到稳定合理的决策策略。 Facing the future combat scenario with manned and unmanned aerial vehicle cooperation,real-time and accurate air combat decision-making is the basis of winning.The complex air environment,transient situation data,and multiple cumbersome combat tasks make coordinated combat with unmanned aerial vehicles a trend in future air combat,replacing single machine combat.However,multi-agent modeling and training processes face difficulties in reward allocation and network convergence.Air combat scenarios for 5v5 manned and unmanned aerial vehicle cooperation,the characteristic model of single agent is abstracted in this paper,and an algorithm based on proximal policy optimization is proposed to obtain the air combat decision sequence by using reward and punishment incentive in the real-time interaction with the environment.The simulation results show that the algorithm proposed in this paper can adapt to the complex battlefield situation and get a stable and reasonable decision-making strategy in continuous action space after training and learning.

作者张博超温晓玲刘璐张雅茜王宏光 ZHANG Bochao;WEN Xiaoling;LIU Lu;ZHANG Yaqian;WANG Hongguang(Shenyang Aircraft Design and Research Institute,Aviation Industry Corporation of China,Ltd.,Shenyang 110035,China)

机构地区中国航空工业集团有限公司沈阳飞机设计研究所

出处《航空工程进展》 CSCD 2023年第2期145-151,共7页 Advances in Aeronautical Science and Engineering

关键词空战决策智能决策强化学习近端策略优化有/无人机协同 air combat decision intelligent decision reinforcement learning proximal policy optimization manned and unmanned aerial vehicle cooperation

分类号 V212.1 [航空宇航科学与技术—航空宇航推进理论与工程] E91 [军事]

引文网络
相关文献

参考文献7

1王锐平,高正红.无人机空战仿真中基于机动动作库的决策模型[J].飞行力学,2009,27(6):72-75. 被引量：16
2傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
3王宁宇,苏山,崔乃刚,单永志,徐胜利.基于微分对策的多飞行器协同最优分配方法[J].战术导弹技术,2021(6):130-138. 被引量：2
4况立群,李思远,冯利,韩燮,徐清宇.深度强化学习算法在智能军事决策中的应用[J].计算机工程与应用,2021,57(20):271-278. 被引量：6
5单圣哲,杨孟超,张伟伟,高传强.自主空战连续决策方法[J].航空工程进展,2022,13(5):47-58. 被引量：4
6左家亮,杨任农,张滢,李中林,邬蒙.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):212-225. 被引量：51
7吴宜珈,赖俊,陈希亮,曹雷,徐鹏.强化学习算法在超视距空战辅助决策上的应用研究[J].航空兵器,2021,28(2):55-61. 被引量：13

二级参考文献76

1董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：10
2傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
3秦艳琳,吴晓平,杨广.基于梯度迭代法的一类追逃对抗模型研究[J].海军工程大学学报,2005,17(4):108-112. 被引量：7
4梅丹,吴文海,徐家义.现代战机空战对策建模研究[J].飞机设计,2007,27(2):69-73. 被引量：3
5史晓丽,刘永才,王长青.飞航导弹反拦截最优机动策略研究[J].战术导弹技术,2007(3):7-11. 被引量：8
6Kai Virtanen, Tuomas Raivio, Raimo P Hamalainen. Decision Theoretical Approach to Pilot Simulation [ J ]. Journal of Aircraft, 1999, 36 (4) :632-641.
7Fred Austin, Giro Carbone, Michael Falco, et al. Automated Maneuvering Decisions for Air-to-Air Combat [ R ]. AIAA-87-2393,1987.
8Kai V,Janne K,Tuomas R. Modeling air combat by a moving horizon influence diagram game[J].Journal of Guidance,Control & Dynamics,2006,(05):1080-1091.doi:10.2514/1.17168.
9徐心和;石鸿雁.一个空战实例中的混合对策问题[A]无锡:《控制与决策》编辑委员会,2007913-916919.
10方振平.飞机飞行动力学[M]北京:北京航空航天大学出版社,200574.

共引文献95

1傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
2杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：19
3张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：18
4关永亮,侯玉秀,贾宏光,刘波,马伍元.无人机地面运动的动力学建模及仿真[J].兵工学报,2014,35(7):1021-1026. 被引量：4
5牛德智,陈长兴,耿道田,屈坤,王旭婧,陈强.基于数据链的飞机空中进攻作战协同距离部署[J].系统工程与电子技术,2014,36(10):2018-2023. 被引量：2
6魏永峰,贺兴.基于无人机平台的电子对抗试验系统应用研究[J].信息技术,2014,38(12):148-151.
7左家亮,杨任农,张滢,邬蒙,肖雨泽.基于模糊聚类的近距空战决策过程重构与评估[J].航空学报,2015,36(5):1650-1660. 被引量：16
8冯超,景小宁,李秋妮,姚鹏.基于隐马尔可夫模型的空战决策点理论研究[J].北京航空航天大学学报,2017,43(3):615-626. 被引量：12
9王宏,李建华.无人机集群作战指挥决策博弈分析[J].军事运筹与系统工程,2017,31(2):11-16. 被引量：7
10左家亮,杨任农,张滢,李中林,邬蒙.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):212-225. 被引量：51

同被引文献9

1钟麟,佟明安,钟卫,张圣云.基于多级影响图的空战连续机动决策[J].系统仿真学报,2007,19(2):410-411. 被引量：4
2肖冰松,方洋旺,胡诗国,王磊.一种新的超视距空战威胁评估方法[J].系统工程与电子技术,2009,31(9):2163-2166. 被引量：46
3张洪波,李国英,丁全心,孔繁峨.超视距空战下的态势评估技术研究[J].电光与控制,2010,17(4):9-13. 被引量：25
4吴文海,周思羽,高丽,刘锦涛.基于导弹攻击区的超视距空战态势评估改进[J].系统工程与电子技术,2011,33(12):2679-2685. 被引量：52
5丁林静,杨啟明.基于强化学习的无人机空战机动决策[J].航空电子技术,2018,49(2):29-35. 被引量：14
6姜龙亭,寇雅楠,王栋,张彬超,胡涛.改进近似动态规划法的攻击占位决策[J].火力与指挥控制,2019,44(7):135-141. 被引量：6
7张堃,李珂,时昊天,张振冲,刘泽坤.基于深度强化学习的UAV航路自主引导机动控制决策算法[J].系统工程与电子技术,2020,42(7):1567-1574. 被引量：12
8单圣哲,杨孟超,张伟伟,高传强.自主空战连续决策方法[J].航空工程进展,2022,13(5):47-58. 被引量：4
9邱妍,赵宝奇,邹杰,刘仲凯.基于PPO算法的无人机近距空战自主引导方法[J].电光与控制,2023,30(1):8-14. 被引量：1

引证文献1

1贺宝记,白林亭,文鹏程.基于态势评估及DDPG算法的一对一空战格斗控制方法[J].航空工程进展,2024,15(2):179-187.

1吴中伟,宋振之,洪学尧.电子对抗无人机在边境空中突防作战中的运用研究[J].战术导弹技术,2022(2):52-58. 被引量：1
2裴梓淇,吕超.孙子军事思想视角下的井陉之战探析[J].今古文创,2022(46):35-37.
3刘超.建筑工程管理中成本管理与控制的探讨[J].中文科技期刊数据库（文摘版）工程技术,2022(7):162-164.
4周攀,黄江涛,章胜,刘刚,舒博文,唐骥罡.基于深度强化学习的智能空战决策与仿真[J].航空学报,2023,44(4):94-107. 被引量：10
5赵光辉.不忘历史胸怀责任朝乾夕惕[J].中国农资,2023(6):2-2.
6李波,黄晶益,万开方,宋超.基于深度强化学习的无人机系统应用研究综述[J].战术导弹技术,2023(1):58-68. 被引量：1
7姜金萍.水环境中挥发性有机物的检测方法[J].化工管理,2023(12):27-29.
8张夕冉,侯兴明,王雪刚,胡晶晶.基于流程分析的装备保障态势评估体系构建[J].中国设备工程,2023(8):58-60.
9方伟,张婷婷,闫文君,王玉.基于多重聚类算法的分群化空战态势评估[J].中国电子科学研究院学报,2021,16(12):1276-1282. 被引量：1
10尹梓名,沈达聪,束翌俊,杨自逸,龚伟.基于跨模态特征融合的胆囊癌诊断模型研究[J].软件导刊,2023,22(3):103-111.

航空工程进展

2023年第2期

浏览历史

内容加载中请稍等...

基于近端策略优化的空战决策算法研究被引量：1

参考文献7

二级参考文献76

共引文献95

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于近端策略优化的空战决策算法研究 被引量：1

参考文献7

二级参考文献76

共引文献95

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于近端策略优化的空战决策算法研究被引量：1