基于LSTM-PPO算法的无人作战飞机近距空战机动决策被引量：2

Maneuvering Decision of UCAV in Close Air Combat Based on LSTM-PPO Algorithm

下载PDF

导出

摘要近距空战中环境复杂、格斗态势高速变化,基于对策理论的方法因数据迭代量大而不能满足实时性要求,基于数据驱动的方法存在训练时间长、执行效率低的问题。对此,提出了一种基于深度强化学习算法的UCAV近距空战机动决策方法。首先,在UCAV三自由度模型的基础上构建飞行驱动模块,形成状态转移更新机制;然后在近端策略优化算法的基础上加入Ornstein-Uhlenbeck随机噪声以提高UCAV对未知状态空间的探索能力,结合长短时记忆网络(LSTM)增强对序列样本数据的学习能力,提升算法的训练效率和效果。最后通过设计3组近距空战仿真实验,并与PPO算法作性能对比,验证所提方法的有效性和优越性。 With the increasing military application of unmanned combat aircraft(UCAV),unmanned combat will become the main combat mode in the future air battlefield.In close-range air combat,the environment is complex and the combat situation changes rapidly.The method based on game theory cannot meet the real-time requirements due to the large amount of data iteration,and the data-driven method has the problems of long training time and low execution efficiency.To solve this problem,a UCAV maneuver decision method based on deep reinforcement learning algorithm is proposed in this paper.Firstly,the flight drive module is constructed on the basis of UCAV three-degree-of-freedom model to form the state transition updating mechanism.Then,on the basis of PPO algorithm,ornstein-uhlenbeck(OU)random noise was added to improve UCAV's ability to explore unknown state space,and LSTM was combined to enhance UCAV's ability to learn sequence sample data,so as to improve the training efficiency and effect of the algorithm.Finally,the effectiveness and superiority of the proposed method are verified by designing three groups of close-range air combat simulation experiments and comparing the performance with PPO algorithm.

作者丁维王渊丁达理谢磊周欢谭目来吕丞辉 DING Wei;WANG Yuan;DING Dali;XIE Lei;ZHOU Huan;TAN Mulai;LYU Chenghui(Aviation Engineering School,Air Force Engineering University,Xi’an 710038,China)

机构地区空军工程大学航空工程学院

出处《空军工程大学学报（自然科学版）》 CSCD 北大核心 2022年第3期19-25,共7页 Journal of Air Force Engineering University(Natural Science Edition)

基金陕西省自然科学基金(2020JQ-481)。

关键词无人作战飞机空战机动决策深度强化学习近谝策略伏化长短时记忆网络 unmanned combat aerial vehicles air combat maneuver decision deep reinforcement learning proximal policy optimization short and long duration memory network

分类号 V271.4 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献10

1周新民,吴佳晖,贾圣德,王文林.无人机空战决策技术研究进展[J].国防科技,2021,42(3):33-41. 被引量：10
2周思羽,王庆超,王子健,高丽,高艳丽.基于Copeland集结算法的协同空战机动决策方法[J].航空计算技术,2020,50(6):43-46. 被引量：3
3傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
4邓可,彭宣淇,周德云.基于矩阵对策与遗传算法的无人机空战决策[J].火力与指挥控制,2019,44(12):61-66. 被引量：23
5梅丹,吴文海,徐家义.影响图的空战机动决策方法[J].火力与指挥控制,2008,33(S1):46-49. 被引量：6
6郭万春,解武杰,尹晖,董文瀚.基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策[J].空军工程大学学报（自然科学版）,2021,22(4):15-21. 被引量：7
7赖俊,饶瑞.深度强化学习在室内无人机目标搜索中的应用[J].计算机工程与应用,2020,56(17):156-160. 被引量：9
8王杰,丁达理,许明,韩博,雷磊.基于目标逃逸机动预估的空空导弹可发射区[J].北京航空航天大学学报,2019,45(4):722-734. 被引量：7
9傅莉,谢福怀,孟光磊,王东政.基于滚动时域的无人机空战决策专家系统[J].北京航空航天大学学报,2015,41(11):1994-1999. 被引量：39
10高阳阳,余敏建,韩其松,董肖杰.基于改进共生生物搜索算法的空战机动决策[J].北京航空航天大学学报,2019,45(3):429-436. 被引量：11

二级参考文献86

1梅丹,吴文海,徐家义.影响图的空战机动决策方法[J].火力与指挥控制,2008,33(S1):46-49. 被引量：6
2黄家成,张迎春,罗继勋.空空导弹攻击区的快速模拟法求解[J].弹箭与制导学报,2003,23(S5):132-134. 被引量：14
3王刚,雷英杰,何晶.空战决策指挥引导专家系统[J].空军工程大学学报（自然科学版）,2002,3(1):11-13. 被引量：15
4秦艳琳,吴晓平,杨广.基于梯度迭代法的一类追逃对抗模型研究[J].海军工程大学学报,2005,17(4):108-112. 被引量：7
5詹原瑞,何娟.树与影响图[J].系统工程理论与实践,1997,17(4):1-8. 被引量：8
6梅丹,吴文海,徐家义.现代战机空战对策建模研究[J].飞机设计,2007,27(2):69-73. 被引量：3
7Kai V,Janne K,Tuomas R. Modeling air combat by a moving horizon influence diagram game[J].Journal of Guidance,Control & Dynamics,2006,(05):1080-1091.doi:10.2514/1.17168.
8徐心和;石鸿雁.一个空战实例中的混合对策问题[A]无锡:《控制与决策》编辑委员会,2007913-916919.
9方振平.飞机飞行动力学[M]北京:北京航空航天大学出版社,200574.
10Lachner R,Breitner M H,Pesch H J. Three-dimensional air combat:numerical solution of complex differential games[A].1994.1-25.

共引文献96

1吴文海,张楠,周思羽,孔繁峨,叶希贵.基于航炮的近距空战仿真结束判定方法[J].飞行力学,2012,30(6):569-573. 被引量：1
2关永亮,侯玉秀,贾宏光,刘波,马伍元.无人机地面运动的动力学建模及仿真[J].兵工学报,2014,35(7):1021-1026. 被引量：4
3牛德智,陈长兴,耿道田,屈坤,王旭婧,陈强.基于数据链的飞机空中进攻作战协同距离部署[J].系统工程与电子技术,2014,36(10):2018-2023. 被引量：2
4魏永峰,贺兴.基于无人机平台的电子对抗试验系统应用研究[J].信息技术,2014,38(12):148-151.
5左家亮,杨任农,张滢,邬蒙,肖雨泽.基于模糊聚类的近距空战决策过程重构与评估[J].航空学报,2015,36(5):1650-1660. 被引量：16
6梅丹,刘锦涛,高丽.基于近似动态规划与零和博弈的空战机动决策[J].兵工自动化,2017,36(3):35-39. 被引量：3
7冯超,景小宁,李秋妮,姚鹏.基于隐马尔可夫模型的空战决策点理论研究[J].北京航空航天大学学报,2017,43(3):615-626. 被引量：12
8孟光磊,罗元强,梁宵,徐一民.基于动态贝叶斯网络的空战决策方法[J].指挥控制与仿真,2017,39(3):49-54. 被引量：17
9宋海方,肖明清,陈游,胡阳光.基于MDP的战机对抗导弹措施优化方法[J].北京航空航天大学学报,2017,43(5):942-950. 被引量：1
10王宏,李建华.无人机集群作战指挥决策博弈分析[J].军事运筹与系统工程,2017,31(2):11-16. 被引量：7

同被引文献14

1林海.能量法及其试飞方法研究[J].飞行力学,1993,11(4):63-68. 被引量：2
2周志强,赵国锋.飞机能量机动性及其计算[J].飞行力学,1995,13(1):33-37. 被引量：2
3徐勇凌.收敛转弯试飞方法评述[J].飞行力学,1996,14(4):73-77. 被引量：1
4杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：19
5蒙泽海.大气运动对飞机盘旋性能试飞的影响[J].飞行力学,2018,36(2):70-73. 被引量：1
6黄志清,曲志伟,张吉,张严心,田锐.基于深度强化学习的端到端无人驾驶决策[J].电子学报,2020,48(9):1711-1719. 被引量：19
7马文,李辉,王壮,黄志勇,吴昭欣,陈希亮.基于深度随机博弈的近距空战机动决策[J].系统工程与电子技术,2021,43(2):443-451. 被引量：21
8王庭晗,罗禹贡,刘金鑫,李克强.基于考虑状态分布的深度确定性策略梯度算法的端到端自动驾驶策略[J].清华大学学报（自然科学版）,2021,61(9):881-888. 被引量：5
9李永丰,史静平,章卫国,蒋维.深度强化学习的无人作战飞机空战机动决策[J].哈尔滨工业大学学报,2021,53(12):33-41. 被引量：10
10魏永合,刘光昕,尹际雄.基于VMD-LSTM的滚动轴承退化状态识别[J].沈阳理工大学学报,2022,41(1):1-6. 被引量：3

引证文献2

1方自力.基于能量机动性的飞机性能评估方法研究[J].飞行力学,2024,42(2):62-67.
2宋建辉,崔永阔.基于近端策略优化算法的端到端车道保持算法研究[J].通信与信息技术,2024(3):92-97.

1孙丰础,甘旭升.无人机双机空战对抗侧向机动路径规划[J].现代防御技术,2022,50(3):109-118. 被引量：1
2张慧.工业移动机器人多机调度系统性能指标定义及性能优化[J].电子技术与软件工程,2022(10):59-62. 被引量：3
3毕锟,范英,候峙朴,陈佳峻.基于Carsim和Simulink联合仿真的汽车操纵稳定性评价[J].河北工程大学学报（自然科学版）,2022,39(2):106-112. 被引量：7
4周忠彬,张博,赵永刚,张萌昭,郭双锋,袁宝慧.钛合金半穿甲战斗部高速侵彻钢靶性能对比实验研究[J].兵器装备工程学报,2022,43(6):55-60. 被引量：1
5雷伟,张蒙蒙,王红星,杨斐,李秉擘,罗一鸣.DNP与DNAN基熔铸炸药的性能对比[J].火炸药学报,2022,45(3):370-376. 被引量：2
6Wei-hua Li,Jing-ping Shi,Yun-yan Wu,Yue-ping Wang,Yong-xi Lyu.A Multi-UCAV cooperative occupation method based on weapon engagement zones for beyond-visual-range air combat[J].Defence Technology（防务技术）,2022,18(6):1006-1022. 被引量：3

空军工程大学学报（自然科学版）

2022年第3期

浏览历史

内容加载中请稍等...

基于LSTM-PPO算法的无人作战飞机近距空战机动决策被引量：2

参考文献10

二级参考文献86

共引文献96

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于LSTM-PPO算法的无人作战飞机近距空战机动决策 被引量：2

参考文献10

二级参考文献86

共引文献96

同被引文献14

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于LSTM-PPO算法的无人作战飞机近距空战机动决策被引量：2