基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策被引量：7

Research on UAV Anti-Pursing Maneuvering Decision Based on Improved Twin Delayed Deep Deterministic Policy Gradient Method

下载PDF

导出

摘要针对近距空战下的自主机动反追击问题,建立了无人机反追击马尔科夫(Markov)决策过程模型;在此基础上,提出了一种采用深度强化学习的无人机反追击自主机动决策方法。新方法基于经验回放区重构,改进了双延迟深度确定性策略梯度(TD3)算法,通过拟合策略函数与状态动作值函数,生成最优策略网络。仿真实验表明,在随机初始位置/姿态条件下,与采用纯追踪法的无人机对抗,该方法训练的智能无人机胜率超过93%;与传统的TD3、深度确定性策略梯度(DDPG)算法相比,该方法收敛性更快、稳定性更高。 In view of the problem of autonomous maneuvering counter-pursuing in close air combat,a Markov decision-making process model for UAV counter-pursuing is established,and for the above-mentioned reasons,an autonomous maneuvering decision-making method for unmanned aerial vehicles(UAVs)based on deep reinforcement learning is proposed.The new method is based on the empirical replay area reconstruction,and improves the Twin Delayed Deep Deterministic policy gradient(TD3)algorithm,and generates the optimal strategy network by fitting the strategy function and the state action value function.The simulation experiments show that under condition of random initial position/attitude,being confronted with the drones adopted by the pure pursuit methods,the winning rate of intelligent drones trained by this method exceeds 93%.Compared with traditional TD3 and Deep Deterministic policy gradient(DDPG),this method is faster at convergence and higher in stability.

作者郭万春解武杰尹晖董文瀚 GUO Wanchun;XIE Wujie;YIN Hui;DONG Wenhan(Aeronautical Engineering College,Air Force Engineering University,Xi’an 710038,China;Teaching&Reseerch Support Center,Air Force Engcieeng Univerity)

机构地区空军工程大学航空工程学院空军工程大学教研保障中心

出处《空军工程大学学报（自然科学版）》 CSCD 北大核心 2021年第4期15-21,共7页 Journal of Air Force Engineering University(Natural Science Edition)

关键词深度强化学习近距空战无人机双延迟深度确定性策略梯度法 deep reinforcement learning close air combat UAV twin delayed deep deterministic policy gradient method

分类号 V279 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献5

1黄长强,赵克新,韩邦杰,魏政磊.一种近似动态规划的无人机机动决策方法[J].电子与信息学报,2018,40(10):2447-2452. 被引量：32
2HUANG Changqiang,DONG Kangsheng,HUANG Hanqiao,TANG Shangqin,ZHANG Zhuoran.Autonomous air combat maneuver decision using Bayesian inference and moving horizon optimization[J].Journal of Systems Engineering and Electronics,2018,29(1):86-97. 被引量：60
3国海峰,侯满义,张庆杰,唐传林.基于统计学原理的无人作战飞机鲁棒机动决策[J].兵工学报,2017,38(1):160-167. 被引量：24
4唐振韬,邵坤,赵冬斌,朱圆恒.深度强化学习进展:从AlphaGo到AlphaGo Zero[J].控制理论与应用,2017,34(12):1529-1546. 被引量：92
5张堃,李珂,时昊天,张振冲,刘泽坤.基于深度强化学习的UAV航路自主引导机动控制决策算法[J].系统工程与电子技术,2020,42(7):1567-1574. 被引量：13

二级参考文献28

1傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
2Zhong Lin,Tong Ming'an,Zhong Wei,Zhang Shengyun.Sequential maneuvering decisions based on multi-stage influence diagram in air combat[J].Journal of Systems Engineering and Electronics,2007,18(3):551-555. 被引量：7
3钟友武,柳嘉润,杨凌宇,申功璋.自主近距空战中机动动作库及其综合控制系统[J].航空学报,2008,29(B05):114-121. 被引量：24
4万伟,姜长生,吴庆宪.单步预测影响图法在空战机动决策中的应用[J].电光与控制,2009,16(7):13-16. 被引量：11
5张煜,王楠,陈璟,沈林成.空地多目标攻击中制导炸弹可投放区计算研究[J].兵工学报,2011,32(12):1474-1480. 被引量：18
6周思羽,吴文海,张楠,张靖.自主空战机动决策方法综述[J].航空计算技术,2012,42(1):27-31. 被引量：27
7张涛,于雷,周中良,李飞.基于变权重伪并行遗传算法的空战机动决策[J].飞行力学,2012,30(5):470-474. 被引量：24
8付昭旺,李战武,强晓明,徐安.基于滚动时域控制的战斗机空战机动决策[J].电光与控制,2013,20(3):20-24. 被引量：14
9周思羽,吴文海,孔繁峨,张楠.基于随机决策准则的改进多级影响图机动决策方法[J].北京理工大学学报,2013,33(3):296-301. 被引量：14
10张涛,于雷,周中良,王琳.基于混合算法的空战机动决策[J].系统工程与电子技术,2013,35(7):1445-1450. 被引量：29

共引文献198

1姚红革,王诚,喻钧,白小军,李蔚.复杂卫星图像中的小目标船舶识别[J].遥感学报,2020,24(2):116-125. 被引量：16
2卢喜丰,王新军,白晓明,何风,吕勇波,李柄锦.基于BP神经网络和遗传算法的核级管道力学性能优化研究[J].科技视界,2023(16):138-144.
3高佳明,张丽,蒋梅.个税改革下资源型省份家庭金融资产投资决策研究[J].金融发展评论,2024(3):80-95.
4高志强,张荣荣.面向战术边缘的联合智能体系设计[J].火箭军工程大学学报,2021(3):19-23.
5庄宝玲,陈文列.偶发分枝杆菌的超微结构初步观察[J].福建医药杂志,2000,22(1):181-182. 被引量：2
6杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：21
7程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：120
8高阳阳,余敏建,韩其松,董肖杰.基于改进共生生物搜索算法的空战机动决策[J].北京航空航天大学学报,2019,45(3):429-436. 被引量：12
9王杰,丁达理,许明,韩博,雷磊.基于目标逃逸机动预估的空空导弹可发射区[J].北京航空航天大学学报,2019,45(4):722-734. 被引量：7
10化春键,熊雪梅,陈莹.基于形状上下文的工件边缘轮廓点匹配[J].光电子．激光,2018,29(6):634-638. 被引量：5

同被引文献152

1贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：93
2梅丹,吴文海,徐家义.影响图的空战机动决策方法[J].火力与指挥控制,2008,33(S1):46-49. 被引量：6
3傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
4刘建庸,刘克.MARKOV DECISION PROGRAMMING WITH CONSTRAINTS[J].Acta Mathematicae Applicatae Sinica,1994,10(1):1-11. 被引量：1
5钟麟,佟明安,钟卫,张圣云.基于影响图的空战机动决策模型[J].系统仿真学报,2007,19(8):1796-1798. 被引量：7
6Zhong Lin,Tong Ming'an,Zhong Wei,Zhang Shengyun.Sequential maneuvering decisions based on multi-stage influence diagram in air combat[J].Journal of Systems Engineering and Electronics,2007,18(3):551-555. 被引量：7
7钟友武,柳嘉润,杨凌宇,申功璋.自主近距空战中机动动作库及其综合控制系统[J].航空学报,2008,29(B05):114-121. 被引量：24
8张翔伦,杨蔷薇.基于机动动作库的实时轨迹生成与仿真研究[J].飞行力学,2008,26(3):29-32. 被引量：9
9李兆强,周德云.无人机数据链变结构对抗攻击导引方式研究[J].系统仿真学报,2008,20(13):3507-3509. 被引量：4
10钟友武,杨凌宇,柳嘉润,申功璋.基于智能微分对策的自主机动决策方法研究[J].飞行力学,2008,26(6):29-33. 被引量：4

引证文献7

1丁维,王渊,丁达理,谢磊,周欢,谭目来,吕丞辉.基于LSTM-PPO算法的无人作战飞机近距空战机动决策[J].空军工程大学学报（自然科学版）,2022,23(3):19-25. 被引量：4
2文东日.深度强化学习在军事领域的应用研究[J].军事运筹与评估,2022,37(3):75-80. 被引量：3
3李波,白双霞,孟波波,梁诗阳,李曾琳.基于SAC算法的无人机自主空战决策算法[J].指挥控制与仿真,2022,44(5):24-30. 被引量：7
4李波,黄晶益,万开方,宋超.基于深度强化学习的无人机系统应用研究综述[J].战术导弹技术,2023(1):58-68. 被引量：1
5符小卫,徐哲,朱金冬,王楠.基于PER-MATD3的多无人机攻防对抗机动决策[J].航空学报,2023,44(7):191-204. 被引量：7
6马小梦,高梅国,于默涵,李云杰.智能对抗无人机的干扰组合序列生成算法研究[J].西安电子科技大学学报,2023,50(6):44-61. 被引量：1
7陈浩,黄健,刘权,周思航,张中杰.自主空战机动决策技术研究进展与展望[J].控制理论与应用,2023,40(12):2104-2129. 被引量：2

二级引证文献24

1张生琨,任素萍,杨星雨,郭林,马洪波.基于数字孪生的无人机状态监测方法[J].航空计算技术,2023,53(2):75-79. 被引量：4
2章胜,周攀,何扬,黄江涛,刘刚,唐骥罡,贾怀智,杜昕.基于深度强化学习的空战机动决策试验[J].航空学报,2023,44(10):117-130. 被引量：7
3郑鹤鸣,翟光,孙一勇.面向在轨加注的组合体姿态SAC智能控制[J].宇航学报,2023,44(7):1020-1033. 被引量：2
4徐天宇,徐江华.无人机自动机库造型设计研究综述[J].艺术科技,2023,36(18):177-179.
5叶巨翼,谈何易,吴俊,崔恒.人工智能技术在电子对抗作战中的应用路径[J].科技导报,2023,41(17):78-83.
6刘高高,黄东杰,席昕,李昊,曹旭源.一种特征融合的工作模式识别方法[J].西安电子科技大学学报,2023,50(6):13-20. 被引量：2
7石封茶,白江波,卢迪.外军有/无人编组技术分析[J].指挥控制与仿真,2024,46(1):30-36.
8高甲博,肖玮.无人机集群编队自主协同控制方法综述[J].舰船电子工程,2024,44(1):20-26.
9梅礼坤,陈智利,李栋琪.基于改进YOLOv5轻量化坦克目标检测算法[J].激光杂志,2024,45(3):59-67. 被引量：3
10方自力.基于能量机动性的飞机性能评估方法研究[J].飞行力学,2024,42(2):62-67.

1华新.追及问题四种题型的常用解法[J].试题与研究,2020(6):20-20.
2张鹏,黄长强,魏政磊,周欢,王永乾.基于L-Kshape-HACA的空战态势分割聚类[J].空军工程大学学报（自然科学版）,2021,22(3):15-22. 被引量：1
3周思羽,王庆超,王子健,高丽,高艳丽.基于Dodgson集结算法的多机协同空战机动决策方法[J].飞机设计,2021,41(3):5-8. 被引量：3
4赵星宇,胡俊杰.集群电动汽车充电行为的深度强化学习优化方法[J].电网技术,2021,45(6):2319-2327. 被引量：20
5贾昊男,陈若卉,滕百军,张曦宇,曹译尹,赵洁,Omar Yacouba Ismael,焦明丽.行为经济学视角下农村居民自我医疗药品购买决策过程探析[J].中国卫生经济,2021,40(7):21-23. 被引量：3
6杨霄,李晓婷,赵彦东,张亚星.基于DRL与微分对策的无人机空战决策研究[J].火力与指挥控制,2021,46(5):71-75. 被引量：7
7李广田,老舍,吕铮.佳作[J].人民公安,2021(16):60-61.
8张晚晴,余文斌,李静琳,陈万春.基于纵程解析解的飞行器智能横程机动再入协同制导[J].兵工学报,2021,42(7):1400-1411. 被引量：15
9何林坤,张冉,龚庆海.基于强化学习的可回收运载火箭着陆制导[J].空天防御,2021,4(3):33-40. 被引量：2
10曾芳洲,万泉君,邹晓瑞(图).守护一江清水记者随警探访长江水域治理的“九江模式”[J].人民公安,2021(17):13-15.

空军工程大学学报（自然科学版）

2021年第4期

浏览历史

内容加载中请稍等...

基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策被引量：7

参考文献5

二级参考文献28

共引文献198

同被引文献152

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策 被引量：7

参考文献5

二级参考文献28

共引文献198

同被引文献152

引证文献7

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于改进双延迟深度确定性策略梯度法的无人机反追击机动决策被引量：7