基于深度强化学习的多机协同空战方法研究被引量：47

Research on Multi-aircraft Cooperative Air Combat Method Based on Deep Reinforcement Learning

下载PDF

导出

摘要多机协同是空中作战的关键环节,如何处理多实体间复杂的协作关系、实现多机协同空战的智能决策是亟待解决的问题.为此,提出基于深度强化学习的多机协同空战决策流程框架(Deep-reinforcement-learning-based multi-aircraft cooperative air combat decision framework,DRL-MACACDF),并针对近端策略优化(Proximal policy optimization,PPO)算法,设计4种算法增强机制,提高多机协同对抗场景下智能体间的协同程度.在兵棋推演平台上进行的仿真实验,验证了该方法的可行性和实用性,并对对抗过程数据进行了可解释性复盘分析,研讨了强化学习与传统兵棋推演结合的交叉研究方向. Multi-aircraft cooperation is the key part of air combat,and how to deal with the complex cooperation relationship between multi-entities is the essential problem to be solved urgently.In order to solve the problem of intelligent decision-making in multi-aircraft cooperative air combat,a deep-reinforcement-learning-based multiaircraft cooperative air combat decision framework(DRL-MACACDF)is proposed in this paper.Based on proximal policy optimization(PPO),four algorithm enhancement mechanisms are designed to improve the synergistic degree of agents in multi-aircraft cooperative confrontation scenarios.The feasibility and practicability of the method are verified by the simulation on the wargame platform,and the interpretable review analysis of the antagonistic process data is carried out,and the cross research direction of the combination of reinforcement learning and traditional wargame deduction is discussed.

作者施伟冯旸赫程光权黄红蓝黄金才刘忠贺威 SHI Wei;FENG Yang-He;CHENG Guang-Quan;HUANG Hong-Lan;HUANG Jin-Cai;LIU Zhong;HE Wei(College of Systems Engineering,National University of Defense Technology,Changsha 410073;Institute of Artificial Intelligence,University of Science and Technology Beijing,Beijing 100083;School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083)

机构地区国防科技大学系统工程学院北京科技大学人工智能研究院北京科技大学自动化学院

出处《自动化学报》 EI CAS CSCD 北大核心 2021年第7期1610-1623,共14页 Acta Automatica Sinica

基金国家自然科学基金(71701205,62073333)资助。

关键词多机协同空战智能决策深度强化学习 PPO算法增强机制 Multi-aircraft cooperative air combat intelligent decision deep reinforcement learning proximal policy optimization(PPO)algorithm enhancement mechanism

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] E824 [军事—战役学]

引文网络
相关文献

参考文献16

1李卿莹.协同空战技术发展概况及作战模式[J].科技与创新,2020,0(7):124-126. 被引量：2
2Tian YAN,Yuanli CAI,Bin XU.Evasion guidance algorithms for air-breathing hypersonic vehicles in three-player pursuit-evasion games[J].Chinese Journal of Aeronautics,2020,33(12):3423-3436. 被引量：4
3邵将,徐扬,罗德林.无人机多机协同对抗决策研究[J].信息与控制,2018,47(3):347-354. 被引量：12
4冯超,景小宁,李秋妮,姚鹏.基于隐马尔可夫模型的空战决策点理论研究[J].北京航空航天大学学报,2017,43(3):615-626. 被引量：12
5何旭,景小宁,冯超.基于蒙特卡洛树搜索方法的空战机动决策[J].空军工程大学学报（自然科学版）,2017,18(5):36-41. 被引量：10
6徐光达,吕超,王光辉,谢宇鹏.基于双矩阵对策的UCAV空战自主机动决策研究[J].舰船电子工程,2017,37(11):24-28. 被引量：11
7欧建军,张安.不确定环境下协同空战目标分配模型[J].火力与指挥控制,2020,45(5):115-118. 被引量：4
8奚之飞,徐安,寇英信,李战武,杨爱武.多机协同空战机动决策流程[J].系统工程与电子技术,2020,42(2):381-389. 被引量：10
9韩统,崔明朗,张伟,陈国明,王骁飞.多无人机协同空战机动决策[J].兵器装备工程学报,2020,41(4):117-123. 被引量：13
10嵇慧明,余敏建,乔新航,杨海燕,张帅文.改进BAS-TIMS算法在空战机动决策中的应用[J].国防科技大学学报,2020,42(4):123-133. 被引量：8

二级参考文献123

1Wei DONG,Qiuqiu WEN,Qunli XIA,Shengjiang YANG.Multiple-constraint cooperative guidance based on two-stage sequential convex programming[J].Chinese Journal of Aeronautics,2020,33(1):296-307. 被引量：9
2乔良,王航宇.舰空导弹协同制导流程研究[J].舰船电子工程,2008,28(4):54-56. 被引量：17
3郭宝录,李朝荣,乐洪宇.国外无人机技术的发展动向与分析[J].舰船电子工程,2008,28(9):46-49. 被引量：20
4梅丹,吴文海,徐家义.影响图的空战机动决策方法[J].火力与指挥控制,2008,33(S1):46-49. 被引量：6
5傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
6王三民,王宝树.贝叶斯网络在战术态势评估中的应用[J].系统工程与电子技术,2004,26(11):1620-1623. 被引量：21
7蓝伟华,喻蓉.多机编队协同空战的概念及关键技术[J].电光与控制,2005,12(6):12-15. 被引量：23
8杨俊,谢寿生.基于模糊支持向量机的飞机飞行动作识别[J].航空学报,2005,26(6):738-742. 被引量：25
9罗德林,沈春林,吴文海,吴顺祥.空战格斗决策研究[J].应用科学学报,2006,24(1):89-93. 被引量：13
10任强,盛跃宾,穆森.网络中心战初探[J].计算机工程与设计,2006,27(3):433-436. 被引量：8

共引文献147

1马金毅,王灿,薛涛,艾剑良,董一群.空战格斗飞行机动数据库建立及应用[J].航空学报,2023,44(S01):39-47.
2董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：9
3李凡,汪晨光.一种确定模糊智能综合评判权向量的新方法[J].西安邮电学院学报,2001,6(3):26-29.
4杜海文,崔明朗,韩统,魏政磊,唐传林,田野.基于多目标优化与强化学习的空战机动决策[J].北京航空航天大学学报,2018,44(11):2247-2256. 被引量：19
5张强,杨任农,俞利新,张涛,左家亮.基于Q-network强化学习的超视距空战机动决策[J].空军工程大学学报（自然科学版）,2018,19(6):8-14. 被引量：18
6高阳阳,余敏建,韩其松,董肖杰.基于改进共生生物搜索算法的空战机动决策[J].北京航空航天大学学报,2019,45(3):429-436. 被引量：10
7邵将,徐扬,罗德林.无人机多机协同对抗决策研究[J].信息与控制,2018,47(3):347-354. 被引量：12
8张东俊,张磊,黎潇.作战能量传递函数构建方法及应用研究[J].兵工学报,2018,39(7):1450-1456. 被引量：1
9王光源,毛世超,孙涛,杨士锋.基于贝叶斯网络的预警机导航系统综合效能评估[J].指挥控制与仿真,2018,40(4):74-77. 被引量：5
10程浩,王世贵,傅勉.贝叶斯网络与多源信息融合集成的评估方法研究[J].赤峰学院学报（自然科学版）,2018,34(9):64-66. 被引量：2

同被引文献489

1王彤,李磊,蒋琪.“进攻性蜂群使能战术”项目推进无人蜂群能力发展分析[J].战术导弹技术,2020(1):33-38. 被引量：18
2刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：35
3吕宜生,王飞跃,张宇,张晓东.虚实互动的平行城市:基本框架、方法与应用[J].智能科学与技术学报,2019,1(3):311-317. 被引量：14
4LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,0(3):219-227. 被引量：4
5侯家琛,董西松,熊刚,张俊,谭珂.平行核电:迈向智慧核电的智能技术[J].智能科学与技术学报,2019,0(2):192-201. 被引量：10
6白天翔,沈震,刘雅婷,董西松.平行机器:一种智能机器的管理与控制框架[J].智能科学与技术学报,2019,0(2):181-191. 被引量：4
7康孟珍,王秀娟,华净,王浩宇,王飞跃.平行农业:迈向智慧农业的智能技术[J].智能科学与技术学报,2019,0(2):107-117. 被引量：27
8吕宜生,陈圆圆,金峻臣,李镇江,叶佩军,朱凤华.平行交通:虚实互动的智能交通管理与控制[J].智能科学与技术学报,2019,1(1):21-33. 被引量：25
9熊少锋,魏明英,赵明元,熊华,王卫红,周本春.逆轨拦截机动目标的三维最优制导律[J].宇航学报,2020,41(1):80-90. 被引量：16
10周宏宇,王小刚,赵亚丽,崔乃刚.组合动力运载器上升段轨迹智能优化方法[J].宇航学报,2020,41(1):61-70. 被引量：8

引证文献47

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2殷宇维,王凡,吴奎,胡剑秋.基于改进DDPG的空战行为决策方法[J].指挥控制与仿真,2022,44(1):97-102. 被引量：4
3郭洪宇,初阳,刘志,周玉芳.基于深度强化学习潜艇攻防对抗训练指挥决策研究[J].指挥控制与仿真,2022,44(1):103-111. 被引量：1
4王哲超,傅启明,陈建平,胡伏原,陆悠,吴宏杰.小样本场景下的强化学习研究综述[J].南京师范大学学报（工程技术版）,2022,22(1):86-92.
5齐一萌,金龙.从集中式到分布式的赢者通吃网络:回顾与展望[J].无线电通信技术,2022,48(2):203-212.
6邱潇颀,高长生,荆武兴.拦截大气层内机动目标的深度强化学习制导律[J].宇航学报,2022,43(5):685-695. 被引量：7
7刘健,顾扬,程玉虎,王雪松.基于多智能体强化学习的乳腺癌致病基因预测[J].自动化学报,2022,48(5):1246-1258. 被引量：5
8孙宇祥,彭益辉,李斌,周佳炜,张鑫磊,周献中.智能博弈综述:游戏AI对作战推演的启示[J].智能科学与技术学报,2022,4(2):157-173. 被引量：6
9宋佰霖,许华,齐子森,饶宁,彭翔.一种基于深度强化学习的协同通信干扰决策算法[J].电子学报,2022,50(6):1301-1309. 被引量：3
10单圣哲,杨孟超,张伟伟,高传强.自主空战连续决策方法[J].航空工程进展,2022,13(5):47-58. 被引量：4

二级引证文献71

1满坚平,黄国立,赖聪,陈子怡,周毅.智能体在医疗健康领域的研究与应用[J].医学信息学杂志,2022,43(4):20-26. 被引量：2
2李波,白双霞,孟波波,梁诗阳,李曾琳.基于SAC算法的无人机自主空战决策算法[J].指挥控制与仿真,2022,44(5):24-30. 被引量：3
3江雨龙,胡文峰,彭涛,阳春华.基于重置控制的一般线性多智能体系统无领导者一致性问题[J].厦门大学学报（自然科学版）,2022,61(6):954-960.
4王琪,廖志忠.在线自适应动态规划计算智能博弈导引律[J].航天控制,2022,40(6):39-45.
5吴健发,魏春岭,张海博.航天器反应式碎片规避动作规划方法[J].宇航学报,2023,44(2):221-232. 被引量：4
6陈海鹏,郑本昌,黄虎.人工智能技术在未来装备应用的发展思考[J].宇航总体技术,2023,7(2):69-74. 被引量：8
7程玉虎,黄龙阳,侯棣元,张佳志,陈俊龙,王雪松.广义行为正则化离线Actor-Critic[J].计算机学报,2023,46(4):843-855.
8张博超,温晓玲,刘璐,张雅茜,王宏光.基于近端策略优化的空战决策算法研究[J].航空工程进展,2023,14(2):145-151. 被引量：1
9李卓远,张德平.基于BN-DDPG轻量级强化学习算法的智能兵棋推演[J].计算机系统应用,2023,32(4):293-299. 被引量：1
10王壮,艾毅,文旭光,李辉.航空器智能引导机动决策奖励重塑方法[J].科学技术与工程,2023,23(8):3535-3543. 被引量：1

1Yang Lin,Ying-Ming Wang.Decision framework of group consensus with hesitant fuzzy linguistic preference relations[J].CAAI Transactions on Intelligence Technology,2020,5(3):157-164. 被引量：1
2秦超.水稻秸秆纤维增强混凝土在水利工程中的应用研究[J].合成纤维,2021,50(7):45-49. 被引量：4
3蒋阳梅,胡力方,程梦婷.青年亚文化的长尾效应及网络舆情复盘研究[J].传播力研究,2020,4(35):125-128.
4韩凯璐.艺术设计流程与真实项目的融合路径思考[J].西部皮革,2021,43(14):59-60. 被引量：1
5吴晨光,李蓓.纳米填料增强硝酸盐复合材料传储热性能的研究进展[J].复合材料学报,2021,38(7):2001-2009. 被引量：1
6吕跃,杨爱武,李战武,奚之飞.空战决策知识构建方法研究[J].系统工程与电子技术,2021,43(7):1866-1874. 被引量：1
7陶凤,王晨婷,刘瀚琳,刘瀚琳(摄影).危中窥机后疫情时代的创业开放题[J].数据,2020(9):36-37.
8张辉,闫强明,李宁静.“一带一路”基础设施建设与经济增长[J].China Economist,2021,16(3):26-61. 被引量：5
9非凡.中国对大吨位弹射型航母的需求(上)[J].坦克装甲车辆,2021(14):18-25.
10Guo-Liang Li,Dong Deng,Ju Fan.Preface[J].Journal of Computer Science & Technology,2021,36(4):719-720.

自动化学报

2021年第7期

浏览历史

内容加载中请稍等...

基于深度强化学习的多机协同空战方法研究被引量：47

参考文献16

二级参考文献123

共引文献147

同被引文献489

引证文献47

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的多机协同空战方法研究 被引量：47

参考文献16

二级参考文献123

共引文献147

同被引文献489

引证文献47

二级引证文献71

相关作者

相关机构

相关主题

浏览历史

基于深度强化学习的多机协同空战方法研究被引量：47