基于多智能体深度强化学习的空战博弈对抗策略训练模型被引量：14

Game Confrontation Strategy Training Model for Air Combat Based onMulti⁃agent Deep Reinforcement Learning

下载PDF

导出

摘要鉴于多智能体深度强化学习在解决蜂群系统、能源分配和大型团队策略游戏等高维复杂动作空间以及多智能体决策问题中的良好表现,提出了一种基于多智能体深度强化学习的空战博弈对抗策略训练模型。在对多智能体深度强化学习基本概念和对空战策略生成的可行性分析的基础上,建立了基于多智能体马尔可夫决策过程空战配合策略的框架,从而生成最优对抗策略。实践表明,该模型可生成多种双机联合对抗策略,具有较高的研究价值和实际意义。 In view of the good performance of multi-agent deep reinforcement learning in solving the high-dimensional complex action space and multi-agent decision problems,such as the swarm systems,the energy distribution and the large team strategy games,a game confrontation strategy training model for air combat based on multi-agent deep reinforcement learning is proposed.Based on the analysis of the basic concept of multi-agent deep reinforcement learning and the feasibility of air combat strategy generation,the air combat coordination strategy framework of multi-agent Markov decision process is established to generate the optimal confrontation strategy.The practice shows that the model can generate a variety of dual-fighters joint confrontation strategies,thus has high research value and practical significance.

作者孙彧李清伟徐志雄陈希亮 SUN Yu;LI Qingwei;XU Zhixiong;CHEN Xiliang(Unit 31102 of PLA,Nanjing 210000,China;Command and Control Engineering College,Army Engineering University,Nanjing 210007,China;The 28th Research Institute of China Electronics Technology Group Corporation,Nanjing 210007,China;Army Academy of Border and Coastal Defence,Xi'an 710100,China)

机构地区解放军陆军工程大学指挥控制工程学院中国电子科技集团公司第二十八研究所陆军边海防学院

出处《指挥信息系统与技术》 2021年第2期16-20,共5页 Command Information System and Technology

基金国家自然科学基金(61806221) 国防科技创新特区163计划(1916311LZ00100301) 装备发展部“十三五”预研课题(31505550302) 国防科技重点实验室基金(6142101180304)资助项目。

关键词多智能体深度强化学习多智能体马尔可夫决策空战博弈对抗战术决策 multi-agent deep reinforcement learning multi-agent Markov decision air combat game confrontation tactical decision

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1赵星宇,丁世飞.深度强化学习研究综述[J].计算机科学,2018,45(7):1-6. 被引量：62
2姚传明,王庆元,杨叶林.多平台协同作战任务系统建模[J].指挥信息系统与技术,2017,8(3):43-48. 被引量：11
3宋艳波,何加浪,孙钧正,许腾.联合作战决心方案评估[J].指挥信息系统与技术,2016,7(4):49-54. 被引量：7
4马骋乾,谢伟,孙伟杰.强化学习研究综述[J].指挥控制与仿真,2018,40(6):68-72. 被引量：41

二级参考文献14

1凌征均.主战坦克“信息化”初探[J].车辆与动力技术,2004(3):59-62. 被引量：5
2肖凡,刘忠,黄金才.作战方案效能评估指标研究[J].军事运筹与系统工程,2006,20(2):41-45. 被引量：28
3夏庆军,张安,张耀中.战斗机编队协同作战效能评估研究[J].系统仿真学报,2010,22(9):2182-2184. 被引量：11
4戚学文,严建钢,潘长鹏,张磊.作战方案模糊优选模型研究[J].现代防御技术,2012,40(5):101-103. 被引量：6
5蔡俊伟,龙海英,张昕.有人机/无人机协同作战系统关键技术[J].指挥信息系统与技术,2013,4(2):10-14. 被引量：29
6耿松涛,刘雅奇.基于探索性分析的电子对抗作战方案评估方法[J].军事运筹与系统工程,2013,27(2):34-38. 被引量：10
7陈立敏,王振.舰艇作战方案效能的对抗仿真评估指标与方法[J].火力与指挥控制,2013,38(8):173-176. 被引量：5
8陈兴国,俞扬.强化学习及其在电脑围棋中的应用[J].自动化学报,2016,42(5):685-695. 被引量：32
9赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
10魏亮,黄韬,张娇,王泽南,刘江,刘韵洁.基于强化学习的服务链映射算法[J].通信学报,2018,39(1):90-100. 被引量：17

共引文献114

1王国胜,徐克虎.陆战多平台火力协同直瞄对抗态势分析[J].装甲兵学报,2022(2):103-107.
2李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
3唐小林,陈佳信,刘腾,李佳承,胡晓松.基于深度强化学习的混合动力汽车智能跟车控制与能量管理策略研究[J].机械工程学报,2021,57(22):237-246. 被引量：20
4蒋方庆,陈自力,高喜俊,王春峰,贺道坤.基于改进TD3算法的无人机决策研究[J].信息化研究,2023,49(3):36-42.
5崔立,宋玉,张进.基于自适应DDPG方法的复杂场景下AUV动动对接[J].船舶工程,2023,45(8):8-14.
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7王磊.图书订货会迈入成熟期[J].中国出版,2000(2):25-26.
8薛天.深度强化学习原理及其在机器人运动控制中的运用[J].通讯世界,2018,25(8):240-241. 被引量：3
9姚传明.任务式多平台协同控制系统架构[J].指挥信息系统与技术,2018,9(5):80-85. 被引量：5
10韩春亮,阚亚斌,荀杨.舰艇辅助决策软件试验与评估系统设计[J].舰船电子工程,2018,38(11):134-137. 被引量：1

同被引文献186

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
2LUCAS Simon,沈甜雨,王晓,张杰.基于统计前向规划算法的游戏通用人工智能[J].智能科学与技术学报,2019,0(3):219-227. 被引量：5
3王钦钊,多南讯,吕强,杨奇东.基于强化学习的多智能体合作博弈对抗算法[J].装甲兵学报,2022(5):80-85. 被引量：4
4吕晓东,邢焕来,宋富洪,王心汉.移动边缘计算网络中的资源分配与定价[J].计算机系统应用,2022,31(10):99-107. 被引量：2
5陈英武,豆亚杰,程贲,赵青松,姜江.基于作战活动分解的武器装备体系能力需求生成研究[J].系统工程理论与实践,2011,31(S1):154-163. 被引量：17
6栾丽华,吉根林.决策树分类技术研究[J].计算机工程,2004,30(9):94-96. 被引量：114
7杨镜宇,司光亚,胡晓峰.信息化战争体系对抗探索性仿真分析方法研究[J].系统仿真学报,2005,17(6):1469-1472. 被引量：44
8钟麟,佟明安,钟卫,张圣云.基于影响图的空战机动决策模型[J].系统仿真学报,2007,19(8):1796-1798. 被引量：7
9李建勋,佟明安,金德琨.协商微分对策理论及其在多机空战分析中的应用[J].系统工程理论与实践,1997,17(6):68-72. 被引量：14
10Zhong Lin,Tong Ming'an,Zhong Wei,Zhang Shengyun.Sequential maneuvering decisions based on multi-stage influence diagram in air combat[J].Journal of Systems Engineering and Electronics,2007,18(3):551-555. 被引量：7

引证文献14

1沈贤杰.基于群落学习的空中博弈对抗模型[J].智能计算机与应用,2022,12(2):174-177.
2孙宇祥,彭益辉,李斌,周佳炜,张鑫磊,周献中.智能博弈综述:游戏AI对作战推演的启示[J].智能科学与技术学报,2022,4(2):157-173. 被引量：11
3文超,董文瀚,解武杰,蔡鸣,胡多修.基于解耦型MADDPG的无人机集群自主跟踪与避障[J].飞行力学,2022,40(6):24-31. 被引量：1
4张栋,唐俊林,熊威,任智,杨书恒.基于MATD3的视距内协同空战机动决策[J].航空兵器,2023,30(3):20-28. 被引量：2
5赵芷若,曹雷,陈希亮,赖俊,章乐贵.基于多智能体博弈强化学习的无人机智能攻击策略生成模型[J].系统工程与电子技术,2023,45(10):3165-3171.
6林泽阳,赖俊,陈希亮,王军.基于课程强化学习的无人机反坦克策略训练模型[J].计算机科学,2023,50(10):214-222.
7安靖,司光亚,严江.基于深度强化学习的作战概念能力需求分析[J].指挥控制与仿真,2023,45(5):1-9. 被引量：1
8黄泓毓,梁永胜,付胜豪,吴靓浩,唐岚.基于多智能体强化学习的机场飞机滑行智能调度方法[J].指挥信息系统与技术,2023,14(5):30-36.
9张人文,赖俊,陈希亮,赵春宇,朱梓涵.Rule-N/MSP:智能体自我博弈训练方法[J].陆军工程大学学报,2023,2(6):39-46.
10乔天润,崔鹏,张亚.基于分层强化学习的空战集群控制策略[J].指挥信息系统与技术,2023,14(6):54-60.

二级引证文献17

1陈海鹏,郑本昌,黄虎.人工智能技术在未来装备应用的发展思考[J].宇航总体技术,2023,7(2):69-74. 被引量：10
2张人文,赖俊,陈希亮,赵春宇,朱梓涵.Rule-N/MSP:智能体自我博弈训练方法[J].陆军工程大学学报,2023,2(6):39-46.
3陈少飞,邹明我,苏小龙,罗俊仁,冯俊侨.面向对抗条件下资源分配的在线多阶段布洛托博弈求解方法[J].智能科学与技术学报,2023,5(4):464-476.
4安靖,司光亚,曾妙婷.模型与数据混合驱动的代理模型构建方法研究[J].系统仿真学报,2024,36(3):756-769.
5苏炯铭,罗俊仁,陈少飞,项凤涛.海空跨域协同兵棋AI架构设计及关键技术分析[J].指挥控制与仿真,2024,46(2):35-43. 被引量：1
6孙宇祥,李原百,周胜,赵俊杰,周献中.对抗环境下的智能兵棋系统设计及其关键技术[J].火力与指挥控制,2024,49(2):33-41. 被引量：1
7袁婷帅,冯宇,李永强.结合先验知识的多智能体博弈对抗研究[J].高技术通讯,2024,34(3):256-264.
8王兆杰,于雷,熊进辉,李怀瑜,韩云君,沈震,郭瑞,张勇.关于AI大模型技术赋能船舶领域的认识[J].智能科学与技术学报,2024,6(1):33-40.
9欧洋,郭正玉,罗德林,缪克华.基于图卷积深度强化学习的协同空战机动决策方法[J].工程科学学报,2024,46(7):1227-1236.
10安靖,刘伟,周杰.基于深度强化学习的作战概念能力需求分析关键技术[J].指挥控制与仿真,2024,46(3):18-24.

1田鹏.建筑工程电气安装与土建施工的技术配合刍议[J].居业,2021(2):80-81. 被引量：4
2李静.腹腔镜下胆囊切除术的手术室护理配合对策[J].中国医药指南,2021,19(7):130-131. 被引量：3
3葛亚维,侯西倩.基于对数模糊偏好规划的层次化对抗策略评估[J].系统工程与电子技术,2020,42(8):1794-1803.
4我想当个守护者——《展翅翱翔》(Wingspan:DigitalEdition)[J].课堂内外（科学少年）,2020(12).
5刘源,李玉玲,郝勇,周俊峰.航天器三维空间追逃问题研究[J].系统工程与电子技术,2018,40(4):868-877. 被引量：1
6崔玉珍.法庭自我识解与身份构建研究[J].当代修辞学,2021(2):71-84. 被引量：4
7好汉饶命.4X游戏的前世今生[J].游戏机实用技术,2021(2):220-223.
8邱许慧.“奇鸡连连”[J].动漫界（幼教365）,2021(15):57-57.
9徐敬.地铁停车场建设中设备安装与土建配合策略[J].智能城市,2020(23):167-168.
10陶伟.博弈学习系统在战斗机引导中的应用[J].中国舰船研究,2020,15(S01):166-172. 被引量：1

指挥信息系统与技术

2021年第2期

浏览历史

内容加载中请稍等...

基于多智能体深度强化学习的空战博弈对抗策略训练模型被引量：14

参考文献4

二级参考文献14

共引文献114

同被引文献186

引证文献14

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于多智能体深度强化学习的空战博弈对抗策略训练模型 被引量：14

参考文献4

二级参考文献14

共引文献114

同被引文献186

引证文献14

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于多智能体深度强化学习的空战博弈对抗策略训练模型被引量：14