基于课程强化学习的联合海空博弈决策模型训练方法

Training Method of Joint Sea-air Game Decision-Making Model Based on Curriculum Reinforcement Learning

下载PDF

导出

摘要针对多智能体深度强化学习在解决联合海空作战战术博弈决策模型难以训练优化问题,结合多智能体深度强化学习在智能化指挥决策问题中的应用性优势,以及课程学习在复杂问题研究中的改进优势,构建基于马尔可夫决策过程的联合海空战术决策过程模型,提出基于复杂度指数函数的任务复杂性度量方法,建立基于值分解网络算法的求解模型。针对一个典型联合海空作战战术决策场景,构建从易到难的课程学习任务和模型求解框架,设计针对任务的决策模型训练方法,在兵棋推演仿真系统上,对模型训练方法的可行性进行了验证。 Aiming at the problem that multi-agent deep reinforcement learning is difficult to train and optimize the tactical game decision-making model of joint air-sea combat,combined with the application advantages of multi-agent deep reinforcement learning in intelligent command decision-making problems and the improvement advantages of curriculum learning in complex problems,a tactical decision-making process model of air-sea joint based on Markov decision-making process is constructed,a task complexity measurement method based on complexity exponential function is proposed,and a solution model based on value decomposition network algorithm is established.Finally,aiming at a typical joint air-sea combat tactical decision-making scenario,a curriculum learning task and model solving framework from easy to difficult degree is constructed,and a training method of decision-making model for task is designed,the feasibility of the model training method is verified on the military game simulation system.

作者林泽阳赖俊陈希亮王军 LIN Zeyang;LAI Jun*;CHEN Xiliang;WANG Jun(College of Command and Control Engineering,Army Engineering University,Nanjing 210007,China)

机构地区陆军工程大学指挥控制工程学院

出处《火力与指挥控制》 CSCD 北大核心 2023年第3期25-34,42,共11页 Fire Control & Command Control

基金国家自然科学基金资助项目(61806221)。

关键词课程学习作战环境联合海空作战智能博弈深度强化学习 curriculum learning operational environment joint air-sea combat intelligent game deep reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1李志强,胡晓峰,司光亚,董忠林,张斌.基于人工势场的军事态势分析模型[J].火力与指挥控制,2007,32(4):5-8. 被引量：10
2滕鹏,刘栋,张斌,张同法,白明.超视距协同空战态势评估方法研究[J].电光与控制,2008,15(10):47-50. 被引量：17
3刘树才.技术变革与战争“迷雾”演化[J].国际展望,2018,0(4):80-97. 被引量：11
4李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：18
5聂凯,曾科军,孟庆海,魏超.人机对抗智能技术最新进展及军事应用[J].兵器装备工程学报,2021,42(6):6-11. 被引量：5
6陈希亮,张永亮.基于深度强化学习的陆军分队战术决策问题研究[J].军事运筹与系统工程,2017,31(3):20-27. 被引量：23
7赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：127
8崔文华,李东,唐宇波,柳少军.基于深度强化学习的兵棋推演决策方法框架[J].国防科技,2020,41(2):113-121. 被引量：11
9吴志强,张俊峰.基于深度强化学习的自动态势估计研究[J].军事运筹与系统工程,2018,32(2):42-46. 被引量：13
10张振,黄炎焱,张永亮,陈天德.基于近端策略优化的作战实体博弈对抗算法[J].南京理工大学学报,2021,45(1):77-83. 被引量：15

二级参考文献194

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：18
2石怀林,李守春.美空军远程空中打击力量再谋新发展[J].航空科学技术,2005,16(3):36-39. 被引量：1
3《联合作战火力毁伤研究》[J].国防大学学报,2005(8):104-104. 被引量：1
4高永,向锦武.一种新的超视距空战威胁估计非参量法模型[J].系统仿真学报,2006,18(9):2570-2572. 被引量：43
5朱宝鎏朱荣昌熊笑非.作战飞机效能评估[M].北京：航空工业出版社,1993..
6Edwards S J A.Swarming on the Battlefield:Past,Present,and Future[R].(2000),RAND Corporation,National Security Research Division,MR-1100-OSD,2000.
7Hillebrand E J.Many-Agent Simulation and Artificial Life[M].Stender (1994),editors,IOS Press,1994.
8Marine Corp Combat Development Command[Z].Operational Synthesis Applied to Mutual NZ/US Questions Part I,1998.
9Ilachinski A.Enhanced ISAAC Neural Simulation Toolkit (EINSTein),User's Guide,(1999),CNA,CIM 610.10,1999.
10Ilachinski A.EINSTein:An Artificial-Life Laboratory for Exploring Self-Organized Emergence in Land Combat[R].(2000),CNA Research Memorandum CRM D239,2000.

共引文献229

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：35
2舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
3程乔,王映华,李冉,刘文雯.重点业务感知监测分析机器人在网优智能化中应用的研究[J].广西通信技术,2019,0(3):48-54.
4赵鹏,常天庆,张波,张雷.装甲分队态势计算的人工势场模型[J].系统仿真学报,2009,21(S2):12-14. 被引量：2
5胡红波,龚传信,郭泳亨.场论在装备保障活动能量转移中的应用[J].兵工自动化,2008,27(11):10-12. 被引量：1
6罗旭.基于Agent的防空兵群火力分配模型[J].舰船电子工程,2009,29(4):47-48. 被引量：1
7古平,葛涛,籍宝林.基于保障场的装备保障力量适应配置模型[J].兵工自动化,2010,29(12):6-8. 被引量：2
8陈伟,陆廷金,荣鹏辉,李青,赵延庆.基于RFNN的复杂机动事件检测方法[J].电光与控制,2011,18(3):61-65.
9耿涛,张安,郝兴国.基于组合赋权TOPSIS法的空战多目标威胁评估[J].火力与指挥控制,2011,36(3):16-19. 被引量：18
10马伟江,姚佩阳,周翔翔,王冬旭.改进的超视距空战态势评估方法[J].计算机工程与设计,2011,32(6):2096-2099. 被引量：6

1刘鹏,赵建新,张宏映,高腾飞,闫涛.基于改进型MADDPG的多智能体对抗策略算法[J].火力与指挥控制,2023,48(3):132-138. 被引量：2
2罗浩,张巍.基于深度强化学习的电力网–信息网–路网耦合系统韧性分析[J].建模与仿真,2023,12(2):1460-1468.
3潘镇,崔雪,李健.CEO创始人身份、终极控股股东两权分离与企业国际化——基于控制权配置理论的研究[J].复印报刊资料（企业管理研究）,2022(6):5-22.

火力与指挥控制

2023年第3期

浏览历史

内容加载中请稍等...

基于课程强化学习的联合海空博弈决策模型训练方法

参考文献11

二级参考文献194

共引文献229

相关作者

相关机构

相关主题

浏览历史