基于强化学习与种群博弈的近距空战决策被引量：1

Decision-making in close-range air combat based on reinforcement learning and population game

导出

摘要随着人工智能与无人机(UAV)技术的发展,近距空战智能决策得到了世界各国的广泛关注。针对传统强化学习在解决近距空战智能决策问题时存在过拟合与策略循环等问题,提出了一种基于种群博弈的空战智能决策模型训练范式。通过构建由多个无人机智能体组成的种群,并为每个智能体赋予不同奖励权重系数,实现了无人机智能体多样化的风险偏好。种群中不同风险偏好的智能体模型相互进行对抗训练,能够有效避免过拟合和策略循环问题。在训练过程中,每个无人机智能体根据与不同对手策略的对抗结果自适应地优化奖励权重系数。在数值仿真实验中,种群博弈训练中的智能体5与智能体3分别以88%和85%的胜率击败了专家系统对抗训练和自博弈训练得到的智能决策模型,算法性能得到有效验证。此外,通过进一步实验表明了种群博弈训练范式中权重系数动态调整的必要性,并在异构机型上验证了所提训练范式的通用性。 With the development of artificial intelligence and Unmanned Aerial Vehicle(UAv)technologies,intelligent decision-making in close-range air combat has attracted extensive attention from all over the world.To solve the problems of overfitting and strategy cycles in using traditional reinforcement learning for intelligent decision-making in closerange air combat,a training paradigm of air combat decision model is proposed based on population game.By constructing a population composed of multiple UAv agents and assigning different reward weight coefficients to each agent,the diversified risk preference of UAV agents is realized.The problem of overftting and strategy cycle can be avoided effectively by training agents of different risk preferences to fight against each other.During the training process,each UAV agent in the population adaptively optimizes the reward weight coefficient according to the results of the confrontation with different opponent strategies.In the numerical simulation experiment,Agent 5 and Agent 3 in population game training beat the inteligent decision model obtained by expert system adversarial training and self-play training with 88%and 85%success rate,respectively,which verifies the effectiveness of the algorithm.In addition,further experiments demonstrate the necessity of dynamic adjustment of weight coefficients in the training paradigm of population game,and verify the generality of the proposed training paradigm on heterogeneous models.

作者王宝来高显忠谢涛侯中喜 WANG Baolai;GAO Xianzhong;XIE Tao;HOU Zhongxi(College of Computer Science and Technology,National University of Defense Technology,Changsha410073,China;College of Aerospace Science and Engineering,National University of Defense Technology,Changsha 410073,China)

机构地区国防科技大学计算机学院国防科技大学空天科学学院

出处《航空学报》 EI CAS CSCD 北大核心 2024年第12期169-184,共16页 Acta Aeronautica et Astronautica Sinica

基金国家自然科学基金(61903369,11602298) 湖南省自然科学基金(2018JJ3587)。

关键词近距空战智能决策强化学习种群博弈 SAC算法 close-range air combat intelligent decision-making reinforcement learning population game SACalgorithm

分类号 V249.12 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献11

1周文卿,朱纪洪,匡敏驰.一种基于群体智能的无人空战系统[J].中国科学：信息科学,2020,50(3):363-374. 被引量：19
2傅莉,谢福怀,孟光磊,王东政.基于滚动时域的无人机空战决策专家系统[J].北京航空航天大学学报,2015,41(11):1994-1999. 被引量：40
3樊会涛,闫俊.空战体系的演变及发展趋势[J].航空学报,2022,43(10):288-297. 被引量：17
4孙智孝,杨晟琦,朴海音,白成超,葛俊.未来智能空战发展综述[J].航空学报,2021,42(8):28-42. 被引量：46
5孙聪.从空战制胜机理演变看未来战斗机发展趋势[J].航空学报,2021,42(8):1-13. 被引量：24
6邱妍,赵宝奇,邹杰,刘仲凯.基于PPO算法的无人机近距空战自主引导方法[J].电光与控制,2023,30(1):8-14. 被引量：4
7李波,白双霞,孟波波,梁诗阳,李曾琳.基于SAC算法的无人机自主空战决策算法[J].指挥控制与仿真,2022,44(5):24-30. 被引量：7
8付宇鹏,邓向阳,朱子强,张立民.基于价值滤波的空战机动决策优化方法[J].航空学报,2023,44(22):14-27. 被引量：1
9章胜,周攀,何扬,黄江涛,刘刚,唐骥罡,贾怀智,杜昕.基于深度强化学习的空战机动决策试验[J].航空学报,2023,44(10):117-130. 被引量：7
10周攀,黄江涛,章胜,刘刚,舒博文,唐骥罡.基于深度强化学习的智能空战决策与仿真[J].航空学报,2023,44(4):94-107. 被引量：15

二级参考文献85

1李宪港,李强.典型智能博弈系统技术分析及指控系统智能化发展展望[J].智能科学与技术学报,2020,2(1):36-42. 被引量：21
2李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
3董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：12
4梅丹,吴文海,徐家义.影响图的空战机动决策方法[J].火力与指挥控制,2008,33(S1):46-49. 被引量：6
5傅莉,王晓光.无人战机近距空战微分对策建模研究[J].兵工学报,2012,33(10):1210-1216. 被引量：20
6张曙光,高浩.X-31A飞机的设计特点和试飞情况[J].飞行力学,1996,14(3):9-13. 被引量：3
7钟麟,佟明安,钟卫,张圣云.基于影响图的空战机动决策模型[J].系统仿真学报,2007,19(8):1796-1798. 被引量：7
8Galati D G.Game theoretic target assignment strategies in com- petitive multi-team systems[D].Pittsburgh:University of Pitts- burgh,2004.
9Imado F,Kuroda T.A method to solve missile-aircraft pursuit- evasion differential games[C]// Proceedings of the 16th IFAC World Congress.Laxenburg:IFAC,2005,16:176-181.
10Virtanen K,Raivio T.Modeling pilot's sequential maneuvering decisions by a multistage influence diagram[J].Journal of Guid- ance,Control,and Dynamics,2004,27(4):665-677.

共引文献142

1付宇鹏,闫文君,凌青,朱子强.人工智能学科人才培养中人机信任关系的重要性[J].科教导刊,2023(6):78-80.
2谢育星,陆屹,管聪,纪德东.协同空战与多智能体强化学习下的关键问题[J].飞机设计,2023,43(1):6-10.
3李明敏,李世秋,范真真,王小辰,蔡斐.独立作者约稿助力中文科技期刊高质量发展[J].编辑学报,2023,35(2):210-213. 被引量：8
4孟光磊,罗元强,梁宵,徐一民.基于动态贝叶斯网络的空战决策方法[J].指挥控制与仿真,2017,39(3):49-54. 被引量：17
5宋海方,肖明清,陈游,胡阳光.基于MDP的战机对抗导弹措施优化方法[J].北京航空航天大学学报,2017,43(5):942-950. 被引量：1
6左家亮,杨任农,张滢,李中林,邬蒙.基于启发式强化学习的空战机动智能决策[J].航空学报,2017,38(10):212-225. 被引量：52
7韩瑾,王骁飞,周虎,孙楚,李聪.基于改进SOS算法的UCAV鲁棒机动决策研究[J].计算机工程与应用,2018,54(2):168-172. 被引量：3
8黄长强,赵克新,韩邦杰,魏政磊.一种近似动态规划的无人机机动决策方法[J].电子与信息学报,2018,40(10):2447-2452. 被引量：32
9潘耀宗,张健,杨海涛,袁春慧,赵洪利.战机自主作战机动双网络智能决策方法[J].哈尔滨工业大学学报,2019,51(11):144-151. 被引量：5
10张堃,李珂,时昊天,张振冲,刘泽坤.基于深度强化学习的UAV航路自主引导机动控制决策算法[J].系统工程与电子技术,2020,42(7):1567-1574. 被引量：13

同被引文献30

1牛轶峰,沈林成,李杰,王祥科.无人–有人机协同控制关键问题[J].中国科学：信息科学,2019,49(5):538-554. 被引量：46
2毕鹏程,罗健欣,陈卫卫.轻量化卷积神经网络技术研究[J].计算机工程与应用,2019,55(16):25-35. 被引量：36
3王雅琳,杨依然,王彤,葛悦涛.2019年无人系统领域发展综述[J].无人系统技术,2019,2(6):53-57. 被引量：21
4黄江涛,刘刚,高正红,周铸,陈作斌,江雄.飞行器多学科耦合伴随体系的现状与发展趋势[J].航空学报,2020,41(5):1-24. 被引量：10
5韩忠华,许晨舟,乔建领,柳斐,池江波,孟冠宇,张科施,宋文萍.基于代理模型的高效全局气动优化设计方法研究进展[J].航空学报,2020,41(5):25-65. 被引量：70
6周铸,余永刚,刘刚,陈作斌,何开锋.飞翼布局组合舵面航向控制特性综合研究[J].航空学报,2020,41(6):164-178. 被引量：7
7张冬晓,陈亚洲,程二威,许彤.一种无人机数据链电磁干扰自适应新方法[J].北京理工大学学报,2020,40(8):880-887. 被引量：11
8张红,程传祺,徐志刚,李建华.基于深度学习的数据融合方法研究综述[J].计算机工程与应用,2020,56(24):1-11. 被引量：36
9王金龙,徐煜华,陈瑾.无线通信网络智能频谱协同与对抗[J].中国科学：信息科学,2020,50(11):1767-1778. 被引量：13
10贾高伟,王建峰.无人机集群任务规划方法研究综述[J].系统工程与电子技术,2021,43(1):99-111. 被引量：73

引证文献1

1詹韧,贾高伟,郭正,王玲.协同作战无人机关键能力特征与技术分析[J].无人系统技术,2024,7(5):1-12.

1杨晓虎,彭嘉辉.善战者致人[J].中国空军,2023(6):79-79.
2王捷,刘俊辉,陈昊,赵琦,刘维.一种基于扰动补偿的机弹协同LOS主动防御制导律[J].现代防御技术,2024,52(2):94-103.
3郑志强,段海滨.基于有限忍耐度鸽群优化的无人机近距空战机动决策[J].计算机应用,2024,44(5):1401-1407.
4畅鑫,李艳斌,刘东辉.基于分层强化学习的多智能体博弈策略生成方法[J].无线电工程,2024,54(6):1361-1367.
5杨博,高松,张禹,刘宵婵,张歆.投影机代理商的渠道营销研究[J].中文科技期刊数据库（全文版）经济管理,2024(4):0074-0077.
6刘元涛.事业单位经济管理和财政经济良性循环[J].中国科技期刊数据库科研,2016(9):111-112.
7如何选择冠脉支架和冠脉搭桥?[J].透析与人工器官,2023,34(4):130-130.
8彭璐璐,张淑芬,陈海田,徐超.基于改进CFSFDP算法的聚类联邦学习[J].华北理工大学学报（自然科学版）,2024,46(3):112-121.
9邓有朋,范佳宣,郑岩,王振亚,吕勇梁,李雨霄.不完全信息下多智能体对手建模[J].航空学报,2023,44(S02):443-452.
10庄述鑫,陈永红,郝一行,吴巍炜,徐学永,王万元.对抗环境中基于种群多样性的鲁棒策略生成方法[J].计算机工程与科学,2024,46(6):1081-1091.

航空学报

2024年第12期

浏览历史

内容加载中请稍等...

基于强化学习与种群博弈的近距空战决策被引量：1

参考文献11

二级参考文献85

共引文献142

同被引文献30

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习与种群博弈的近距空战决策 被引量：1

参考文献11

二级参考文献85

共引文献142

同被引文献30

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习与种群博弈的近距空战决策被引量：1