基于多智能体强化学习的无人机集群对抗方法研究被引量：2

Research on UAV Swarm Confrontation Method Based on Multi-agent Reinforcement Learning

导出

摘要针对复杂动态不确定环境下的无人机集群对抗问题,基于多智能体强化学习开展了对抗决策方法的研究。首先,基于MaCA环境构建了无人机集群对抗模型;其次,引入集中训练网络的混合架构模式,改进了传统DDPG算法,设计了面向无人机集群对抗的MADDPG算法,分别采用基于规则的对抗策略和基于DQN的对抗策略对算法进行了训练,提升了对抗算法的鲁棒性、适应性和泛化性;最后,通过搭建对抗仿真环境,验证了所设计方法的有效性和可靠性。 Aiming at the problem of UAV swarm confrontation in complex dynamic and uncertain environment,research on confrontation decision-making method based on multi-agent reinforcement learning is carried out.Firstly,the UAV swarm confrontation model is constructed based on the MaCA environment;secondly,the hybrid architecture mode of centralized training network is introduced,the traditional DDPG algorithm is improved,and the MADDPG algorithm for UAV swarm confrontation is designed,and the rule-based confrontation strategy is adopted respectively.The algorithm is trained with the DQN-based adversarial strategy,which improves the robustness,adaptability and generalization of the adversarial algorithm.Finally,the effectiveness and reliability of the designed method are verified by building an adversarial simulation environment.

作者杨书恒张栋任智唐硕 YANG Shuheng;ZHANG Dong;REN Zhi;TANG Shuo(School of Aerospace,Northwest Polytechnic University,Xi'an 710072,China;Shaanxi Key Laboratory of Aerospace Vehicle Design,Northwest Polytechnic University,Xi'an 710072,China)

机构地区西北工业大学航天学院西北工业大学空天飞行器设计陕西省重点实验室

出处《无人系统技术》 2022年第5期51-62,共12页 Unmanned Systems Technology

基金国家自然科学基金(61903301)。

关键词无人机集群对抗多智能体强化学习 MACA DQN算法 MADDPG算法 UAV Swarm Confrontation Multi-agent Reinforcement Learning MaCA DQN Algorithm MADDPG Algorithm

分类号 V249 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献6

1范晋祥,陈晶华.未来空战新概念及其实现挑战[J].航空兵器,2020,27(2):15-24. 被引量：29
2轩书哲,柯良军.基于多智能体强化学习的无人机集群攻防对抗策略研究[J].无线电工程,2021,51(5):360-366. 被引量：12
3赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717. 被引量：131
4王瑞星,董诗音,江飞龙,黄胜全.稀疏奖励下基于强化学习的异构多智能体对抗[J].信息技术,2021,45(5):12-20. 被引量：2
5文永明,石晓荣,黄雪梅,余跃.一种无人机集群对抗多耦合任务智能决策方法[J].宇航学报,2021,42(4):504-512. 被引量：15
6张宏达,李德才,何玉庆.人工智能与“星际争霸”:多智能体博弈研究新进展[J].无人系统技术,2019,2(1):5-16. 被引量：17

二级参考文献139

1李茹杨,彭慧民,李仁刚,赵坤.强化学习算法与应用综述[J].计算机系统应用,2020,29(12):13-25. 被引量：45
2MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-levelcontrol through deep reinforcement learning [J]. Nature, 2015,518(7540): 529 – 533.
3SILVER D, HUANG A, MADDISON C, et al. Mastering the gameof Go with deep neural networks and tree search [J]. Nature, 2016,529(7587): 484 – 489.
4AREL I. Deep reinforcement learning as foundation for artificialgeneral intelligence [M] //Theoretical Foundations of Artificial GeneralIntelligence. Amsterdam: Atlantis Press, 2012: 89 – 102.
5TEAAURO G. TD-Gammon, a self-teaching backgammon program,achieves master-level play [J]. Neural Computation, 1994,6(2): 215 – 219.
6SUTTON R S, BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge MA: MIT Press, 1998.
7KEARNS M, SINGH S. Near-optimal reinforcement learning inpolynomial time [J]. Machine Learning, 2002, 49(2/3): 209 – 232.
8KOCSIS L, SZEPESVARI C. Bandit based Monte-Carlo planning[C] //Proceedings of the European Conference on MachineLearning. Berlin: Springer, 2006: 282 – 293.
9LITTMAN M L. Reinforcement learning improves behaviour fromevaluative feedback [J]. Nature, 2015, 521(7553): 445 – 451.
10BELLMAN R. Dynamic programming and Lagrange multipliers[J]. Proceedings of the National Academy of Sciences, 1956,42(10): 767 – 769.

共引文献199

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：45
2舒忠.基于深度学习的图像样本标签赋值校正算法实现[J].数字印刷,2019(4):38-45. 被引量：2
3季海波.思政背景下运筹学课程改革初探[J].科教导刊,2022(16):98-100. 被引量：3
4陆宇,朱启满,周东海,李威.全域战概念对美军军事力量建设的影响及我军应对策略——基于《美国防部2022财年防务预算》分析[J].军事交通学报,2023(4):78-82.
5王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
6蒋贵虎,刘仲,王亚卓.基于眼动的战机座舱人机交互方法[J].飞机设计,2022,42(3):11-14. 被引量：3
7程乐峰,余涛,张孝顺,殷林飞.机器学习在能源与电力系统领域的应用和展望[J].电力系统自动化,2019,43(1):15-31. 被引量：119
8张董,游福成,王惠华,姜超,李明.受限制Boltzmann机深度置信网络与手写数字识别[J].北京印刷学院学报,2016,24(4):56-58. 被引量：4
9侯宇青阳,全吉成,王宏伟.深度学习发展综述[J].舰船电子工程,2017,37(4):5-9. 被引量：39
10王奇,秦进.基于动作空间划分的MAXQ自动分层方法[J].计算机应用,2017,37(5):1357-1362.

同被引文献11

1朱华勇,牛轶峰,沈林成,张国忠.无人机系统自主控制技术研究现状与发展趋势[J].国防科技大学学报,2010,32(3):115-120. 被引量：89
2焦李成,杨淑媛,刘芳,王士刚,冯志玺.神经网络七十年:回顾与展望[J].计算机学报,2016,39(8):1697-1716. 被引量：369
3赵欣怡,宗群,张睿隆,田栢苓,张秀云,冯聪.类脑智能技术在无人系统上的应用[J].控制理论与应用,2019,36(1):1-12. 被引量：20
4Xibin DONG,Zhiwen YU,Wenming CAO,Yifan SHI,Qianli MA.A survey on ensemble learning[J].Frontiers of Computer Science,2020,14(2):241-258. 被引量：46
5孙旸,曹春杰,赖俊晓,于天娇.基于LSTM-KF模型的无人机抗GPS欺骗方法[J].网络与信息安全学报,2020,6(5):80-88. 被引量：3
6宫经刚,宁宇,吕楠.美国高轨天基态势感知技术发展与启示[J].空间控制技术与应用,2021,47(1):1-7. 被引量：21
7张婷婷,蓝羽石,宋爱国.无人集群系统自主协同技术综述[J].指挥与控制学报,2021,7(2):127-136. 被引量：31
8王兆轩,李扬,吕洋,郝智栋,杨黎斌,刘慧霞,冯兆文,潘泉.无人机系统信息安全前沿技术发展趋势[J].软件导刊,2021,20(10):7-12. 被引量：7
9吴鹏,孙备,苏绍璟,李思达,左震.面向无人艇的航海雷达与光电吊舱协同环境感知方法[J].仪器仪表学报,2021,42(8):154-163. 被引量：13
10程进,胡寒栋,江业帆,张一博,丁季时雨.基于强化学习的通信受限环境多无人机协同策略[J].无人系统技术,2022,5(5):12-20. 被引量：3

引证文献2

1吴仕豪,潘泉,李扬,吕洋.无人机“数据链路”信息安全综述[J].无人系统技术,2023,6(2):1-12. 被引量：3
2张艳宁,王鹏,张磊,闫庆森.面向无人移动平台的自主进化学习研究进展与展望[J].科学通报,2023,68(35):4821-4843. 被引量：1

二级引证文献4

1李国涛,姬少培,刘彦鸿,查成超.无人机系统安全防护研究[J].中国宽带,2023,19(7):141-143.
2王贤明,杨超群,邵晋梁,龚成龙,张恒.基于智能反射面辅助的无人机主动监听优化方法[J].无人系统技术,2024,7(1):106-114. 被引量：1
3蒲慕明.跨学科开启头脑风暴促进脑科学交叉与融合[J].科学通报,2023,68(35):4749-4750. 被引量：1
4马莉,林宝玉.无人机数据隐私和安全保障策略探究[J].现代工程科技,2024,3(7):25-28.

1李敬伟,赵开新,梁娟.一种无线网络空间深度覆盖规划方法[J].河南工学院学报,2022,30(4):21-26.
2常江,杨惠涵.基于数字平台的信息失范与治理:全球趋势与中国经验[J].中国出版,2022(12):3-10. 被引量：12
3李营辉.被算法裹挟的“裸奔人”:新就业形态下网约工群体劳动权益调查[J].中国青年研究,2022(7):12-19. 被引量：23
4齐嘉豪,张宇,万鹏程,李远哲,刘星月,姚爱欢,钟平.红外遥感图像目标识别对抗算法研究[J].航空兵器,2022,29(3):47-53. 被引量：1
5汪华强,杨春霞,张捷.厄瓜多尔MINAS电站监控系统的设计特点[J].水电站机电技术,2021,44(10):70-73.
6朱秀杰.基于SuperMap的建筑物外业普查系统设计与实现[J].测绘,2022,45(2):89-92.
7张靖宇.力动态框架下的扬州评话《武松》研究——以“康文辩罪”为例[J].江苏科技大学学报（社会科学版）,2022,22(3):35-40.
8毕凯,李大喜,杨坤龙,曹永新.基于多元兰彻斯特方程的电火一体作战模型[J].空军工程大学学报,2022,23(5):96-100. 被引量：3

无人系统技术

2022年第5期

浏览历史

内容加载中请稍等...

基于多智能体强化学习的无人机集群对抗方法研究被引量：2

参考文献6

二级参考文献139

共引文献199

同被引文献11

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的无人机集群对抗方法研究 被引量：2

参考文献6

二级参考文献139

共引文献199

同被引文献11

引证文献2

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于多智能体强化学习的无人机集群对抗方法研究被引量：2