基于DDPG算法的无人机集群追击任务被引量：29

Pursuit missions for UAV swarms based on DDPG algorithm

导出

摘要无人机的集群化应用技术是近年来的研究热点,随着无人机自主智能的不断提高,无人机集群技术必将成为未来无人机发展的主要趋势之一。针对无人机集群协同执行对敌方来袭目标的追击任务,构建了典型的任务场景,基于深度确定性策略梯度网络(DDPG)算法,设计了一种引导型回报函数有效解决了深度强化学习在长周期任务下的稀疏回报问题,通过引入基于滑动平均值的软更新策略减少了DDPG算法中Eval网络和Target网络在训练过程中的参数震荡,提高了算法的训练效率。仿真结果表明,训练完成后的无人机集群能够较好地执行对敌方来袭目标的追击任务,任务成功率达到95%。可以说无人机集群技术作为一种全新概念的作战模式在军事领域具有潜在的应用价值,人工智能算法在无人机集群的自主决策智能化发展方向上具有一定的应用前景。 The Unmanned Aerial Vehicle(UAV)swarm technology is one of the research hotspots in recent years.With continuous advancement in autonomous intelligence of UAVs,the UAV swarm technology is bound to become one of the main trends of UAV development in the future.In view of the collaborative pursuit missions of UAV swarms against the enemy,we establish a typical task scenario,and,based on the Deep Deterministic Policy Gradient(DDPG)algorithm,design a guided reward function which effectively solves the sparse rewards problem of deep intensive learning during long-period missions.We introduce a sliding average based soft updating strategy to reduce parameter oscillations in the Eval network and the target network during the training process,thereby improving the training efficiency.The simulation results show that after training,the UAV swarm can successfully carry out the pursuit missions with a success rate of 95%.The UAV swarm technology as a brand new combat mode has a potential application value for application in the military field,and this artificial intelligence algorithm has a certain application prospect in the development of autonomous decision-making by UAV swarms.

作者张耀中许佳林姚康佳刘洁凌 ZHANG Yaozhong;Xu Jialin;YAO Kangjia;LIU Jieling(School of Electronics and Information,Northwestern Polytechnical Lniversity,Xi'an 710072,China;Xi'an North Electro-optic Science&Technology Co.Ltd.Xi'an 710043,China)

机构地区西北工业大学电子信息学院西安北方光电科技防务有限公司

出处《航空学报》 EI CAS CSCD 北大核心 2020年第10期309-321,共13页 Acta Aeronautica et Astronautica Sinica

基金航空科学基金(2017ZC53033)。

关键词 DDPG算法无人机集群任务决策深度强化学习稀疏回报 DDPG algorithm UAV swarms task decision deep reinforcement learning sparse rewards

分类号 V279 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献4

1罗德林,徐扬,张金鹏.无人机集群对抗技术新进展[J].科技导报,2017,35(7):26-31. 被引量：40
2刘建伟,高峰,罗雄麟.基于值函数和策略梯度的深度强化学习综述[J].计算机学报,2019,42(6):1406-1438. 被引量：129
3苏治宝,陆际联,童亮.一种多移动机器人协作围捕策略[J].北京理工大学学报,2004,24(5):403-406. 被引量：23
4李高垒,马耀飞.基于深度网络的空战态势特征提取[J].系统仿真学报,2017,29(S1):98-105. 被引量：12

二级参考文献23

1Yamaguchi H. A cooperative hunting behavior by mobile-robot troops[J]. International Journal of Robotics Research, 1999, 18(9): 931-940.
2Denzinger J, Funchs M. Experiments in learning prototypical situations for variants of the pursuit game[A]. Victor L. Proceedings of the 2nd International Conference on Multi-Agent Systems[C]. Kyoto: MIT Press, 1996. 48-55.
3Osawa E. A metalevel coordination strategy for reactive cooperative planning[A]. Victor L. Proceeding of the First International Conference on Multi-Agent Systems[C]. Menlo Park, California: MIT Press, 1995. 297-303.
4Caroline C, Craig B. The dynamics of reinforcement learning in cooperative multiagent systems[A]. Proceeding of the Fifteenth National Conference on Artificial Intelligence[C]. Madison: AAAI/MIT Press, 1998. 746-752.
5Maja J M. Reinforcement learning in the multi-robot domain[J]. Autonomous Robots, 1997, 4: 73-83.
6Danil V, Donald C. Adaptive critic designs[J]. IEEE Transactions on Neural Networks, 1997, 8(5): 997-1007.
7Hu Junling, Wellman M P. Online learning about other agents in a dynamic multiagent system[Z]. The Second International Conference on Autonomous Agents, Minneapolis, MN, 1998.
8Carreras M, Batlle J, Ridao P. Hybrid coordination of reinforcement learning-based behaviors for AUV control[Z]. IEEE/RSJ IROS, Hawaii, 2001.
9陈军,高晓光.机群协同空战中的指控系统建模与分析[J].计算机工程与应用,2009,45(10):195-198. 被引量：8
10刘金星.空战指挥控制的自主决策思维属性[J].电光与控制,2010,17(6):1-4. 被引量：6

共引文献199

1刘朝阳,穆朝絮,孙长银.深度强化学习算法与应用研究现状综述[J].智能科学与技术学报,2020(4):314-326. 被引量：43
2张磊,母亚双,潘泉.基于改进深度双Q网络的移动机器人路径规划算法[J].信息与控制,2024,53(3):365-376.
3平洋,刘文斌,缪正元,葛品,黄琮凯,庄正浩.智能无人艇研究现状及关键问题发展趋势[J].船舶工程,2023,45(2):61-69. 被引量：4
4马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
5闫冬,陈盛,彭国政,谈元鹏,张玉天,吴凯.基于层次深度强化学习的带电作业机械臂控制技术[J].高电压技术,2020,46(2):459-471. 被引量：17
6赵金,彭刚.基于NEAT方法的多机器人追捕-逃跑问题[J].华中科技大学学报（自然科学版）,2011,39(S2):332-334. 被引量：2
7周浦城,洪炳镕,王月海.动态环境下多机器人合作追捕研究[J].机器人,2005,27(4):289-295. 被引量：16
8李淑琴,王欢,李伟,杨静宇.基于动态角色的多移动目标围捕问题算法研究[J].系统仿真学报,2006,18(2):362-365. 被引量：12
9付勇,汪浩杰.一种多机器人围捕策略[J].华中科技大学学报（自然科学版）,2008,36(2):26-29. 被引量：11
10李珺,潘启树,洪炳镕.一种多机器人协作追捕-逃跑问题策略研究[J].小型微型计算机系统,2009,30(6):1180-1183.

同被引文献303

1王彤,李磊,蒋琪.“进攻性蜂群使能战术”项目推进无人蜂群能力发展分析[J].战术导弹技术,2020(1):33-38. 被引量：20
2范之琳,杨洪勇,韩艺琳.基于强化学习的多智能体系统目标围捕控制[J].航空学报,2023,44(S01):236-245. 被引量：4
3董一群,艾剑良.自主空战技术中的机动决策:进展与展望[J].航空学报,2020(S02):4-12. 被引量：12
4周思全,董希旺,李清东,任章.无人机-无人车异构时变编队控制与扰动抑制[J].航空学报,2020(S01):128-139. 被引量：13
5贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：90
6张哲,吴剑,何诚,穆忠伟.复杂环境下多目标多无人机协同任务规划[J].兵器装备工程学报,2020,0(2):123-128. 被引量：13
7刘建庸,刘克.MARKOV DECISION PROGRAMMING WITH CONSTRAINTS[J].Acta Mathematicae Applicatae Sinica,1994,10(1):1-11. 被引量：1
8周浦城,洪炳镕,王月海.动态环境下多机器人合作追捕研究[J].机器人,2005,27(4):289-295. 被引量：16
9李毅,郑国勤.基于GIS的参数化飞行程序辅助设计系统[J].计算机工程与应用,2006,42(27):212-215. 被引量：4
10宋海军,高连华,程军伟.履带车辆转向过程打滑率测试方法研究[J].车辆与动力技术,2007(2):4-6. 被引量：10

引证文献29

1何准,董文瀚,蔡鸣,李大东.基于DDPG的多旋翼无人机自主引导与跟踪方法[J].飞行力学,2021,39(2):63-69. 被引量：5
2李波,越凯强,甘志刚,高佩忻.基于MADDPG的多无人机协同任务决策[J].宇航学报,2021,42(6):757-765. 被引量：25
3邹立岩,张明智,柏俊汝,武剑.无人机集群作战建模与仿真研究综述[J].战术导弹技术,2021(3):98-108. 被引量：26
4贾红涛,胡文娟.基于确定性策略梯度算法的机械臂控制模型构建及仿真[J].粘接,2021,47(9):151-154.
5陈中原,韦文书,陈万春.基于强化学习的多发导弹协同攻击智能制导律[J].兵工学报,2021,42(8):1638-1647. 被引量：18
6康翌婷,张煜,曾日芽.地面不平条件下考虑滑动转向特性的履带车辆路径跟踪控制[J].中南大学学报（自然科学版）,2022,53(2):491-501. 被引量：6
7符小卫,徐哲,王辉.基于DDPG的无人机追捕任务泛化策略设计[J].西北工业大学学报,2022,40(1):47-55. 被引量：3
8高敬鹏,胡欣瑜,江志烨.改进DDPG无人机航迹规划算法[J].计算机工程与应用,2022,58(8):264-272. 被引量：7
9江未来,吴俊,王耀南.基于元强化学习的无人机自主避障与目标追踪[J].湖南大学学报（自然科学版）,2022,49(6):101-109. 被引量：4
10符小卫,王辉,徐哲.基于DE-MADDPG的多无人机协同追捕策略[J].航空学报,2022,43(5):522-535. 被引量：21

二级引证文献151

1徐佳,胡春鹤.分布式多经验池的无人机自主避碰方法[J].信息与控制,2023,52(4):432-443.
2刘闯,鱼小军,张婷,朱豪坤.无人集群装备仿真试验关键技术现状及趋势[J].航空学报,2022,43(S01):21-33. 被引量：5
3郑楠.微型固定翼无人机机电性能测试研究[J].科技视界,2021(10):59-60.
4郑红星,郭继峰,谢旭东,颜鹏.一种未知动态环境下异构无人机集群分布式联盟形成方法[J].宇航学报,2022,43(2):189-197. 被引量：4
5黄峰,李战武,潘紫微,张佳强.无人机群反舰作战动态目标弹药分配模型[J].安徽工业大学学报（自然科学版）,2022,39(2):196-201.
6许旭升,党朝辉,宋斌,袁秋帆,肖余之.基于多智能体强化学习的轨道追逃博弈方法[J].上海航天（中英文）,2022,39(2):24-31. 被引量：9
7周池军,邵雷,骆长鑫,李明杰,雷虎民.高动态目标拦截弹制导与控制前沿技术展望[J].空天技术,2022(2):61-74. 被引量：2
8曹严,龙腾,孙景亮,徐广通.非死锁合同网协议驱动的多机分布式时序任务分配[J].宇航学报,2022,43(5):675-684. 被引量：3
9邱潇颀,高长生,荆武兴.拦截大气层内机动目标的深度强化学习制导律[J].宇航学报,2022,43(5):685-695. 被引量：8
10江未来,徐国强,王耀南.一种无人机自主避障与目标追踪方法[J].宇航学报,2022,43(6):802-810. 被引量：4

1安凯军.美军网络信息装备体系的发展及对我国的启示[J].网络安全技术与应用,2020(10):160-161. 被引量：5
2王超,宋华文.基于信息熵的陆军合成旅装备体系作战能力评估研究[J].装备维修技术,2020(9):0049-0050.
3魏中冕,杨涵,方程.基于CiteSpace知识图谱的城市公园使用状况研究现状及趋势分析[J].园林,2020(11):89-94. 被引量：8
4李瑞凯,张也,温佳敏.无废城市视域下沈阳市引导型垃圾分类与资源化利用研究[J].区域治理,2020(43):182-182. 被引量：1
5白春雪.“城市针灸”介于北京市樱花园社区公共空间更新策略研究[J].数码设计,2020,9(16):144-145.
6王际娣,麦婉华.石马河:全力补齐基础设施短板[J].小康,2020(32):42-43.
7苏金涛,张华,肖自兵,姚运启.无人集群协同反潜应用研究[J].舰船科学技术,2020,42(9):157-161. 被引量：6
8赵悦超,杨涛,胡波.无线传感器网络中基于信息年龄的状态更新策略[J].微电子学与计算机,2020,37(11):29-34. 被引量：10
9姜亦炜,晏志鑫,朱崟.城郊村公共文化服务可及性的类型学研究——基于浙江省H市的多个案分析[J].中国农村研究,2019(1):209-233. 被引量：8
10王天英,周波.自升式半潜平台水动力性能分析[J].石油工程建设,2020,46(S01):12-17.

航空学报

2020年第10期

浏览历史

内容加载中请稍等...

基于DDPG算法的无人机集群追击任务被引量：29

参考文献4

二级参考文献23

共引文献199

同被引文献303

引证文献29

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

基于DDPG算法的无人机集群追击任务 被引量：29

参考文献4

二级参考文献23

共引文献199

同被引文献303

引证文献29

二级引证文献151

相关作者

相关机构

相关主题

浏览历史

基于DDPG算法的无人机集群追击任务被引量：29