基于MADDPG的多无人机协同任务决策被引量：29

Multi-UAV Cooperative Autonomous Navigation Based on Multi-agent Deep Deterministic Policy Gradient

下载PDF

导出

摘要针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了MADDPG算法的模型结构。最后通过仿真实验,并对比深度确定性策略梯度(DDPG)算法,验证了本文提出的MADDPG算法在保证精度的基础上,学习速度大幅度提高,弥补了传统强化学习算法在多智能体领域的不足。 Aiming at the problem that the traditional optimization algorithm is difficult to get the desired results in a short time in the research of multi-UAV(unmanned aerial vehicle)task decision-making method,this paper proposes a multi-agent deep deterministic policy gradient(MADDPG)algorithm based on deep reinforcement learning.It allows UAVs to use global information in learning and only local information in application decision-making.The model structure of MADDPG algorithm is designed.Finally,through simulation experiments and comparing with deep deterministic policy gradient(DDPG)algorithm,it is verified that the MADDPG algorithm proposed in this paper can greatly improve the learning speed on the basis of ensuring the accuracy,and make up for the shortcomings of the traditional reinforcement learning algorithm in the field of multiple agents.

作者李波越凯强甘志刚高佩忻 LI Bo;YUE Kai-qiang;GAN Zhi-gang;GAO Pei-xin(School of Electronics and Information,Northwestern Polytechnical University,Xi’an 710114,China)

机构地区西北工业大学电子信息学院

出处《宇航学报》 EI CAS CSCD 北大核心 2021年第6期757-765,共9页 Journal of Astronautics

基金国家自然科学基金(61573285,62003267) 陕西省自然科学基金(2020JQ-220) 航空科学基金(2017ZC53021) 数据链技术重点实验室开放基金(CLDL-20182101)。

关键词无人机任务决策深度强化学习策略梯度多智能体 UAV Task decision-making Deep reinforcement learning Policy gradient Multi-agent

分类号 TJ0114 [兵器科学与技术—兵器发射理论与技术]

引文网络
相关文献

参考文献13

1伍思远.无人机安保任务的调度研究——以杨浦区为例[J].科技风,2016(9):143-143. 被引量：2
2朱武斌.海上无人机搜救技术研究[J].价值工程,2019,38(31):161-163. 被引量：6
3石磊.无人机在行业的应用前景[J].黑龙江科技信息,2017(4):52-52. 被引量：5
4孙盛智,常会振,郑卫娟,罗云,侯妍.空中协同作战模式及关键技术[J].兵器装备工程学报,2020,41(7):177-181. 被引量：15
5刘文兵,王艺栋.多无人机协同搜索多目标的路径规划问题研究[J].电光与控制,2019,26(3):35-38. 被引量：36
6柳向阳,唐大全,邓伟栋,丁鹏程.适用于有向图网络的多无人机目标跟踪一致性算法[J].电光与控制,2019,26(7):60-64. 被引量：3
7许可,宫华,秦新立,张博渊.基于分布式拍卖算法的多无人机分组任务分配[J].信息与控制,2018,47(3):341-346. 被引量：19
8张哲,吴剑,何诚,穆忠伟.复杂环境下多目标多无人机协同任务规划[J].兵器装备工程学报,2020,0(2):123-128. 被引量：13
9刘畅,谢文俊,张鹏,郭庆,高超.多基地多无人机航迹避障任务规划[J].计算机工程,2019,45(11):275-280. 被引量：6
10朱涛,凌海风,贺伟雄,苏正炼,章瞻良.基于层级网络的多无人机自主编队策略[J].飞行力学,2018,36(5):43-48. 被引量：3

二级参考文献75

1郑昌文,严平,丁明跃,苏康.飞行器航迹规划研究现状与趋势[J].宇航学报,2007,28(6):1441-1446. 被引量：94
2刘兴,贺国光,高文伟.一种有时间约束的多车辆协作路径模型及算法[J].系统工程,2005,23(4):105-109. 被引量：15
3杜萍,杨春.飞行器航迹规划算法综述[J].飞行力学,2005,23(2):10-14. 被引量：62
4强勇,张冠杰,谷月东.目标识别技术及其在现代战争中的应用[J].火控雷达技术,2005,34(3):1-5. 被引量：18
5俞辉,蹇继贵,王永骥.多智能体有向网络的加权平均一致性[J].微计算机信息,2007(02Z):239-241. 被引量：6
6李湘清,孙秀霞,王栋,李士波,刘艳芳.基于遗传算法的UCAV动态任务分配模型及研究[J].系统仿真学报,2008,20(16):4387-4389. 被引量：17
7彭辉,王林,沈林成.区域目标搜索中基于改进RRT的UAV实时航迹规划[J].国防科技大学学报,2009,31(5):86-91. 被引量：24
8李强,王民钢,李磊.基于遗传算法的飞行器参考航迹规划[J].计算机仿真,2010,27(2):34-37. 被引量：10
9唐苏妍,朱一凡,李群,雷永林.多Agent系统任务分配方法综述[J].系统工程与电子技术,2010,32(10):2155-2161. 被引量：51
10孙海波,周锐,邹丽,丁全心.通信和测量受限条件下异构多UAV分布式协同目标跟踪方法[J].航空学报,2011,32(2):299-310. 被引量：19

共引文献133

1李明哲,马琼敏,伍国华.基于强化学习的无人机集群动态任务规划算法[J].系统仿真技术,2023,19(3):193-204.
2王雪鉴,文永明,石晓荣,张宁宁,刘洁玺.多智能体多耦合任务混合式智能决策架构设计[J].航空学报,2023,44(S02):418-425.
3赵越,李言锋,何胜学.基于遗传算法的无人机农药喷洒航迹规划[J].智能计算机与应用,2023,13(8):88-93.
4张哲,吴剑,何诚,穆忠伟.复杂环境下多目标多无人机协同任务规划[J].兵器装备工程学报,2020,0(2):123-128. 被引量：13
5许开程.把握机遇直面挑战锐意进取加快发展开创上海石化21世纪的崭新未来[J].金山企业管理,2000(1):6-8.
6刘亚京,吕文红,王国娟,梁璐莉.末端无人机物流路径规划研究综述[J].物流技术,2019,38(6):135-140. 被引量：5
7彭浩,毛祥荟,谷源涛,王永程,王玉.基于WPG的无人机一致性控制算法[J].深圳大学学报（理工版）,2019,36(5):497-502.
8马男,张云千.基于多旋翼无人机的污水管线自主巡查系统[J].电子制作,2019,0(19):3-5. 被引量：3
9冯逸飞,吕振义,蔡懿灵,胡家庆,康鹏,邓月仙,戴志鑫,张鹭鹭.基于无人机搜救平台的海上落水伤员救援决策演练设计[J].解放军医院管理杂志,2019,26(12):1133-1135. 被引量：7
10杜永浩,邢立宁,蔡昭权.无人飞行器集群智能调度技术综述[J].自动化学报,2020,46(2):222-241. 被引量：35

同被引文献246

1崔方宇,蔡云龙,赵民建.基于NOMA的无人机轨迹与功率联合优化[J].杭州电子科技大学学报（自然科学版）,2020,40(1):14-20. 被引量：4
2刘雷,刘大卫,王晓光,陈俊男,刘东兴.无人机集群与反无人机集群发展现状及展望[J].航空学报,2022,43(S01):4-20. 被引量：38
3贾永楠,田似营,李擎.无人机集群研究进展综述[J].航空学报,2020(S01):4-14. 被引量：97
4刘建庸,刘克.MARKOV DECISION PROGRAMMING WITH CONSTRAINTS[J].Acta Mathematicae Applicatae Sinica,1994,10(1):1-11. 被引量：1
5龙涛,朱华勇,沈林成.多UCAV协同中基于协商的分布式任务分配研究[J].宇航学报,2006,27(3):457-462. 被引量：32
6李兆强,周德云.无人机数据链变结构对抗攻击导引方式研究[J].系统仿真学报,2008,20(13):3507-3509. 被引量：4
7李东华,江驹,姜长生.多智能体强化学习飞行路径规划算法[J].电光与控制,2009,16(10):10-14. 被引量：8
8刘正敏,昂亮,姜长生,吴庆宪.多级影响图在无人机群协同空战机动决策中的应用[J].电光与控制,2010,17(10):10-13. 被引量：10
9邓婉,王新民,王晓燕,肖亚辉.无人机编队队形保持变换控制器设计[J].计算机仿真,2011,28(10):73-77. 被引量：30
10徐小野,李爱军,张丛丛,姚宗信.基于Q学习的变体无人机控制系统设计[J].西北工业大学学报,2012,30(3):340-344. 被引量：3

引证文献29

1郑红星,郭继峰,谢旭东,颜鹏.一种未知动态环境下异构无人机集群分布式联盟形成方法[J].宇航学报,2022,43(2):189-197. 被引量：4
2曹严,龙腾,孙景亮,徐广通.非死锁合同网协议驱动的多机分布式时序任务分配[J].宇航学报,2022,43(5):675-684. 被引量：4
3江未来,徐国强,王耀南.一种无人机自主避障与目标追踪方法[J].宇航学报,2022,43(6):802-810. 被引量：4
4畅鑫,李艳斌,赵研,杜宇峰,刘东辉.基于MA2IDDPG算法的异构多无人机协同突防方法[J].河北工业科技,2022,39(4):328-334. 被引量：3
5李博皓,安旭曼,杨晓飞,吴云洁,李国飞.攻击角度约束下的分布式强化学习制导方法[J].宇航学报,2022,43(8):1061-1069. 被引量：6
6李波,白双霞,孟波波,梁诗阳,李曾琳.基于SAC算法的无人机自主空战决策算法[J].指挥控制与仿真,2022,44(5):24-30. 被引量：9
7费陈,郑晗,赵亮.基于强化学习的无人机智能任务分配方法[J].弹箭与制导学报,2022,42(6):61-67. 被引量：4
8李波,黄晶益,万开方,宋超.基于深度强化学习的无人机系统应用研究综述[J].战术导弹技术,2023(1):58-68. 被引量：2
9陈剑,杨青青,彭艺.基于MADDPG的无人机辅助通信功率分配算法[J].光电子．激光,2023,34(3):306-313. 被引量：1
10符小卫,徐哲,朱金冬,王楠.基于PER-MATD3的多无人机攻防对抗机动决策[J].航空学报,2023,44(7):191-204. 被引量：7

二级引证文献57

1张远,黄万伟,聂莹,路坤锋.一种高速可变形飞行器智能变形决策方法[J].宇航学报,2022,43(12):1665-1675. 被引量：4
2费陈,郑晗,赵亮.基于强化学习的无人机智能任务分配方法[J].弹箭与制导学报,2022,42(6):61-67. 被引量：4
3张生琨,任素萍,杨星雨,郭林,马洪波.基于数字孪生的无人机状态监测方法[J].航空计算技术,2023,53(2):75-79. 被引量：4
4章胜,周攀,何扬,黄江涛,刘刚,唐骥罡,贾怀智,杜昕.基于深度强化学习的空战机动决策试验[J].航空学报,2023,44(10):117-130. 被引量：7
5张旭东,李少波,李传江,张安思,杨磊.无人机集群综述:技术、挑战与未来[J].无线电工程,2023,53(7):1487-1501. 被引量：7
6费陈,郑晗,赵亮.无人机集群控制技术研究[J].弹箭与制导学报,2023,43(3):45-55. 被引量：3
7郑鹤鸣,翟光,孙一勇.面向在轨加注的组合体姿态SAC智能控制[J].宇航学报,2023,44(7):1020-1033. 被引量：2
8徐天宇,徐江华.无人机自动机库造型设计研究综述[J].艺术科技,2023,36(18):177-179.
9黄旭,柳嘉润,张远,张华明,贾晨辉,刘晓东.知识与数据混合驱动的高速飞行控制方法综述[J].宇航学报,2023,44(8):1113-1126. 被引量：2
10张润德,蔡伟伟,杨乐平,范大伟.集群航天器鲁棒自适应快速任务分配[J].宇航学报,2023,44(8):1183-1194. 被引量：1

1桂小强.油田开发中大数据技术及其有效应用探析[J].数字通信世界,2021(5):186-187. 被引量：2
2徐羽丰,王玉珠.多传感器自适应协同管控方法[J].指挥信息系统与技术,2021,12(3):72-76. 被引量：2
3陈基明,朱浩雨,高静,葛亚琼,王敏红,李颖,吴莉莉.基于临床病理及常规和功能MRI影像组学模型预测乳腺癌腑窝淋巴结转移[J].中国医学影像技术,2021,37(6):885-890. 被引量：14
4李永强,吕卫民.特种装备模拟器计算机MIN板热环境适应性[J].兵工学报,2021,42(6):1312-1323. 被引量：2
5孙永壮,黄鋆,俞伟哲,胡伟.基于U-Net网络的端到端地震高分辨率处理技术[J].地球物理学进展,2021,36(3):1297-1305. 被引量：10

宇航学报

2021年第6期

浏览历史

内容加载中请稍等...

基于MADDPG的多无人机协同任务决策被引量：29

参考文献13

二级参考文献75

共引文献133

同被引文献246

引证文献29

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于MADDPG的多无人机协同任务决策 被引量：29

参考文献13

二级参考文献75

共引文献133

同被引文献246

引证文献29

二级引证文献57

相关作者

相关机构

相关主题

浏览历史

基于MADDPG的多无人机协同任务决策被引量：29