期刊文献+

基于MADDPG的多无人机协同任务决策 被引量:22

Multi-UAV Cooperative Autonomous Navigation Based on Multi-agent Deep Deterministic Policy Gradient
下载PDF
导出
摘要 针对多无人机任务决策方法研究中传统优化算法难以在短时间内得到期望结果的问题,基于深度强化学习提出一种无人机多智能体深度确定性策略梯度(MADDPG)算法,通过允许无人机在学习时使用全局信息,在应用决策的时候只使用局部信息的方法,从网络结构、状态空间、动作空间和奖励函数设计了MADDPG算法的模型结构。最后通过仿真实验,并对比深度确定性策略梯度(DDPG)算法,验证了本文提出的MADDPG算法在保证精度的基础上,学习速度大幅度提高,弥补了传统强化学习算法在多智能体领域的不足。 Aiming at the problem that the traditional optimization algorithm is difficult to get the desired results in a short time in the research of multi-UAV(unmanned aerial vehicle)task decision-making method,this paper proposes a multi-agent deep deterministic policy gradient(MADDPG)algorithm based on deep reinforcement learning.It allows UAVs to use global information in learning and only local information in application decision-making.The model structure of MADDPG algorithm is designed.Finally,through simulation experiments and comparing with deep deterministic policy gradient(DDPG)algorithm,it is verified that the MADDPG algorithm proposed in this paper can greatly improve the learning speed on the basis of ensuring the accuracy,and make up for the shortcomings of the traditional reinforcement learning algorithm in the field of multiple agents.
作者 李波 越凯强 甘志刚 高佩忻 LI Bo;YUE Kai-qiang;GAN Zhi-gang;GAO Pei-xin(School of Electronics and Information,Northwestern Polytechnical University,Xi’an 710114,China)
出处 《宇航学报》 EI CAS CSCD 北大核心 2021年第6期757-765,共9页 Journal of Astronautics
基金 国家自然科学基金(61573285,62003267) 陕西省自然科学基金(2020JQ-220) 航空科学基金(2017ZC53021) 数据链技术重点实验室开放基金(CLDL-20182101)。
关键词 无人机 任务决策 深度强化学习 策略梯度 多智能体 UAV Task decision-making Deep reinforcement learning Policy gradient Multi-agent
  • 相关文献

参考文献13

二级参考文献75

共引文献121

同被引文献177

引证文献22

二级引证文献25

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部