-
题名基于后验经验回放的MAAC多智能体强化学习算法
- 1
-
-
作者
夏琳
罗威
王俊霞
黄一学
-
机构
中国舰船研究设计中心
-
出处
《软件》
2023年第2期17-22,41,共7页
-
基金
国防基础科研计划(JCKY2018207C121)资助。
-
文摘
[目的]针对多智能体强化学习过程中样本利用率低、奖励稀疏、收敛速度慢等问题,提出了一种基于后验经验回放的MAAC(Actor-Attention-Critic for Multi-Agent Reinforcement Learning,MAAC)多智能体强化学习(Hindsight Experience Replay Machanism of MAAC Algorithm,HER-MAAC)算法。[方法]利用失败的探索经验,将依据后验经验回放算法选取的目标重新计算奖励值,存入回放缓冲区中,增大回放缓冲区中成功经验的比例,从而提升样本抽取效率。[结果]实验结果显示,HER-MAAC相较原始MAAC算法,智能体成功率提升,奖励值也明显提高。在典型试验环境下,训练3个智能体胜率提高了7.3%,智能体数量为4时胜率提高8.1%,智能体数目为5时胜率提高5.7%。[结论]研究成果表明,改进后的算法能够有效提升多智能体训练效率。
-
关键词
多智能体系统
深度强化学习
后验经验回放
注意力机制
-
Keywords
multi-agent system
deep reinforcement learning
hindsight experience replay
attention machanism
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于后验经验回放的MADDPG算法
被引量:3
- 2
-
-
作者
孙彧
徐越
潘宣宏
戴定成
孙健
陈新群
-
机构
解放军
海军指挥学院航空兵教研室
-
出处
《指挥信息系统与技术》
2021年第6期78-84,共7页
-
基金
国家社会科学基金
全军军事类研究生重点课题资助项目。
-
文摘
训练效率过低和收敛速度过慢是多智能体深度强化学习(MDRL)领域一大问题。多智能体深度确定性策略梯度(MADDPG)作为经典算法已应用于多种仿真场景,但其原始的经验回放机制在样本存放和抽取方面效率较低。针对该问题,提出了基于后验经验回放(HER)的MADDPG算法,以不断更新目标状态和计算回报值的方式提升样本抽取效率,进而提升算法的训练效果。多场景对比试验表明,该算法在效率和性能方面较原始算法均有较大提升。
-
关键词
多智能体系统
多智能体深度强化学习
多智能体深度确定性策略梯度算法
后验经验回放
-
Keywords
multi-agent system
multi-agent deep reinforcement learning(MDRL)
multi-agent deep deterministic policy gradient(MADDPG)algorithm
hindsight experience replay(HER)
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-