期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于经验指导的深度确定性多行动者-评论家算法 被引量:6
1
作者 陈红名 刘全 +3 位作者 闫岩 何斌 姜玉斌 张琳琳 《计算机研究与发展》 EI CSCD 北大核心 2019年第8期1708-1720,共13页
连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,... 连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现. 展开更多
关键词 强化学习 深度强化学习 确定性行动者评论家 经验指导 专家指导 行动者
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部