期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者 王垚儒 李俊 《武汉科技大学学报》 CAS 北大核心 2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验... 为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。 展开更多
关键词 深度确定性策略梯度 TD3算法 深度强化学习 噪声流 多步截断Q学习 双经验回放池
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部