期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者
王垚儒
李俊
《武汉科技大学学报》
CAS
北大核心
2020年第2期147-154,共8页
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验...
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。
展开更多
关键词
深度确定性策略梯度
TD3算法
深度强化学习
噪声流
多步截断
双
Q学习
双经验回放池
下载PDF
职称材料
题名
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
1
作者
王垚儒
李俊
机构
武汉科技大学计算机科学与技术学院
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室
出处
《武汉科技大学学报》
CAS
北大核心
2020年第2期147-154,共8页
基金
国家自然科学基金资助项目(61572381)
武汉科技大学智能信息处理与实时工业系统湖北省重点实验室基金资助项目(znxx2018QN06).
文摘
为了进一步提高双延迟深度确定性策略梯度算法(TD3)的网络探索性能和收敛速度,提出一种采用基于多步优先和重抽样优选机制的双经验回放池的噪声流TD3算法。该算法在策略网络中的每一层添加噪声流以增加参数的随机性,并引入多步优先经验回放池,将多个连续样本组成一个基础单元进行存储,训练时通过多步截断双Q处理实现对值函数的有效逼近,同时增加一个经验回放池采用重抽样优选机制来存储学习价值更大的样本,双经验回放池的设置可弥补样本多样性不足的问题。在OpenAI Gym平台的Walker2d-v2场景中进行仿真实验,结果表明,与对比算法相比,本文算法获得的回报值有明显改善,网络收敛速度也大大加快。
关键词
深度确定性策略梯度
TD3算法
深度强化学习
噪声流
多步截断
双
Q学习
双经验回放池
Keywords
deep deterministic policy gradient
TD3 algorithm
deep reinforcement learning
noise flow
multi-step clipped double Q-learning
double experience replay buffers
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
采用双经验回放池的噪声流双延迟深度确定性策略梯度算法
王垚儒
李俊
《武汉科技大学学报》
CAS
北大核心
2020
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部