期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于TD-error自适应校正的深度Q学习主动采样方法 被引量:10
1
作者 白辰甲 刘鹏 +1 位作者 赵巍 唐降龙 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期262-280,共19页
强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-erro... 强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量. 展开更多
关键词 样本优先级 TD-error校正 自适应 主动采样 深度Q学习 强化学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部