期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
利用无环状态路径加速强化学习收敛
1
作者 宋炯 《微计算机信息》 2011年第12期151-154,共4页
在强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节中每个状态到达目标状态的无环状态路径,使得Agent可以沿最短... 在强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节中每个状态到达目标状态的无环状态路径,使得Agent可以沿最短无环路径逆序地传播当前更新的值函数,实现了Agent访问1个状态动作转换对可以更新1批值函数,从而加快学习收敛速度。从实验对比结果看,该方法可显著地加速学习收敛,缩短学习时间。 展开更多
关键词 强化学习 值函数 加速收敛 训练情节 无环状态路径
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部