期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
利用无环状态路径加速强化学习收敛
1
作者
宋炯
《微计算机信息》
2011年第12期151-154,共4页
在强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节中每个状态到达目标状态的无环状态路径,使得Agent可以沿最短...
在强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节中每个状态到达目标状态的无环状态路径,使得Agent可以沿最短无环路径逆序地传播当前更新的值函数,实现了Agent访问1个状态动作转换对可以更新1批值函数,从而加快学习收敛速度。从实验对比结果看,该方法可显著地加速学习收敛,缩短学习时间。
展开更多
关键词
强化学习
值函数
加速收敛
训练情节
无环状态路径
下载PDF
职称材料
题名
利用无环状态路径加速强化学习收敛
1
作者
宋炯
机构
云南交通职业技术学院
出处
《微计算机信息》
2011年第12期151-154,共4页
文摘
在强化学习过程中,Agent访问1个状态动作转换对只能更新1项值函数,使得学习收敛速度极慢。本文提出了一种利用无环状态路径来加速强化学习收敛速度的方法。通过获得训练情节中每个状态到达目标状态的无环状态路径,使得Agent可以沿最短无环路径逆序地传播当前更新的值函数,实现了Agent访问1个状态动作转换对可以更新1批值函数,从而加快学习收敛速度。从实验对比结果看,该方法可显著地加速学习收敛,缩短学习时间。
关键词
强化学习
值函数
加速收敛
训练情节
无环状态路径
Keywords
reinforcement learning
value function
speeding up convergence
episode
acyclic state trajectory
分类号
O234 [理学—运筹学与控制论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
利用无环状态路径加速强化学习收敛
宋炯
《微计算机信息》
2011
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部