期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于隐偏向信息学习的强化学习算法
被引量:
4
1
作者
李学勇
欧阳柳波
李国徽
《南华大学学报(理工版)》
2004年第2期10-16,共7页
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信...
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.
展开更多
关键词
强化学习
MARKOV决策过程
隐偏向信息
SARSA算法
复杂度
下载PDF
职称材料
题名
基于隐偏向信息学习的强化学习算法
被引量:
4
1
作者
李学勇
欧阳柳波
李国徽
机构
长沙大学数学与信息科学系
湖南大学软件学院
华中科技大学计算机科学与技术学院
出处
《南华大学学报(理工版)》
2004年第2期10-16,共7页
基金
国家自然科学基金资助项目(6020317)
国家科技基础性研究专项资金项目(2001DE20016-02-04).
文摘
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于推箱任务的实验表明,改进的算法明显提高了学习效率.
关键词
强化学习
MARKOV决策过程
隐偏向信息
SARSA算法
复杂度
Keywords
reinforcement learning
Markov decision process
bias
hidden biasing information
SARSA(λ) algorithm
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于隐偏向信息学习的强化学习算法
李学勇
欧阳柳波
李国徽
《南华大学学报(理工版)》
2004
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部