期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
强化学习原理、算法及应用
被引量:
19
1
作者
黄炳强
曹广益
王占全
《河北工业大学学报》
CAS
2006年第6期34-38,共5页
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法...
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题.
展开更多
关键词
强化
学习
TD算法
Q-
学习
r-学习
下载PDF
职称材料
基于平均奖赏强化学习算法的零阶分类元系统
被引量:
1
2
作者
臧兆祥
李昭
+1 位作者
王俊英
但志平
《计算机工程与应用》
CSCD
北大核心
2016年第21期14-20,48,共8页
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的...
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。
展开更多
关键词
平均奖赏
强化
学习
r-学习
算法
学习
分类元系统(LCS)
零阶分类元系统(ZCS)
多步
学习
问题
下载PDF
职称材料
一种结合Tile Coding的平均奖赏强化学习算法
3
作者
王巍巍
陈兴国
高阳
《模式识别与人工智能》
EI
CSCD
北大核心
2008年第4期446-452,共7页
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参...
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.
展开更多
关键词
强化
学习
马尔可夫决策过程(MDP)
r-学习
G-
学习
平均奖赏
原文传递
题名
强化学习原理、算法及应用
被引量:
19
1
作者
黄炳强
曹广益
王占全
机构
上海交通大学自动化系
华东理工大学计算机系
出处
《河北工业大学学报》
CAS
2006年第6期34-38,共5页
文摘
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题.
关键词
强化
学习
TD算法
Q-
学习
r-学习
Keywords
reinforcement Learning
TD algorithm
Q-learning
r-
learning
分类号
TP24 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于平均奖赏强化学习算法的零阶分类元系统
被引量:
1
2
作者
臧兆祥
李昭
王俊英
但志平
机构
三峡大学水电工程智能视觉监测湖北省重点实验室
三峡大学计算机与信息学院
出处
《计算机工程与应用》
CSCD
北大核心
2016年第21期14-20,48,共8页
基金
国家自然科学基金(No.61502274)
湖北省自然科学基金(No.2015CFB336
+5 种基金
No.2014CFC1144
No.2015CFA025)
三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08
No.2014KLA08)
三峡大学人才科研启动基金(No.KJ2013B064
No.KJ2013B063)
文摘
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。
关键词
平均奖赏
强化
学习
r-学习
算法
学习
分类元系统(LCS)
零阶分类元系统(ZCS)
多步
学习
问题
Keywords
average reward
reinforcement learning
r-
learning
Learning Classifier Systems(LCS)
Zeroth-level Classifier System(ZCS)
multi-step problems
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种结合Tile Coding的平均奖赏强化学习算法
3
作者
王巍巍
陈兴国
高阳
机构
南京大学计算机科学与技术系计算机软件新技术国家重点实验室
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2008年第4期446-452,共7页
基金
国家自然科学基金(No.60775046)
国家自然科学基金委创新研究群体科学基金(No.60721002)资助
文摘
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准.
关键词
强化
学习
马尔可夫决策过程(MDP)
r-学习
G-
学习
平均奖赏
Keywords
Reinforcement Learning, Markov Decision Process ( MDP),
r-
Learning, G-Learning,Average Reward
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
原文传递
题名
作者
出处
发文年
被引量
操作
1
强化学习原理、算法及应用
黄炳强
曹广益
王占全
《河北工业大学学报》
CAS
2006
19
下载PDF
职称材料
2
基于平均奖赏强化学习算法的零阶分类元系统
臧兆祥
李昭
王俊英
但志平
《计算机工程与应用》
CSCD
北大核心
2016
1
下载PDF
职称材料
3
一种结合Tile Coding的平均奖赏强化学习算法
王巍巍
陈兴国
高阳
《模式识别与人工智能》
EI
CSCD
北大核心
2008
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部