期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
强化学习原理、算法及应用 被引量:19
1
作者 黄炳强 曹广益 王占全 《河北工业大学学报》 CAS 2006年第6期34-38,共5页
强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法... 强化学习(ReinforcementLearningRL)是从动物学习理论发展而来的,它不需要有先验知识,通过不断与环境交互来获得知识,自主的进行动作选择,具有自主学习能力,在自主机器人行为学习中受到广泛重视.本文综述了强化学习的基本原理,各种算法,包括TD算法、Q-学习和R学习等,最后介绍了强化学习的应用及其在多机器人系统中的研究热点问题. 展开更多
关键词 强化学习 TD算法 Q-学习 r-学习
下载PDF
基于平均奖赏强化学习算法的零阶分类元系统 被引量:1
2
作者 臧兆祥 李昭 +1 位作者 王俊英 但志平 《计算机工程与应用》 CSCD 北大核心 2016年第21期14-20,48,共8页
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的... 零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。 展开更多
关键词 平均奖赏 强化学习 r-学习算法 学习分类元系统(LCS) 零阶分类元系统(ZCS) 多步学习问题
下载PDF
一种结合Tile Coding的平均奖赏强化学习算法
3
作者 王巍巍 陈兴国 高阳 《模式识别与人工智能》 EI CSCD 北大核心 2008年第4期446-452,共7页
平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参... 平均奖赏强化学习是强化学习中的一类重要的非折扣最优性框架,目前大多工作都主要是在离散域进行.本文尝试将平均奖赏强化学习算法和函数估计结合来解决连续状态空间的问题,并根据状态域的改变,相应修改 R-learning 和 G-learning 中参数的更新条件.此外对结合函数估计的 G-learning 算法的性能表现及其对各种参数的敏感程度进行针对性研究.最后给出实验结果及分析.实验结果证明 R-learning 和 G-learning 在ε较小的情况下解容易发散,同时也说明特征抽取方法 Tile coding 的有效性,且可作为其它特征抽取方法的参考标准. 展开更多
关键词 强化学习 马尔可夫决策过程(MDP) r-学习 G-学习 平均奖赏
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部