-
题名基于平均奖赏强化学习算法的零阶分类元系统
被引量:1
- 1
-
-
作者
臧兆祥
李昭
王俊英
但志平
-
机构
三峡大学水电工程智能视觉监测湖北省重点实验室
三峡大学计算机与信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2016年第21期14-20,48,共8页
-
基金
国家自然科学基金(No.61502274)
湖北省自然科学基金(No.2015CFB336
+5 种基金
No.2014CFC1144
No.2015CFA025)
三峡大学水电工程智能视觉监测湖北省重点实验室开放基金(No.2015KLA08
No.2014KLA08)
三峡大学人才科研启动基金(No.KJ2013B064
No.KJ2013B063)
-
文摘
零阶学习分类元系统ZCS(Zeroth-level Classifier System)作为一种基于遗传的机器学习技术(GeneticsBased Machine Learning),在解决多步学习问题上,已展现出应用价值。然而标准的ZCS系统采用折扣奖赏强化学习技术,难于适应更为广泛的应用领域。基于ZCS的现有框架,提出了一种采用平均奖赏强化学习技术(R-学习算法)的分类元系统,将ZCS中的折扣奖赏强化学习方法替换为R-学习算法,从而使ZCS一方面可应用于需要优化平均奖赏的问题领域,另一方面则可求解规模较大、需要动作长链支持的多步学习问题。实验显示,在多步学习问题中,该系统可给出满意解,且在维持动作长链,以及克服过泛化问题方面,具有更优的特性。
-
关键词
平均奖赏
强化学习
r-学习算法
学习分类元系统(LCS)
零阶分类元系统(ZCS)
多步学习问题
-
Keywords
average reward
reinforcement learning
r-learning
Learning Classifier Systems(LCS)
Zeroth-level Classifier System(ZCS)
multi-step problems
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP391
[自动化与计算机技术—计算机应用技术]
-