-
题名一种基于线性函数逼近的离策略Q(λ)算法
被引量:26
- 1
-
-
作者
傅启明
刘全
王辉
肖飞
于俊
李娇
-
机构
苏州大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2014年第3期677-686,共10页
-
基金
国家自然科学基金(60873116
61070223
+5 种基金
61103045)
江苏省自然科学基金(BK2008161
BK2009116)
江苏省高校自然科学研究项目(09KJA520002
09KJB520012)
吉林大学符号计算与知识工程教育部重点实验室资助项目(93K172012K04)资助~~
-
文摘
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.
-
关键词
强化学习
函数逼近
离策略
q(A)算法
机器学习中图法
-
Keywords
reinforcement learning
function approximation
gradient descent
q(λ) algorithm
machine learning
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-