期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于线性函数逼近的离策略Q(λ)算法 被引量:26
1
作者 傅启明 刘全 +3 位作者 王辉 肖飞 于俊 李娇 《计算机学报》 EI CSCD 北大核心 2014年第3期677-686,共10页
将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关... 将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性. 展开更多
关键词 强化学习 函数逼近 离策略 q(A)算法 机器学习中图法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部