平均报酬指标多步递推最小二乘即时差分学习

Average Reward Multi-Step Temporal-Difference Learning Using Recursive Least-Squares Methods

下载PDF

导出

摘要对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究.近似器由权值进行增量更新的固定特征函数线性加权组合构成,在对已有的算法进行比较分析的基础上,利用线性参数估计理论的有关成果,提出了基于值函数线性近似表示的平均报酬指标多步递推最小二乘即时差分强化学习算法,并给出了其一致收敛性证明. Average reward temporal-difference learning of an irreducible aperiodic Markov chain based on linear function approximations is investigated. Approximations are comprised of linear combinations of fixed basis function whose weight are incrementally updated. On the basis of analyzing and investigating the exist algorithms,and using the linear parameter estimation theory, a new class of average reward multi-step temporal-difference learning algorithms based on linear function approximations and recursive least squares methods is proposed. A proof of uniform converge is presented.

作者李春贵刘永信王萌

机构地区广西工学院计算机工程系内蒙古大学电子信息工程学院

出处《内蒙古大学学报（自然科学版）》 CAS CSCD 北大核心 2008年第5期560-565,共6页 Journal of Inner Mongolia University：Natural Science Edition

基金广西自然科学基金(桂科自0481016) 教育部重点(204031) 内蒙古大学博士基金(203043) 内蒙古大学“513”人才计划(205144)资助项目

关键词即时差分学习平均报酬函数近似最小二乘递推 temporal-difference learning average reward function approximation least squares recursive

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1Sutton R S,Barto A G. Reinforcement Learning: An Introduction[M]. MA: MIT Press, 1998.
2李春贵,吴沧浦,刘永信.一种基于状态聚类的SARSA(λ)强化学习算法[J].计算机工程,2003,29(5):37-38. 被引量：3
3文锋,陈宗海,卓睿,周光明.连续状态自适应离散化基于K-均值聚类的强化学习方法[J].控制与决策,2006,21(2):143-147. 被引量：7
4Bertsekas D P,Tsitsiklis J N. Neural Dynamic Programming [M]. MA:Athena Scientific, 1996.
5Tsitsiklis J N,Van Roy B. An analysis of temporal-difference learning with function approximation [J]. IEEE Transactions on Automatic Control, 1997,42 (5) : 474 - 690.
6Tsitsiklis J N ,Van Roy B. Average cost temporal-difference learning [J]. Automatica, 1999,35 : 1799- 1808.
7Brartke S J, Barto A. Linear I.east-Squares Algorithms for Temporal Difference Learning[J]. Machine Learning, 1996,22 : 33- 57.
8Xu X,He H G,Hu D W. Efficient reinforcement learning using reeursive Least-square Methods [J]. Journal of Artificial Intelligence, 2002,16 : 259 - 292.
9胡光华,胡光涛.基于线性近似的即时差分学习[J].云南大学学报（自然科学版）,2002,24(1):9-13. 被引量：2
10胡光华,吴沧浦.平均准则问题的即时差分学习算法[J].自动化学报,2000,26(4):533-536. 被引量：2

二级参考文献23

1马勇,杨煜普,许晓鸣,石坚,卓斌,吴远朋.一类再励学习控制器设计及其在倒车模型中的应用[J].上海交通大学学报,2000,34(12):1661-1663. 被引量：1
2Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.
3Moore A W,Atkeson C G.The Parti-game Algorithm for Variable Resolution Reinforcement Learning in Multidimensional State-spaces[J].Machine Learning,1995,21(3):199-233.
4Uther W T,Veloso M M.Tree Based Discretizationfor Continuous State Space Reinforcement Learning[A].AAAI'98[C].Madison,1998:769-774
5Smith A J.Applications of the Self-organising Map to Reinforcement Learning[J].Neural Networks,2002,15(8-9):1107-1124.
6Lee I S K,Lau H Y K.Adaptive State Space Partitioning for Reinforcement Learning[J].Engineering Applications of Artificial Intelligence,2004,17(6):577-588.
7Haykin S.Neural Networks:A Comprehensive Foundation[M].Beijing:Tsinghua University Press,2001.
8Singh S P,Sutton R S.Reinforcement Learning with Replacing Eligibility Traces[J].Machine Learning,1996,22(2):123-158.
9[1]Sutton R S. Learning to predict by the methods of temporal differences. Machine Learning, 1988,3:9～44
10[2]Dayan P D. The convergence of TD(λ) for general λ.Machine Learning, 1992,8:341～362

共引文献10

1胡敏,孔昭君,张纪海,李萍.一种属性约简方法及其在动员联盟伙伴选择中的应用[J].兵工学报,2009,30(S1):64-69.
2朱娟萍,侯忠生,陆正福,熊丹.应用神经网络的非参数模型自适应控制[J].云南大学学报（自然科学版）,2005,27(4):280-284. 被引量：1
3文锋,陈宗海,卓睿,周光明.连续状态自适应离散化基于K-均值聚类的强化学习方法[J].控制与决策,2006,21(2):143-147. 被引量：7
4陈宗海,文锋,王智灵.基于自适应评价的非线性系统神经网络控制[J].控制与决策,2007,22(7):765-768. 被引量：3
5常晋义,何春霞.基于三角不等式原理的K-means加速算法[J].计算机工程与设计,2007,28(21):5094-5096. 被引量：4
6李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3
7王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
8陶隽源,孙金玮,李德胜.基于线性平均的强化学习函数估计算法[J].吉林大学学报（工学版）,2008,38(6):1407-1411.
9胡光华,胡光涛.基于线性近似的即时差分学习[J].云南大学学报（自然科学版）,2002,24(1):9-13. 被引量：2
10施梦宇,刘全,傅启明.支持合并的自适应tile coding算法[J].通信学报,2015,36(2):186-192.

1徐长明,马宗民,徐心和,李新星.面向机器博弈的即时差分学习研究[J].计算机科学,2010,37(8):219-223. 被引量：4
2胡光华,胡光涛.基于线性近似的即时差分学习[J].云南大学学报（自然科学版）,2002,24(1):9-13. 被引量：2
3吴玉华,唐昊,周雷.SMDP基于性能势的M步向前策略迭代[J].吉林大学学报（工学版）,2006,36(6):958-962.
4李春贵.多步截断优先扫描强化学习算法[J].计算机工程,2005,31(11):13-15.
5胡光华,吴沧浦.平均报酬模型的多步强化学习算法[J].控制理论与应用,2000,17(5):660-664. 被引量：4
6王艳,王移芝.融合信任关系的协同过滤推荐算法改进研究[J].计算机与现代化,2016(12):7-11. 被引量：2
7胡光华,胡光涛.一种在线自适应控制马氏链的强化学习算法[J].云南大学学报（自然科学版）,2000,22(1):9-12. 被引量：3
8吕洪艳,刘芳.基于组合核函数SVM的文本主题识别[J].微型电脑应用,2016,32(5):73-76. 被引量：2
9宗群,孙正雅,宋超峰.基于平均报酬强化学习的电梯群组调度研究[J].系统仿真学报,2007,19(21):4945-4948. 被引量：1
10周盛强,向锦武.基于协同进化博弈的多学科设计优化[J].计算机工程与应用,2006,42(25):227-229. 被引量：1

内蒙古大学学报（自然科学版）

2008年第5期

浏览历史

内容加载中请稍等...

平均报酬指标多步递推最小二乘即时差分学习

参考文献11

二级参考文献23

共引文献10

相关作者

相关机构

相关主题

浏览历史