一种基于状态聚类的SARSA(λ)强化学习算法被引量：3

SARSA( λ) Algorithm of Reinforcement Learning Basd on States Clustering

下载PDF

导出

摘要为求解大状态空间的强化学习问题，提出了一种基于状态聚类的SARSA(λ)强化学习算法，其基本思想是利用先验知识或事先训练控制器，对状态空间进行聚类，分为不同的簇，然后在簇空间上进行SARSA(λ)学习。若能进行适当的状态聚类，算法将可得到一个相对好的近似值函数. For solving large-scale reinforcement learning problem, a new SARSA(λ) algorithm of reinforcement learning based on states clustering is proposed. The principle idea of the algorithm is that it can first use the prior knowledge or train the controller to cluster the state space, the state space is lelustered to many clusters, then do SARSA(λ) learning in the cluster space. If the states are clustered properly, the algorithm can get a suitable approximate value function.

作者李春贵吴沧浦刘永信

机构地区北京理工大学自动控制系

出处《计算机工程》 CAS CSCD 北大核心 2003年第5期37-38,98,共3页 Computer Engineering

关键词 SARSA(λ)强化学习算法状态聚类强化学习函数近似 SARSA学习人工神经网络 Reinforcement learning Function approximation State space clustering SARSA learning

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1[1]Watkins C J C H. Learning from Delayed Rewards[Ph.D. Thesis].London: Cambridge Univ., 1989
2[2]Bertsekas N A, Tsitsiklis J N. Neuro-dynamic Programming[M]. MA:Athena Scientific, 1996
3[3]Tsitsiklis J N, Roy B V. An analysis of Temporal-difference Learning with Function Approximation[J]. IEEE Trans. Auto. Contr., 1997, 42(5): 674-690
4[4]Jain A K, Murty M N, Flynn PJ. Data Clustering: A Survey[J]. ACM Comput. Surv., 1999, 31:264-323
5[5]Sutton R S, Barto A G. An Introduction to Reinforcement Learning [M]. MA: The MIT Press, 1998
6[6]Howard R A. Dynamic Programming and Markov Process[M]. MA:The MIT Press, 1960

同被引文献31

1马勇,杨煜普,许晓鸣,石坚,卓斌,吴远朋.一类再励学习控制器设计及其在倒车模型中的应用[J].上海交通大学学报,2000,34(12):1661-1663. 被引量：1
2文锋,陈宗海,卓睿,周光明.连续状态自适应离散化基于K-均值聚类的强化学习方法[J].控制与决策,2006,21(2):143-147. 被引量：7
3承向军,常歆识,杨肇夏.基于Q-学习的交通信号控制方法[J].系统工程理论与实践,2006,26(8):136-140. 被引量：14
4赵晓华,李振龙,陈阳舟.基于Q学习的城市交通信号灯混杂控制(英文)[J].系统仿真学报,2006,18(10):2889-2894. 被引量：4
5陈洪,陈森发.单路口交通实时模糊控制的一种方法[J].信息与控制,1997,26(3):227-233. 被引量：61
6Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.
7Moore A W,Atkeson C G.The Parti-game Algorithm for Variable Resolution Reinforcement Learning in Multidimensional State-spaces[J].Machine Learning,1995,21(3):199-233.
8Uther W T,Veloso M M.Tree Based Discretizationfor Continuous State Space Reinforcement Learning[A].AAAI'98[C].Madison,1998:769-774
9Smith A J.Applications of the Self-organising Map to Reinforcement Learning[J].Neural Networks,2002,15(8-9):1107-1124.
10Lee I S K,Lau H Y K.Adaptive State Space Partitioning for Reinforcement Learning[J].Engineering Applications of Artificial Intelligence,2004,17(6):577-588.

引证文献3

1文锋,陈宗海,卓睿,周光明.连续状态自适应离散化基于K-均值聚类的强化学习方法[J].控制与决策,2006,21(2):143-147. 被引量：7
2李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3
3李春贵,刘永信,王萌.平均报酬指标多步递推最小二乘即时差分学习[J].内蒙古大学学报（自然科学版）,2008,39(5):560-565.

二级引证文献10

1胡敏,孔昭君,张纪海,李萍.一种属性约简方法及其在动员联盟伙伴选择中的应用[J].兵工学报,2009,30(S1):64-69.
2陈宗海,文锋,王智灵.基于自适应评价的非线性系统神经网络控制[J].控制与决策,2007,22(7):765-768. 被引量：3
3常晋义,何春霞.基于三角不等式原理的K-means加速算法[J].计算机工程与设计,2007,28(21):5094-5096. 被引量：4
4王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
5李春贵,刘永信,王萌.平均报酬指标多步递推最小二乘即时差分学习[J].内蒙古大学学报（自然科学版）,2008,39(5):560-565.
6陶隽源,孙金玮,李德胜.基于线性平均的强化学习函数估计算法[J].吉林大学学报（工学版）,2008,38(6):1407-1411.
7李春贵,周坚和,孙自广,王萌,张增芳.基于多智能体团队强化学习的交通信号控制[J].广西工学院学报,2011,22(2):1-5. 被引量：2
8马庆禄,斯海林,郭建伟.物联网环境下城市交通区域联动的云控制策略[J].计算机应用研究,2013,30(9):2711-2714. 被引量：8
9施梦宇,刘全,傅启明.支持合并的自适应tile coding算法[J].通信学报,2015,36(2):186-192.
10王祉祈,赵顗,马健霄,吴林.基于Q-learning算法的单点信号控制研究[J].物流工程与管理,2021,43(4):93-95. 被引量：1

1李春贵,吴沧浦,刘永信.一种集成规划的SARSA(λ)强化学习算法[J].北京理工大学学报,2002,22(3):325-327. 被引量：2
2Jana Schmidt,Stefan Kramer.Online Induction of Probabilistic Real-Time Automata[J].Journal of Computer Science & Technology,2014,29(3):345-360.
3李春贵,刘永信.一种状态集结因子化SARSA(λ)强化学习算法[J].内蒙古大学学报（自然科学版）,2001,32(6):675-678. 被引量：1
4陈夏冰,刘国栋.基于模糊神经网络Sarsa学习的多机器人任务分配[J].计算机应用与软件,2012,29(12):203-205. 被引量：3
5刘云龙,吉国力.基于CMAC网络Sarsa(λ)学习的RoboCup守门员策略[J].北京工业大学学报,2012,38(9):1348-1352.
6王学宁,贺汉根,徐昕.求解部分可观测马氏决策过程的强化学习算法[J].控制与决策,2004,19(11):1263-1266. 被引量：5
7苏治宝,陆际联,童亮.一种多移动机器人协作围捕策略[J].北京理工大学学报,2004,24(5):403-406. 被引量：23
8李静静.基于模糊K均值聚类和Sarsa(λ)算法的自适应爬壁机器人路径规划[J].计算机测量与控制,2014,22(9):2879-2881. 被引量：2
9薛丽华,殷苌茗,李立云,胡明辉.基于多智能体的融合Sarsa(λ)学习算法[J].计算机工程与应用,2008,44(4):182-183. 被引量：2
10陈焕文,谢建平,谢丽娟.一个因素化SARSA(λ)激励学习算法[J].计算机研究与发展,2001,38(1):88-92. 被引量：8

计算机工程

2003年第5期

浏览历史

内容加载中请稍等...

一种基于状态聚类的SARSA(λ)强化学习算法被引量：3

参考文献6

同被引文献31

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于状态聚类的SARSA(λ)强化学习算法 被引量：3

参考文献6

同被引文献31

引证文献3

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

一种基于状态聚类的SARSA(λ)强化学习算法被引量：3