基于协同最小二乘支持向量机的Q学习被引量：20

Q-learning System Based on Cooperative Least Squares Support Vector Machine

下载PDF

导出

摘要针对强化学习系统收敛速度慢的问题,提出一种适用于连续状态、离散动作空间的基于协同最小二乘支持向量机的Q学习.该Q学习系统由一个最小二乘支持向量回归机(Least squares support vector regression machine,LS-SVRM)和一个最小二乘支持向量分类机(Least squares support vector classification machine,LS-SVCM)构成.LS-SVRM用于逼近状态-动作对到值函数的映射,LS-SVCM则用于逼近连续状态空间到离散动作空间的映射,并为LS-SVRM提供实时、动态的知识或建议(建议动作值)以促进值函数的学习.小车爬山最短时间控制仿真结果表明,与基于单一LS-SVRM的Q学习系统相比,该方法加快了系统的学习收敛速度,具有较好的学习性能. In order to solve the problem of slow convergence speed in reinforcement learning systems, a Q learning system based on a cooperative least squares support vector machine for continuous state space and discrete action space is proposed. The proposed Q learning system is composed of a least squares support vector regression machine （LS-SVRM） and a least squares support vector classification machine （LS-SVCM）. The LS-SVRM is used to approximate a mapping from a stateaction pair to a value function, and the LS-SVCM is used to approximate a mapping from a continuous state space to a discrete action space. In acldition, the LS-SVCM supplies the LS-SVRM with dynamic and real-time knowledge or advice （suggested action） to accelerate its learning process. Simulation studies involving a mountain car control illustrate that compared with a Q learning system based on a single LS-SVRM, the proposed Q learning system has a faster convergence speed and a better learning performance.

作者王雪松田西兰程玉虎易建强

机构地区中国矿业大学信息与电气工程学院中国科学院自动化研究所

出处《自动化学报》 EI CSCD 北大核心 2009年第2期214-219,共6页 Acta Automatica Sinica

基金国家自然科学基金(60804022) 高等学校博士学科点专项科研基金(20070290537，200802901506) 国家博士后科学基金(20070411064) 江苏省自然科学基金(BK2008126) 江苏省博士后科学基金(0601033B)资助~~

关键词强化学习 Q学习协同最小二乘支持向量机映射 Reinforcement learning, Q learning, cooperative, least squares support vector machine （LS-SVM）, mapping

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献19

1Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 1998.
2Conn K, Peters R A. Reinforcement learning with a supervisor for a mobile robot in a real-world environment. In: Proceedings of the IEEE International Symposium on Computational Intelligence in Robotics and Automation. Piscataway, USA: IEEE, 2007. 73-78.
3Syafiie S, Tadeo F, Martinez E. Model-free learning control of neutralization processes using reinforcement learning. Engineering Applications of Artificial Intelligence, 2007, 20 (6): 767- 782.
4孙晟,王世进,奚立峰.基于强化学习的模式驱动调度系统研究[J].计算机集成制造系统,2007,13(9):1795-1800. 被引量：3
5Wang X S, Cheng Y H, Yi J Q. A fuzzy actor-critic reinforcement learning network. Information Sciences, 2007, 177(18): 3764 - 3781.
6高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
7Goto R, Matsuo H. State generalization method with support vector machines in reinforcement learning. Systems and Computers in Japan, 2006, 37(9): 77-86.
8Mangasaxian O L, Shavlik J W, Wild E W. Knowledge-based kernel approximation. The Journal of Machine Learning Research, 2004, 5:1127-1141.
9Maclin R, Shavlik J, Torrey L, Walker T, Wildz E. Giving advice about preferred actions to reinforcement learners via knowledge-based kernel regression. In: Proceedings of the 20th National Conference on Artificial Intelligence. Pittsburgh, USA: AAAI Press, 2005. 819-824.
10Maclin R, Shavlik J, Walker T, Torrey L. Knowledge-based support-vector regression for reinforcement learning. In: Proceedings of the IJCAI'05 Workshop on Reasoning, Representation, and Learning in Computer Games. Edinburgh, Scotland: IJCAI, 2005. 1-6.

二级参考文献35

1Y Sakai, K Kurosawa. Develop of elevator supervisory group control system with artificial intelligence[ J] .Hitachi Review, 1984,33:25 - 30.
2M L Siikonen. Elevator traffic simulafion[J]. Simulation, 1993, 61 : 257 - 267.
3H Ujihara,S Tsuji. The revolutionary AI-2100 elevator-group control system and the new intelligent option series [ J ]. Mitsubishi Electric Advance, 1988,45: 5 - 8.
4H Ujihara, M Amano. The latest elevator group-control system [J]. Mitsubishi Electric Advance, 1994,67:10 - 12.
5Cdtes R H, Barto A G. Elevator group control using multiple reinforcement learning agents[ J ]. Machine Learning, 1998, 33 (2) :235 - 262.
6Kaelbling L P, Littlnan M L, Moore A W. Reinforcement learning: a survey [ J ]. Journal of Artificial Intelligence Research,1996,4:237 - 285.
7R S Sutlon and A G Barto. Reinforcement Learning[M] .Cambridge,MA: MIT Press, 1998.
8Rich S Sutton.Generalization in reinforcement learning: successful exan~es using sparse coarse coding[A] .D Touretzky ,M Mozer,M Hasselmo,Advances in Neural Infonmation Processing Systems 8[C].New York:MIT Press, 1996.1038- 1044.
9Albus J S.A new approach to manipulator control: The cere-bellar model articulation controller(cmac) [ J ]. Jounlal of Dynamic Systems, Measurement, and Control, 1975,97 (3) : 220- 227.
10Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:A survey.Journal of Artificial Intelligence Research,1996,4(2):237～285

共引文献287

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7刘卫朋,邢关生,孙鹤旭,张慧.一种递归神经网络的学习型电梯群控派梯算法[J].河北工业大学学报,2013,42(3):7-13. 被引量：3
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

同被引文献278

1黎萍,杨宜民,练家乐.基于效用函数的多机器人系统任务分配[J].计算机应用研究,2009,26(2):537-539. 被引量：3
2Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
3黄令龙,郭阳宽,蒋培军,李晟,李庆祥,陈张玮.高精密伺服转台控制系统的设计[J].清华大学学报（自然科学版）,2004,44(8):1054-1056. 被引量：32
4殷国富,罗阳,龙红能,成尔京.并行设计子任务调度的遗传算法原理与实现方法[J].计算机辅助设计与图形学学报,2004,16(8):1122-1126. 被引量：25
5杨洋,陈小平.动态不确定环境下的决策:一种分层决策模型[J].计算机科学,2005,32(1):151-154. 被引量：1
6段凡丁.关于最短路径的SPFA快速算法[J].西南交通大学学报,1994,29(2):207-212. 被引量：57
7冷晟,魏孝斌,王宁生.柔性工艺路线蚁群优化单元作业调度[J].机械科学与技术,2005,24(11):1268-1271. 被引量：5
8苏畅,高阳,陈世福,陈兆乾.基于SMDP环境的自主生成options算法的研究[J].模式识别与人工智能,2005,18(6):679-684. 被引量：9
9陈宗海,文锋,聂建斌,吴晓曙.基于节点生长k-均值聚类算法的强化学习方法[J].计算机研究与发展,2006,43(4):661-666. 被引量：13
10张晓杰,孟庆春,曲卫芬.基于蚁群优化算法的服务网格的作业调度[J].计算机工程,2006,32(8):216-218. 被引量：17

引证文献20

1陈学松,杨宜民.基于蚁群优化的模糊Sarsa学习算法[J].华中科技大学学报（自然科学版）,2011,39(S2):340-343.
2陈学松,杨宜民.基于递推最小二乘法的多步时序差分学习算法[J].计算机工程与应用,2010,46(8):52-55. 被引量：5
3赵昀,陈庆伟,胡维礼.一种基于信息熵的强化学习算法[J].系统工程与电子技术,2010,32(5):1043-1046. 被引量：4
4刘博,雷汝海.异质Agent间的知识迁移强化学习[J].中国科技论文在线,2010,5(2):120-123. 被引量：1
5陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：61
6程玉虎,冯涣婷,王雪松.基于状态-动作图测地高斯基的策略迭代强化学习[J].自动化学报,2011,37(1):44-51. 被引量：6
7程建军,胡成松.基于改进模拟退火任务调度算法研究[J].计算机仿真,2011,28(12):212-214. 被引量：3
8程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
9刘晓平,杜琳,石慧.基于Q学习的任务调度问题的改进研究[J].图学学报,2012,33(3):11-16. 被引量：3
10朱美强,程玉虎,李明,王雪松,冯涣婷.一类基于谱方法的强化学习混合迁移算法[J].自动化学报,2012,38(11):1765-1776. 被引量：10

二级引证文献125

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2李小强,杨凯,代龙飞,夏炜豪,蔡正鑫.冷轧连退机组中央段自动控制系统开发[J].冶金自动化,2023,47(S01):121-124.
3姜涛,周艳平.混合文化优化算法及在车间调度中的应用[J].计算机系统应用,2022,31(12):329-334. 被引量：1
4张雨.基于马尔科夫过程状态转移矩阵的桥梁结构技术状态预测方法研究[J].四川水泥,2023(3):212-214. 被引量：1
5雷以良,严承华,陈璐.基于改进K-means算法的网络安全设备故障案例推理研究[J].计算机应用研究,2020,37(S02):110-112. 被引量：3
6丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
7杨娅.信息科技在知识迁移过程中的角色定位[J].河南图书馆学刊,2011,31(5):105-106.
8程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
9顾新锋,何友,简涛,郝晓琳.基于修正熵的距离扩展目标检测器[J].系统工程与电子技术,2012,34(6):1136-1139. 被引量：2
10胡健.基于Q学习的无线传感器网络路由协议[J].计算机与现代化,2013(3):131-134.

1GAO Yang, WANG Xuesong, CHENG Yuhu, PAN Jie School of Information and Electrical Engineering, China University of Mining & Technology, Xuzhou 221116, China.Fault diagnosis using a probability least squares support vector classification machine[J].Mining Science and Technology,2010,20(6):917-921. 被引量：4
2李伟,何雪松,叶庆泰,朱昌明.基于先验知识的强化学习系统[J].上海交通大学学报,2004,38(8):1362-1365. 被引量：5
3Hua-juan HUANG,Shi-fei DING,Zhong-zhi SHI.Primal least squares twin support vector regression[J].Journal of Zhejiang University-Science C(Computers and Electronics),2013,14(9):722-732. 被引量：5
4张汝波,顾国昌,张国印.强化学习系统的结构及算法[J].计算机科学,1999,26(10):53-56. 被引量：2
5王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
6马莉,蔡自兴.基于强化学习的模糊自适应控制器[J].中南工业大学学报,1998,29(2):172-175. 被引量：1
7黄琴,陈虹,靳召东.最小二乘支持向量机在空调温控系统中的应用[J].机械研究与应用,2011,24(5):124-126. 被引量：2
8CHENG Yuhu WANG Xuesong ZHANG Yiyang.A Bayesian Reinforcement Learning Algorithm Based on Abstract States for Elevator Group Scheduling Systems[J].Chinese Journal of Electronics,2010,19(3):394-398. 被引量：2
9盛小伟.论剩余电流火灾报警系统动作值[J].电气应用,2014,0(14):93-96.
10Runpeng Gao,Ye San.Improved adaptive pruning algorithm for least squares support vector regression[J].Journal of Systems Engineering and Electronics,2012,23(3):438-444. 被引量：4

自动化学报

2009年第2期

浏览历史

内容加载中请稍等...

基于协同最小二乘支持向量机的Q学习被引量：20

参考文献19

二级参考文献35

共引文献287

同被引文献278

引证文献20

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

基于协同最小二乘支持向量机的Q学习 被引量：20

参考文献19

二级参考文献35

共引文献287

同被引文献278

引证文献20

二级引证文献125

相关作者

相关机构

相关主题

浏览历史

基于协同最小二乘支持向量机的Q学习被引量：20