基于状态-动作图测地高斯基的策略迭代强化学习被引量：5

Policy Iteration Reinforcement Learning Based on Geodesic Gaussian Basis Defined on State-action Graph

下载PDF

导出

摘要在策略迭代强化学习中,基函数构造是影响动作值函数逼近精度的一个重要因素.为了给动作值函数逼近提供合适的基函数,提出一种基于状态-动作图测地高斯基的策略迭代强化学习方法.首先,根据离策略方法建立马尔可夫决策过程的状态-动作图论描述;然后,在状态-动作图上定义测地高斯核函数,利用基于近似线性相关的核稀疏方法自动选择测地高斯核的中心;最后,在策略评估阶段利用基于状态-动作图的测地高斯核逼近动作值函数,并基于估计的值函数进行策略改进.10×10格子世界的仿真结果表明,与基于状态图普通高斯基和测地高斯基的策略迭代强化学习方法相比,本文所提方法能以较少的基函数、高精度地逼近具有光滑且不连续特性的动作值函数,从而有效地获得最优策略. For policy iteration reinforcement learning methods,the construction of basis functions is an important factor of influencing the accuracy of action-value function approximation.In order to construct appropriate basis functions for the action-value function approximation,a policy iteration reinforcement learning method based on geodesic Gaussian basis defined on state-action graph is proposed.At first,a state-action graph for a Markov decision process is constructed according to an off-policy method.Secondly,geodesic Gaussian kernel functions are defined on the state-action graph and a kernel sparsification approach based on approximate linear dependency is used to automatically select centers of the geodesic Gaussian kernels.At last,the geodesic Gaussian kernels based on the state-action graph is used to approximate the action-value function during the process of policy evaluation,and then the policy is improved based on the estimated action-value function.Simulation results concerning a 10 × 10 grid-world illustrate that the proposed method can accurately approximate the action-value function having smoothness and discontinuity properties with less basis functions as compared with the policy iteration reinforcement learning methods based on either ordinary Gaussian basis or geodesic Gaussian basis defined on a state graph,which is helpful for obtaining an optimal policy effectively.

作者程玉虎冯涣婷王雪松

机构地区中国矿业大学信息与电气工程学院

出处《自动化学报》 EI CSCD 北大核心 2011年第1期44-51,共8页 Acta Automatica Sinica

基金国家自然科学基金(60804022 60974050 61072094) 教育部新世纪优秀人才支持计划(NCET-08-0836) 霍英东教育基金会青年教师基金(121066) 江苏省自然科学基金(BK2008126)资助~~

关键词状态-动作图测地高斯核基函数策略迭代强化学习 State-action graph geodesic Gaussian kernel basis function policy iteration reinforcement learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：258
2Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge: The MIT Press, 1998.
3Wang X S, Cheng Y H, Yi J Q. A fuzzy ActorCritic reinforcement learning network. Information Sciences, 2007, 177(18): 3764-3781.
4王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
5赵冬斌,刘德荣,易建强.基于自适应动态规划的城市交通信号优化控制方法综述[J].自动化学报,2009,35(6):676-681. 被引量：39
6Xu X, Hu D W, Lu X C. Kernel-based least squares policy iteration for reinforcement learning. IEEE Transactions on Neural Networks, 2007, 18(4): 973-992.
7Lagoudakis M G, Parr R. Least-squares policy iteration. Journal of Machine Learning Research, 2003, 4:1107-1149.
8Konidaris G, Osentoski S. Value Function Approximation in Reinforcement Learning Using the Fourier Basis, Technical Report UM-CS-2008-19, Department of Computer Science, University of Massachusetts Amherst, USA, 2008.
9Mahadevan S, Maggioni M. Value function approximation with diffusion wavelets and Laplacian eigenfunctions. In: Proceedings of the Advances in Neural Information Processing Systems 18. Cambridge, USA: The MIT Press, 2006. 843-850.
10Sugiyama M, Hachiya H, Towell C, Vijayakumar S. Value function approximation on non-linear manifolds for robot motor control. In: Proceedings of the IEEE International Conference on Robotics and Automation. Rome, Italy: IEEE. 2007. 1733-1740.

二级参考文献25

1DerongLiu.Approximate Dynamic Programming for Self-Learning Control[J].自动化学报,2005,31(1):13-18. 被引量：14
2高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
3郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
4Suykens J A K, Vandewale J. Least squares support vector machine classifiers. Neural Processing Letters, 1999, 9(3): 293-300.
5Watkins C J C H, Dayan P. Q-learning. Machine Learning, 1992, 8(3-4): 279-292.
6Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: a survey. Journal of Artificial Intelligence Research, 1996, 4(2): 237-285.
7Kyriakos M, Dimitris P. Continuous nearest neighbor queries over sliding windows. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(6): 789-803.
8Wang X S, Tian X L, Cheng Y H. Value approximation with least squares support vector machine in reinforcement learning system. Journal of Computational and Theoretical Nanoscience, 2007, 4(7-8): 1290-1294.
9Sutton R S, Barto A G. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 1998.
10Conn K, Peters R A. Reinforcement learning with a supervisor for a mobile robot in a real-world environment. In: Proceedings of the IEEE International Symposium on Computational Intelligence in Robotics and Automation. Piscataway, USA: IEEE, 2007. 73-78.

共引文献362

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：6
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93.
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7陈学松,杨宜民.基于蚁群优化的模糊Sarsa学习算法[J].华中科技大学学报（自然科学版）,2011,39(S2):340-343.
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9余晓容,杨晓东,申长雨.曲面上任意两点的近似最短路径算法研究[J].中国图象图形学报,2005,10(7):900-904. 被引量：5
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

同被引文献29

1刘蓉,吕震中.基于T-S模糊模型的球磨机负荷控制系统[J].电力自动化设备,2007,27(3):17-20. 被引量：10
2王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
3冯志刚,方昌华,刘彦.基于卡尔曼滤波的水翼艇纵向运动研究[J].舰船科学技术,2007,29(3):28-32. 被引量：3
4王雪松,田西兰,程玉虎,易建强.基于协同最小二乘支持向量机的Q学习[J].自动化学报,2009,35(2):214-219. 被引量：20
5赵冬斌,刘德荣,易建强.基于自适应动态规划的城市交通信号优化控制方法综述[J].自动化学报,2009,35(6):676-681. 被引量：39
6张显库.水翼艇纵向运动多变量鲁棒控制[J].中国造船,2009,50(4):203-207. 被引量：6
7唐昊,万海峰,韩江洪,周雷.基于多Agent强化学习的多站点CSPS系统的协作Look-ahead控制[J].自动化学报,2010,36(2):289-296. 被引量：8
8陈学松,杨宜民.强化学习研究综述[J].计算机应用研究,2010,27(8):2834-2838. 被引量：59
9颜文旭,纪志成.三相有源电力滤波器的T-S模糊建模与控制[J].电机与控制学报,2010,14(11):92-99. 被引量：11
10闵华清,曾嘉安,罗荣华,朱金辉.一种状态自动划分的模糊小脑模型关节控制器值函数拟合方法[J].控制理论与应用,2011,28(2):256-260. 被引量：3

引证文献5

1程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
2陈鑫,魏海军,吴敏,曹卫华.基于高斯回归的连续空间多智能体跟踪学习[J].自动化学报,2013,39(12):2021-2031. 被引量：2
3季挺,张华.基于状态聚类的非参数化近似广义策略迭代增强学习算法[J].控制与决策,2017,32(12):2153-2161. 被引量：1
4陈虹丽,李强,宋景慧.水翼双体船纵向姿态鲁棒估计的仿真实验研究[J].实验室科学,2018,21(1):93-98.
5司彦娜,普杰信,孙力帆.近似强化学习算法研究综述[J].计算机工程与应用,2022,58(8):33-44. 被引量：4

二级引证文献10

1衷路生,李兵,龚锦红,张永贤,祝振敏.高速列车非线性模型的极大似然辨识[J].自动化学报,2014,40(12):2950-2958. 被引量：25
2王国芳,方舟,李平.基于批量递归最小二乘的自然Actor-Critic算法[J].浙江大学学报（工学版）,2015,49(7):1335-1342. 被引量：3
3刘禹,李培,盛骥松.一种基于期望最大化的多目标轨迹拟合算法[J].舰船电子对抗,2020,43(6):65-68. 被引量：1
4蒲志强,易建强,刘振,丘腾海,孙金林,李非墨.知识和数据协同驱动的群体智能决策方法研究综述[J].自动化学报,2022,48(3):627-643. 被引量：18
5司彦娜,普杰信,孙力帆.近似强化学习算法研究综述[J].计算机工程与应用,2022,58(8):33-44. 被引量：4
6刘孙相与,李贵涛,詹亚锋,高鹏.基于多阶运动参量的四旋翼无人机识别方法[J].自动化学报,2022,48(6):1429-1447. 被引量：2
7蒋美英,郑山红.基于深度强化学习TD3算法的投资组合管理[J].信息技术与信息化,2022(9):177-180.
8赵若涵,温树峰,王甜甜,陈泱吟.基于强化学习的电力通信网路由配置优化方法[J].通信电源技术,2023,40(23):97-99.
9宋丽君,周紫瑜,李云龙,侯佳杰,何星.改进Q-Learning的路径规划算法研究[J].小型微型计算机系统,2024,45(4):823-829.
10吕林黛,赵胜利,沈心雨,但晨,汪欣.基于机器学习进行智能投资组合优化[J].计算机科学与应用,2023,13(3):349-357.

1倪胜巧,唐常杰,杨宁,左劼.基于多线程评估的基因表达式编程算法[J].计算机应用,2012,32(4):986-989. 被引量：4
2王爱军.网络购物系统中交互设计的缺陷研究[J].佛山科学技术学院学报（自然科学版）,2013,31(3):48-54. 被引量：1
3盛小伟.论剩余电流火灾报警系统动作值[J].电气应用,2014,0(14):93-96.
4汪昌元.基于Android系统的主变差动保护装置调试软件研究及应用[J].科技资讯,2015,13(23):12-13.
5牟彬.ERP系统实施风险指标浅析[J].计算机光盘软件与应用,2014,17(19):145-146.
6风河VxWorks MILS 2实施通用EAL6+/NSA高可靠性标准认证[J].电信工程技术与标准化,2008,21(7):83-83.
7吴宏涛,黄昭婷.DCI再次发布《数字影院系统规范》1.2版的勘误表草案[J].现代电影技术,2009(6):60-60.
8柯小谦.网购产品交互与用户行为探析[J].品牌,2014(4):77-77.
9李新磊.基于依赖型任务和Sarsa(λ)算法的云计算任务调度[J].计算机测量与控制,2015,23(8):2809-2812. 被引量：1
10马强.IT:习惯性裁员?[J].电子商务,2006,7(7):14-15. 被引量：1

自动化学报

2011年第1期

浏览历史

内容加载中请稍等...

基于状态-动作图测地高斯基的策略迭代强化学习被引量：5

参考文献14

二级参考文献25

共引文献362

同被引文献29

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于状态-动作图测地高斯基的策略迭代强化学习 被引量：5

参考文献14

二级参考文献25

共引文献362

同被引文献29

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于状态-动作图测地高斯基的策略迭代强化学习被引量：5