动态环境中的分层强化学习被引量：5

Hierarchical reinforcement learning in dynamic environment

下载PDF

导出

摘要现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低. The existing reinforcement learning approaches cannot satisfactorily solve the learning problems in dynamic environment. The optimal strategy must be re-learned when environment changes. The learning algorithm cannot converge to optimal strategy if the interval between the changes is shorter than the duration of strategy converging. In this paper, a hierarchical reinforcement learning approach adapting to dynamic environments is presented based on the Option hierarchical reinforcement learning. According to the hierarchical characteristic of learning, the approach only takes into account the changes taking place in the sub-goal states of hierarchical tasks or the environment states of current Option. So the process of strategy update is limited in a small-scale local space or a low dimension high-level space. Consequently, the process of strategy update is accelerated. The experiments with shortest path planning in a two-dimensional dynamic grid space show that the presented approach is obviously faster than the existing approach in strategy update. Additionally the dependency of convergence of the learning algorithm on the frequency of environment change is reduced.

作者沈晶程晓北刘海波顾国昌张国印

机构地区哈尔滨工程大学计算机科学与技术学院

出处《控制理论与应用》 EI CAS CSCD 北大核心 2008年第1期71-74,共4页 Control Theory & Applications

基金中国博士后基金资助项目(20060400809) 哈尔滨工程大学基础研究基金资助项目(HEUFT07022 HEUFT05068 HEUFT05021)

关键词分层强化学习动态环境 OPTION 策略更新 hierarchical reinforcement learning dynamic environment Option strategy update

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：263
2EXCELENTE-TOLEDO C B, JENNINGS N R. Using reinforcement learning to coordinate better[J]. Computational Intelligence, 2005, 21(3): 217 - 245
3BARTO A G, MAHADEVAN S. Recent advances in hierarchical reinforcement learning[J]. Discrete Event Dynamic Systems: Theory and Applications, 2003, 13(4): 41 - 77.
4SUTTON R S, PRECUP D, SINGH S P. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1): 181 - 211.
5PARRR. Hierarchical control and learning for markov decision processes[D]. Berkeley: University of California, 1998.
6DIETTERICH T G. Hierarchical reinforcement learning with the MAXQ value function decomposition[J]. J of Artificial Intelligence Research, 2000, 13(1): 227 - 303.
7PRECUP D. Temporal abstraction in reinforcement learning[D]. Amherst: University of Massachusetts, 2000.
8DIGNEY B L. Learning hierarchical control structures for multiple tasks and changing environments[C]//From Animals to Animats 5: Proc of the Fifth Int Conference on Simulation of Adaptive Behavior. Cambridge: MIT Press, 1998:321 - 330.
9MCGOVERN A, BARTO A. Autonomous discovery of subgoals in reinforcement learning using diverse density[C]// Proceedings of the 8th Int Conf on Machine Learning. San Fransisco: Morgan Kaufmann, 2001:361 - 368.
10MENACHE I, MANNOR S, SHIMKIN N. Q-cut: dynamic discovery of sub-goals in reinforcement learning[C]// Proc of the 13th European Confon Machine Learning. New York: ACM Press, 2002:295 - 306.

二级参考文献4

1蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：19
2高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
3李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
4杨煜普,欧海涛.基于再励学习与遗传算法的交通信号自组织控制[J].自动化学报,2002,28(4):564-568. 被引量：12

共引文献262

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
9魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19
10沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7

同被引文献109

1Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
2陈春林,陈宗海,周光明.基于多智能体的自主移动机器人混合式体系结构[J].系统工程与电子技术,2004,26(11):1746-1748. 被引量：9
3于红斌,李孝安.基于栅格法的机器人快速路径规划[J].微电子学与计算机,2005,22(6):98-100. 被引量：63
4沈永欢梁在中.实用数学手册[M].北京:科学出版社,2004..
5Kaelbling L P,Littman M L,Moore A W.Reinforcement Learning:A Survey[J].Journal of Artificial Intelligence Research,1996,4(02):237-285.
6Sette S,Wyns B,Boullart L.Comparing Learning Classifier Systems and Genetic Programming A Case Study[J].Engineering Application of Artificial Intelligence,2004(17):199-204.
7Holland J H. A mathematical frame work for studying learning in classifier systems [ M]. Mstardom: North - Holland, 1986 : 307 - 317.
8Dorigo M, Colombetti M. Robot shaping: an experiment in behavior engineering cambridge[M]. Boston: The MIT Press, 1998.
9MURRAY R M,ASTROM K M,BODY S P,et al.Future directions in control in an information-rich world[J].IEEE Control Systems Magazine,2003,23 (2):20-23.
10WIERING M,OTTERLO M V.Reinforcement learning state-of-the-art[M].Berlin:Springer-Verlag,2012:3-42.

引证文献5

1邵杰,杨静宇,杜丽娟.基于改进学习分类器的多机器人混合分层体系结构[J].南阳理工学院学报,2009,1(3):21-24. 被引量：2
2邵杰,杜丽娟,杨静宇.基于ILCS的多机器人强化学习策略[J].通信技术,2010,43(4):220-222.
3邵杰,杨静宇.基于LCS的多机器人路径规划控制体系结构[J].微电子学与计算机,2010,27(11):128-131. 被引量：1
4马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
5邵杰,杜丽娟,林海霞.基于LCS和LS-SVM的多机器人强化学习[J].人工智能与机器人研究,2013,2(1):24-28. 被引量：1

二级引证文献17

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：10
2肖国宝,严宣辉.一种新型协作多机器人路径规划算法[J].计算机科学,2013,40(4):217-220. 被引量：7
3渠国庆,熊峰,李军世,牛倩.基于多Agent可重构装配系统结构研究[J].工业控制计算机,2016,29(7):135-136.
4王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
5张衡.基于蚁群算法的多农业机器人路径规划研究[J].数字技术与应用,2017,35(6):147-149. 被引量：10
6张璐,王慧.基于蚁群算法的多采摘机器人路径规划与导航系统[J].农机化研究,2018,40(11):227-231. 被引量：11
7薛天.深度强化学习原理及其在机器人运动控制中的运用[J].通讯世界,2018,25(8):240-241. 被引量：3
8张文旭,马磊,贺荟霖,王晓东.强化学习的地–空异构多智能体协作覆盖研究[J].智能系统学报,2018,13(2):202-207. 被引量：7
9殷国栋,朱侗,任祖平,李广民,金贤建.基于多Agent的电动汽车底盘智能控制系统框架[J].中国机械工程,2018,29(15):1796-1801. 被引量：8
10武子睿.浅析人工智能主要技术方向以及在智能机器人上的应用[J].电子制作,2018,26(20):36-38.

1李生金,蒲宝明,贺宝岳,王维维.基于图像块的滞留物/移取物的检测方法[J].小型微型计算机系统,2014,35(1):142-147.
2林素青.支持策略更新的外包属性加密[J].网络与信息安全学报,2016,2(5):39-49.
3岑雄鹰,李纲.网格技术模式下电子商务的应用研究[J].信息技术,2005,29(8):149-151. 被引量：5
4吴光强.适合云存储的访问策略可更新多中心CP-ABE方案[J].计算机研究与发展,2016,53(10):2393-2399. 被引量：6
5王茂森,朱燕生,符涛涛,施建国.基于ARM的某型八足机器人控制系统设计[J].计算机测量与控制,2013,21(4):942-944. 被引量：1
6姜亚莉.基于符号推理的图像连通性分析[J].北京师范大学学报（自然科学版）,2012,48(2):205-209.
7沈晶,顾国昌,刘海波.分层强化学习中的动态分层方法研究[J].小型微型计算机系统,2007,28(2):287-291. 被引量：1
8LSBL.VEGAS 4.0初级入门教程(2)——采集视频素材[J].数字世界,2003(4):74-75. 被引量：1
9dream.打回原形 Win7怪异操作快速上手[J].电脑爱好者,2010(3):11-11.
10申玉英.浅谈如何提高职业中学计算机教学质量[J].新课程学习,2013(11):125-125.

控制理论与应用

2008年第1期

浏览历史

内容加载中请稍等...

动态环境中的分层强化学习被引量：5

参考文献11

二级参考文献4

共引文献262

同被引文献109

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

动态环境中的分层强化学习 被引量：5

参考文献11

二级参考文献4

共引文献262

同被引文献109

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

动态环境中的分层强化学习被引量：5