基于分层强化学习的多移动机器人避障算法被引量：1

Obstacle avoidance of multi mobile robots based on hierarchical reinforcement learning

下载PDF

导出

摘要介绍了一种基于分层思想的强化学习方法,即将机器人的复杂行为分解为一系列简单的行为进行离线独立学习,并分别设计了每个层次的结构、参数及函数。这种学习方法能够减小状态空间并简化强化函数的设计,从而提高了学习的速率以及学习结果的准确性,并使学习过程实现了决策的逐步求精。最后以多机器人避障为任务模型,将避障问题分解为躲避静态和动态障碍物以及向目标点靠近3个子行为分别进行学习,实现了机器人的自适应行为融合,并利用仿真实验对其有效性进行了验证。 A reinforcement learning algorithm based on the idea of partition layer was proposed that decomposing the complicated problem into a series of simple portions to be learned independently.The structures,parameters and functions of every level were designed.This learning algorithm could reduce the status space and predigest the design of reinforcement functions so as to improve the learning speed and the veracity of learning results.Also,it could realize the accuracy of the learning process step by step.Finally,the method was used for adaptive action fusion of mobile robot in an 'obstacle avoidance' task by decomposing it into avoiding static and dynamic obstacle and closing to object actions.And its efficiency was shown by simulation results.

作者祖丽楠田彦涛梅昊

机构地区吉林大学通信工程学院

出处《吉林大学学报（工学版）》 EI CAS CSCD 北大核心 2006年第S2期108-112,共5页 Journal of Jilin University:Engineering and Technology Edition

基金吉林省科技发展计划重大项目(20050326)

关键词自动控制技术避障强化学习 Q-学习分层学习 automatic control technology obstacle avoidance reinforcement learning Q-learning multi-level learning

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献5

1宋梅萍,顾国昌,张汝波.移动机器人的自适应式行为融合方法[J].哈尔滨工程大学学报,2005,26(5):586-590. 被引量：5
2高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：268
3陈卫东,席裕庚,顾冬雷.自主机器人的强化学习研究进展[J].机器人,2001,23(4):379-384. 被引量：16
4Maja J. Matari?. Reinforcement Learning in the Multi-Robot Domain[J] 1997,Autonomous Robots(1):73～83
5Christopher J. C. H. Watkins,Peter Dayan. Q-learning[J] 1992,Machine Learning(3-4):279～292

二级参考文献14

1Lin L J，Proc AAAI'91，1991年，781页
2Lin L J，From Animals to Animates:Int Conference on Simulation of Adaptive Behavior，1991年
3MORENO D L. Using prior knowledge to improve reinforcement learning in mobile robotics[A]. Towards Autonomous Robotic Systems [C]. Colchester, UK, 2004.
4DIXON K, MALAK R, KNOSLA P. Incorporating prior knowledge and previously learned information into reinforcement learning agents [R].Carnegie Mellon University, Institute for Complex Engineered Systems, 2000.
5WATKINS C J, DAYAN P. Q-learning [J]. Machine Learning, 1992, 8(3-4): 279-292.
6TAN Ming. Multi-agent reinforcement learning: Independent vs. cooperative agents [A]. Proceedings of the Tenth International Conference on Machine Learning [C]. Amherst, MA, USA, 1993.
7LITTMAN M L. Friend-or-foe Q-learning in general-sum games [A]. Proceedings of the Eighteenth International Conference on Machine Learning [C]. Williamstown, MA, USA, 2001.
8KAELBLING L P, LITTMAN M L, MOORE A W. Reinforcement learning: a survey [J]. Journal of Artificial Intelligence Research, 1996, 4(2): 237-285.
9蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：19
10高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30

共引文献283

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8谢云,杨宜民.全自主机器人足球系统的研究综述[J].机器人,2004,26(5):474-480. 被引量：21
9李冬梅,陈卫东,席裕庚.基于强化学习的多机器人合作行为获取[J].上海交通大学学报,2005,39(8):1331-1335. 被引量：4
10卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5

同被引文献5

1沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
2沈晶,顾国昌,刘海波.分层强化学习中的Option自动生成算法[J].计算机工程与应用,2005,41(34):4-6. 被引量：5
3范雪莉,冯海泓,原猛.基于互信息的主成分分析特征选择算法[J].控制与决策,2013,28(6):915-919. 被引量：105
4刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：472
5李航,刘代金,刘禹.军事智能博弈对抗系统设计框架研究[J].火力与指挥控制,2020,45(9):116-121. 被引量：13

引证文献1

1魏竞毅,赖俊,陈希亮.基于互信息的智能博弈对抗分层强化学习研究[J].计算机技术与发展,2022,32(9):142-147.

吉林大学学报（工学版）

2006年第S2期

浏览历史

内容加载中请稍等...

基于分层强化学习的多移动机器人避障算法被引量：1

参考文献5

二级参考文献14

共引文献283

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分层强化学习的多移动机器人避障算法 被引量：1

参考文献5

二级参考文献14

共引文献283

同被引文献5

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于分层强化学习的多移动机器人避障算法被引量：1