未知动态环境中基于分层强化学习的移动机器人路径规划被引量：15

Mobile Robot Path Planning Based on Hierarchical Reinforcement Learning in Unknown Dynamic Environment

下载PDF

导出

摘要提出了一种基于分层强化学习的移动机器人路径规划算法.该算法利用强化学习方法的无环境模型学习能力以及分层强化学习方法的局部策略更新能力,克服了路径规划方法对全局环境的静态信息或动态障碍物的运动信息的依赖性.仿真实验结果表明了算法的可行性,尽管在规划速度上没有明显的优势,但其应对未知动态环境的学习能力是现有其它方法无法比拟的. A path-planning algorithm based on hierarchical reinforcement learning is presented. Since the reinforcement learning approach is introduced, the algorithm is provided with the capability of learning without environment model. The hierarchical reinforcement learning method is mainly employed for updating local strategies. So, this algorithm can eliminate its dependence on the static information of the global environment or the moving information of the dynamic obstacles. Simulation experiment shows the feasibility of the algorithm. Although there is no obvious advantage in planning speed, the learning ability of the algorithm in unknown dynamic environment is unique.

作者沈晶顾国昌刘海波

机构地区哈尔滨工程大学计算机科学与技术学院

出处《机器人》 EI CSCD 北大核心 2006年第5期544-547,552,共5页 Robot

基金国防基础研究计划资助项目哈尔滨工程大学基础研究基金资助项目(HEUFT05068 HEUFT05021)

关键词移动机器人未知动态环境路径规划分层强化学习 mobile robot unknown dynamic environment path planning hierarchical reinforcement learning

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献25

1Lozano-Perez T, Wesley M A. An algorithm for planning collision-free paths among polyhedral obstacles [ J ]. Communications of the ACM, 1979, 22(10) : 560 -570.
2Khatib O. Real-time obstacle avoidance for robot manipulator and mobile robots[J]. The International Journal of Robotics Research,1986, 5(1) : 90 -98.
3Wang C-M, Soh Y C, Wang H, et al. A hierarchical genetic algorithm for path planning in a static environment with obstacles[ A].Proceedings of the 2002 IEEE Canadian Conference on Electrical and Computer Engineering [ C ]. Piscataway, USA : IEEE, 2002.1652 - 1657.
4D'Amico A, Ippoliti G, Longhi S A. Radial basis function networks approach for the tracking problem of mobile robots [ A ]. Proceedings of the IEEE/ASME International Conference on Advanced Intelligent Mechatronics[ C]. Piscataway, USA: IEEE, 2001. 498 -503.
5Bruce J, Veloso M. Real-time randomized path planning for robot navigation[A]. Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems [ C ]. Piscataway, USA :IEEE, 2002. 2383 - 2388.
6张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
7张纯刚,席裕庚.全局环境未知时基于滚动窗口的机器人路径规划[J].中国科学（E辑）,2001,31(1):51-58. 被引量：77
8席裕庚,张纯刚.一类动态不确定环境下机器人的滚动路径规划[J].自动化学报,2002,28(2):161-175. 被引量：93
9朱庆保.动态复杂环境下的机器人路径规划蚂蚁预测算法[J].计算机学报,2005,28(11):1898-1906. 被引量：50
10朴松昊,洪炳熔.一种动态环境下移动机器人的路径规划方法[J].机器人,2003,25(1):18-21. 被引量：41

二级参考文献43

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
2孙增圻等.智能控制理论与技术[M].北京：清华大学出版社,..
3[3]P Fiorini, Z Shiller. Robot motion planning in dynamic environments. In: G Girald, G Hirzinger. International?Symposium of Robotic Research. Munich, Germany: Springer-Verlag, October 1995,237-248
4[4]Th Fraichard, C Laugier, G Lievin. Robot motion planning-the case of non-holonomic mobiles in a dynamic world. In: Proc of the IEEE/RSJ Int Workshop on Intelligent Robots and Systems Japan, July 1990, 757-764
5[5]Jaydev P Desai. Motion Planning and Control of Cooperative Robotic Systems [PhD thesis]. University of Pennsylvania, October,1998
6[6]Christopher M Clark, Stephen Rock. Randomized motion planning for groups of nonholonomic robots. In: Proceedings of the 6th International Symposium on Artificial Intelligence, Robotics, and Automation in Space Canada, June 2001
7[7]Th Fraichard, Y Demazeau. Motion Planning in a Multi-Agent World. In: Y. Demazeau J P Muller. Decentralized AI: Proceedings of the First 22 European Workshop on Modeling Autonomous Agents in a Multi-Agent World. Amsterdam, The Netherlands: Elsevier Science, 1990,137-153
8Borenstein J, Koren Y. The vector field histogram - fast obstacle avoidance for mobile robots[ J]. IEEE Journal of Robotics and Automation ,1991,7(3) : 278 -288.
9Kehtaraavaz N, Grisworld, Lee J. Visual control for an autonomous vehicle(BART) -the vehicle following problem[J]. IEEE Transcation on Vehicular Technology. 1991,40(3) :654 -662.
10Fujimori A, Nikiforuk P N, Gupta M M. Adaptive navigation of mobile robots with obstacle avoidance[ J]. IEEE Transcations On Robotics and Automation. 1997,13(4) :596 -601.

共引文献324

1闫利利,严德昆,吴利波.人工免疫算法在机器人路径规划中的应用[J].计算机与数字工程,2007,35(7):18-20. 被引量：1
2杜军君,席裕庚.一种改进的机器人滚动路径规划算法[J].控制工程,2006,13(S1):183-186. 被引量：1
3于魁龙,贾小平,曹有辉,朱大力.基于混合算法的局部路径规划[J].装甲兵工程学院学报,2008,22(2):43-45. 被引量：6
4朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
5席裕庚.注重控制科学的方法论研究[J].自动化学报,2002,28(S1):85-91. 被引量：4
6刘奎,张赤斌,易红.在未知环境下完全遍历算法——等单元分解法[J].系统仿真技术,2005,1(3):136-140. 被引量：2
7曾佳,李菁菁.面向复杂环境的移动机器人在线路径规划[J].上海电气技术,2009,2(1):32-35.
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9刘春阳,程亿强,柳长安.基于改进势场法的移动机器人避障路径规划[J].东南大学学报（自然科学版）,2009,39(S1):116-120. 被引量：11
10刘晓红,温兆麟,陈定方.遗传算法在行为建模路径规划中的应用[J].机电产品开发与创新,2004,17(4):59-61. 被引量：1

同被引文献145

1顾国昌,付岩,刘海波.基于遗传模拟退火算法的水下机器人路径规划[J].哈尔滨工程大学学报,2005,26(1):84-87. 被引量：11
2石鸿雁,孙昌志.一种基于混沌优化算法的机器人路径规划方法[J].机器人,2005,27(2):152-157. 被引量：14
3冯正平.国外自治水下机器人发展现状综述[J].鱼雷技术,2005,13(1):5-9. 被引量：53
4李智也.移动机器人路径规划问题的解决方案[J].计算机工程,2006,32(1):189-192. 被引量：10
5蔡自兴,郑敏捷,邹小兵.基于激光雷达的移动机器人实时避障策略[J].中南大学学报（自然科学版）,2006,37(2):324-329. 被引量：25
6王文学,王强,孙萍.卡尔曼滤波在机器人足球比赛系统中的应用[J].机器人,2006,28(4):410-414. 被引量：11
7常钢,魏生民,张建龙.基于有向图的站坪控制仿真建模技术研究[J].航空计算技术,2006,36(3):108-110. 被引量：1
8王科俊,徐晶,王磊,张燕.基于可拓遗传算法的机器人路径规划[J].哈尔滨工业大学学报,2006,38(7):1135-1138. 被引量：10
9肖本贤,齐东流,刘海霞,李善寿.动态环境中基于模糊神经网络的AGV路径规划[J].系统仿真学报,2006,18(9):2401-2404. 被引量：22
10张建英,赵志萍,刘暾.基于人工势场法的机器人路径规划[J].哈尔滨工业大学学报,2006,38(8):1306-1309. 被引量：83

引证文献15

1王萌,王晓荣,李春贵,张增芳.改进人工势场法的移动机器人路径规划研究[J].计算机工程与设计,2008,29(6):1504-1506. 被引量：35
2弋英民,刘丁.动态环境下基于路径规划的机器人同步定位与地图构建[J].机器人,2010,32(1):83-90. 被引量：15
3赵昀,陈庆伟,胡维礼.一种基于信息熵的强化学习算法[J].系统工程与电子技术,2010,32(5):1043-1046. 被引量：4
4刘付民.基于路径预测的机器人足球路径规划[J].计算机工程与设计,2012,33(1):341-345. 被引量：3
5赵昀,陈庆伟,胡维礼.基于状态敏感度的移动机器人路径规划[J].南京理工大学学报,2012,36(1):7-11.
6刘洋,章卫国,李广文,史静平.动态环境中的无人机路径规划方法[J].北京航空航天大学学报,2014,40(2):252-256. 被引量：7
7陈彦杰,王耀南,钟杭,缪志强.动态环境中服务机器人的改进型地图学习规划[J].控制理论与应用,2015,32(2):162-168. 被引量：3
8朱斐,许志鹏,刘全,伏玉琛,王辉.基于可中断Option的在线分层强化学习方法[J].通信学报,2016,37(6):65-74. 被引量：4
9邵俊恺,赵翾,杨珏,张文明,康翌婷,赵鑫鑫.无人驾驶铰接式车辆强化学习路径跟踪控制算法[J].农业机械学报,2017,48(3):376-382. 被引量：32
10孙艺彬,杨慧珍.基于定向约束的脉冲耦合神经网络路径规划[J].计算机科学,2019,46(S11):28-32. 被引量：4

二级引证文献153

1郭泉成.智能车避障路径规划建模方法概述[J].电子元器件与信息技术,2022,6(8):101-105.
2高双,柳春平,张瞳,陈坤.可行状态包络下欠驱动水面船全时可跟踪轨迹规划方法[J].船舶工程,2022,44(S01):459-466.
3戴圣伟,王随平,罗飞.基于深海采矿车的避障规划模糊控制器的研究[J].湖南工业大学学报,2009,23(1):79-82. 被引量：2
4李劲松,颜国正,吕恬生,宋立博.一种移动机器人全局路径规划新方法[J].机械设计与研究,2009,25(3):30-32. 被引量：4
5徐肖豪,李成功,赵嶷飞,李雄.基于人工势场算法的改航路径规划[J].交通运输工程学报,2009,9(6):64-68. 被引量：36
6陈世明,聂森,郑丽楠,孙超峰.模糊空间中基于人工势场的移动机器人运动规划[J].南昌大学学报（工科版）,2010,32(2):192-195. 被引量：3
7费燕琼,朱跃梁,徐磊.未知环境下模块化移动机器人路径规划的研究[J].哈尔滨工程大学学报,2010,31(9):1248-1252. 被引量：4
8丁华胜,王华忠.基于PSO的人工势场法在移动机器人路径规划中的应用[J].华东理工大学学报（自然科学版）,2010,36(5):727-731. 被引量：3
9张之瑶.基于地图建立的无人地面车路径规划[J].科技导报,2010,28(21):52-58.
10郭晋炜,曾建潮.基于目标搜索任务的群机器人路径规划[J].系统仿真学报,2010,22(12):2842-2846. 被引量：7

1白敏丹,韩红桂,乔俊飞.基于遗传算法的污水处理模糊控制方法[J].控制工程,2009,16(1):46-48. 被引量：15
2张红强,章兢,周少武,曾照福,吴亮红.未知动态环境下非完整移动群机器人围捕[J].控制理论与应用,2014,31(9):1151-1165. 被引量：8
3訾兴建.模糊PID控制的遗传算法优化[J].淮北职业技术学院学报,2007,6(5):53-55. 被引量：3
4伊连云,姚俊红,付莹莹,孙秀云.基于自主视觉足球机器人路径规划的研究[J].机械工程与自动化,2006(2):67-69. 被引量：3
5蔡晓慧,李艳君,吴铁军.基于PSO和滚动优化的不确定环境下移动机器人动态路径规划[J].科技通报,2008,24(2):260-265. 被引量：8
6王海军,陈一民,魏绍亮.一种基于遗传算法优化的模糊控制器研究[J].微计算机信息,2006,22(10S):20-22. 被引量：13
7陈世明,方华京.动态未知环境中的优化路径规划算法[J].华中科技大学学报（自然科学版）,2003,31(12):29-31. 被引量：5
8柳长安,王兴博,程文刚,魏振华.基于HEDT的移动机器人路径规划算法[J].系统工程与电子技术,2008,30(10):1973-1976. 被引量：1
9J.W.Olsen,伍颖文.ABC FlowCharter 4.0迎合各层用户[J].个人电脑,1995,0(9):32-32.
10石川,史忠植,王茂光.基于路径匹配的在线分层强化学习方法[J].计算机研究与发展,2008,45(9):1470-1476. 被引量：4

机器人

2006年第5期

浏览历史

内容加载中请稍等...

未知动态环境中基于分层强化学习的移动机器人路径规划被引量：15

参考文献25

二级参考文献43

共引文献324

同被引文献145

引证文献15

二级引证文献153

相关作者

相关机构

相关主题

浏览历史

未知动态环境中基于分层强化学习的移动机器人路径规划 被引量：15

参考文献25

二级参考文献43

共引文献324

同被引文献145

引证文献15

二级引证文献153

相关作者

相关机构

相关主题

浏览历史

未知动态环境中基于分层强化学习的移动机器人路径规划被引量：15