强化学习在移动机器人自主导航中的应用被引量：5

Application of reinforcement learning in autonomous navigation for mobile robot

下载PDF

导出

摘要概述了移动机器人常用的自主导航算法及其优缺点,在此基础上提出了强化学习方法。描述了强化学习算法的原理,并实现了用神经网络解决泛化问题。设计了基于障碍物探测传感器信息的机器人自主导航强化学习方法,给出了学习算法中各要素的数学模型。经仿真验证,算法正确有效,具有良好的收敛性和泛化能力。 The merit and shortcomming of common algorithms of autonomous navigation for mobile robot are introduced,based on which the reinforcement learning method is proposed.The principle of the reinforcement learning is described,the generalization problem is solved by neural network.The autonomous navigation for robot based on obstacle detection sensor is designed,the mathematical model for each element of learning algorithm is proposed.The correctness ,reactiveness and the ability of generalization of the algorithm are verified by simulation tests.

作者秦政丁福光边信黔

机构地区哈尔滨工程大学自动化学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第18期215-217,228,共4页 Computer Engineering and Applications

关键词强化学习自主导航神经网络移动机器人 reinforcement learning autonomous navigation neural network mobile robot

分类号 TP24 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献10

1Krogh B H.A generalized potential field approach to obstacle avoidance control[C]//Proceeding of the International Robotics Research Conference,1984:1150-1156.
2Koren Y,Borenstein J.Potential field methods and their inherent limitations for mobile robot navigation[C]//Proceedings of the IEEE Conference on Robotics and Automation,Sacramento,California,1991:1394-1404.
3张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
4Kamon I,Rivlin E,Rimon E.A new range-sensor based globally convergent navigation algorithm for mobile robots[C]//Proceedings of the IEEE International Conference on Robotics and Automation,Minneapolis,MN,1996:429-435.
5Carreras M,Ridao P,Battle J,et al.Learning reactive robot behaviors with Neural-Q_learning[C]//IEEE-TTTC International Conference on Automation,Quality and Testing,Robotics,2002.
6Gaskett CQ-learning for robot control[D].Australian National University,2002:5-13.
7Ge S S,Cui Y J.New potential functions for mobile robot path planning[J].IEEE Transactions on Robotics and Automation,2000,16(5).
8阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
9黄献龙,梁斌,吴宏鑫.机器人避碰规划综述[J].航天控制,2002,20(1):34-40. 被引量：41
10焦鹏.水下自治机器人避碰路径规划算法研究[D].哈尔滨:哈尔滨工程大学,2006:59-66.

二级参考文献9

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
2Leslie Pack Kaelbling. Associative Reinforcement Learning: Functions in k-DNF[J] 1994,Machine Learning(3):279～298
3Leslie Pack Kaelbling. Associative Reinforcement Learning: A Generate and Test Algorithm[J] 1994,Machine Learning(3):299～319
4Leslie Pack Kaelbling. Associative reinforcement learning: Functions ink-DNF[J] 1994,Machine Learning(3):279～298
5Ronald J. Williams. Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning[J] 1992,Machine Learning(3-4):229～256
6Christopher J.C.H. Watkins,Peter Dayan. Technical Note: Q-Learning[J] 1992,Machine Learning(3-4):279～292
7Richard S. Sutton. Learning to predict by the methods of temporal differences[J] 1988,Machine Learning(1):9～44
8李大生,刘欣,吴明华,周济.基于动力学约束的机器人无碰运动规划[J].机器人,1990,12(5):14-19. 被引量：7
9孟庆浩,彭商贤,刘大维.基于Q-M图启发式搜索的移动机器人全局路径规划[J].机器人,1998,20(4):273-279. 被引量：21

共引文献85

1王洪斌,陈刚.轮式移动机器人在未知环境下路径规划[J].科技创新导报,2007,4(35):101-103. 被引量：1
2王维,王磊,禹建丽.学习控制在机器人路径规划中的应用[J].控制工程,2003,10(z2):193-195.
3张智,朱齐丹,刘海.蒸汽发生器检修用六轴机械臂无碰撞路径规划研究[J].弹箭与制导学报,2006,26(S1):260-264.
4袁著祉,陈增强,李翔.联接主义智能控制综述[J].自动化学报,2002,28(S1):38-59. 被引量：3
5周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
6续龙飞,李俊,甘亚辉,戴先中,孙维.作业约束下的冗余度机器人自运动避障规划方法[J].中南大学学报（自然科学版）,2013,44(S2):98-103. 被引量：2
7郭红霞,吴捷,刘永强,王春茹.基于强化学习算法的静止同步补偿电压控制器[J].电网技术,2004,28(19):9-13. 被引量：25
8王春茹,吴捷,郭红霞.基于强化学习算法的网络拥塞控制[J].计算机工程与应用,2005,41(3):18-20. 被引量：2
9张海渠,陈淑利.塑性加工中的人工智能技术[J].沈阳大学学报,2002,14(4):5-9.
10郭红霞,吴捷,王春茹.基于强化学习的模型参考自适应控制[J].控制理论与应用,2005,22(2):291-294. 被引量：5

同被引文献38

1张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7
2王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3
3叶德谦,杨樱,金大兵.基于神经网络集成的强化学习算法系统设计[J].计算机工程与应用,2006,42(12):97-99. 被引量：2
4黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19
5Preu P,Delepoulies S,Raqcheville J C. A generic architecture for adaptive agents based on reinforcement learning[J]. Information Sciences,2004,(161):37-55.
6BO C M,WANG Z Q,LU A J. Study and application on dynamic modeling method based on SVM and sliding time window techniques[C]//Proceedings of the 6th World Congress on Intelligent Control and Automation. Piscataway: Institute of Electrical and Electronics Engineerings Inc. Press,2006:4714-4718.
7Suykens J A K, Vandewale J. Least squares support vector machine classifiers[J]. Neural Processing Letters,1999,9(3):293-300.
8Cicirelli G, D’Orazio T, Distante A. Neural Q-learning control architectures for wall-following behavior[C]// Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems,2003.
9Carreras M, Ridao P, EI-Fakdi A. Semi-online neural Q-learning for real-time robot learning[C]//Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems,Las Vegas Nevada,2003:662-667.
10Kondo T,Ito K. A reinforcement learning with evolutionary state recruitment strategy for autonomous mobile robots control[J]. Robotics ans Autonomous Systems,2004,46(2):121-124.

引证文献5

1曾智刚.基于强化学习的神经网络在船模速度控制中的应用[J].计算机时代,2009(4):24-25. 被引量：1
2侯艳丽.基于支持向量机和Q学习的移动机器人导航[J].计算机工程与应用,2011,47(23):242-244. 被引量：2
3侯艳丽.基于最小二乘支持向量机的移动机器人导航[J].电子设计工程,2011,19(23):11-12. 被引量：1
4梁泉.未知环境中基于强化学习的移动机器人路径规划[J].机电工程,2012,29(4):477-481. 被引量：10
5臧兆祥,李昭,王俊英,但志平.基于平均奖赏强化学习算法的零阶分类元系统[J].计算机工程与应用,2016,52(21):14-20. 被引量：1

二级引证文献15

1常宝娴,丁洁,朱俊武,章永龙.未知环境下机器人Q学习覆盖算法[J].南京理工大学学报,2013,37(6):792-798. 被引量：2
2曾奇,刘冠峰,陈新,李毫亮,念龙生.并联机器人基坐标系的精确定位几何算法[J].机电工程技术,2013,42(10):21-24. 被引量：2
3王子强,武继刚.基于RDC-Q学习算法的移动机器人路径规划[J].计算机工程,2014,40(6):211-214. 被引量：6
4赵金刚,戈新生.动态规划求解空间双臂机器人非完整运动最优控制问题[J].力学季刊,2016,37(2):225-233. 被引量：8
5方小菊.基于强化学习的采摘机器人采摘臂避碰设计[J].农机化研究,2017,39(11):198-202. 被引量：4
6赵金刚,戈新生.基于动态规划的机器人运动规划最优控制[J].控制工程,2017,24(11):2374-2379. 被引量：2
7王国志,付虹,邓斌,于兰英,吴文海.基于LS-SVM和Q(λ)学习的铁路绝缘子水冲洗定位研究[J].电瓷避雷器,2019(2):192-196. 被引量：2
8王程博,张新宇,邹志强,王少博.基于Q-Learning的无人驾驶船舶路径规划[J].船海工程,2018,47(5):168-171. 被引量：23
9徐琳,赵知劲.基于分布式协作Q学习的信道与功率分配算法[J].计算机工程,2019,45(6):160-164. 被引量：7
10李福进,张俊琴,任红格.基于仿生学内在动机的Q学习算法移动机器人路径规划研究[J].现代电子技术,2019,42(17):133-137. 被引量：5

1霍艳艳,黄影平.基于立体视觉和光流的障碍物探测方法[J].信息技术,2013,37(1):125-127. 被引量：4
2刘贞,王祁,丁明理.基于模糊控制的WSN移动节点自主导航算法[J].系统工程与电子技术,2009,31(1):137-141.
3王恺,杨巨峰,王立,史广顺,王庆人.人工神经网络泛化问题研究综述[J].计算机应用研究,2008,25(12):3525-3530. 被引量：22
4雷小康,刘明雍,闫茂德,李闻白.一种移动机器人的禁忌搜索自主导航算法[J].控制与决策,2011,26(9):1310-1314. 被引量：4
5周俊萍,姜蕴晖,殷明浩.最坏情况下X_2SAT问题的上界[J].计算机研究与发展,2014,51(3):598-605. 被引量：2
6叶鹏.红外传感与音控结合的避障小车设计[J].科技创新与应用,2013,3(15):37-38. 被引量：4
7刘明,肖文健,齐晓慧.超声避障技术在轮式机器人导航中的应用研究[J].科技信息,2012(22):129-130. 被引量：2
8董聪,郭晓华.计算智能中若干热点问题的研究与进展[J].控制理论与应用,2000,17(5):691-698. 被引量：12
9林国,李伟超.输电线路巡线机器人障碍物识别综述[J].郑州轻工业学院学报（自然科学版）,2012,27(3):93-97. 被引量：2
10王瑞峰,杨子河,孔维珍.红外光幕在地铁屏蔽门障碍物探测中的研究[J].传感器与微系统,2013,32(3):25-28. 被引量：13

计算机工程与应用

2007年第18期

浏览历史

内容加载中请稍等...

强化学习在移动机器人自主导航中的应用被引量：5

参考文献10

二级参考文献9

共引文献85

同被引文献38

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

强化学习在移动机器人自主导航中的应用 被引量：5

参考文献10

二级参考文献9

共引文献85

同被引文献38

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

强化学习在移动机器人自主导航中的应用被引量：5