移动机器人模糊Q-学习沿墙导航被引量：7

Wall-following control of a mobile robot with fuzzy Q-learning

下载PDF

导出

摘要针对在基于行为的移动机器人沿墙导航控制器的设计中缺乏足够的先验知识的问题,采用Q-学习方法让机器人通过学习来自动构建导航控制器。将模糊神经网络和Q-学习相结合,用模糊神经网络直接逼近连续状态和动作空间中的Q值函数。利用对Q值函数的优化获得控制输出。模糊神经网络中的节点根据状态动作对的各个分量和时间差分的新颖性进行自适应地添加和构造,这样不仅能克服节点选择的困难还能使网络保持适度的规模。网络中的参数采用扩展卡尔曼滤波方法进行自适应调整。基于Khepera 2机器人的沿墙导航实验验证了该方法的有效性和优越性。 The Q-learning was introduced into navigation control of the wall-following task of mobile robots where there was no enough priori knowledge available.The Q-value function was approached directly u-sing Fuzzy Neural Network（FNN）.The optimization method was used to search the greedy action with maximum Q-value.The nodes of FNN were created incrementally and adaptively according to every ele-ment of the current pair of state-action and Temporal Difference（TD）,which overcame the difficulties of the choice of nodes and ensured an economic size of the network.Moreover the parameters of the FNN were updated using Extended Kalman Filter（EKF）.The results of the wall-following task of Khepera 2 mobile robot demonstrate the superiority and validity of the proposed method.

作者徐明亮柴志雷须文波

机构地区无锡城市职业技术学校电子信息系江南大学信息工程学院

出处《电机与控制学报》 EI CSCD 北大核心 2010年第6期83-88,97,共7页 Electric Machines and Control

基金国家自然科学基金(60703106)

关键词 Q-学习模糊神经网络沿墙导航移动机器人 Q-learning fuzzy neural network wall-following navigation mobile robots

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1TURENNOUT P, HONDERD G, SCHELVEN L J. Wall-following control of a mobile robot[ C ]//Proceedings of the 1992 IEEE International Conference on Robotics and Automation, May 12 -14, 1992, Nice, France. 1992: 280-285.
2BORENSTEIN J, KERON Y. The vector filed histogram fast obstacle avoidance for mobile robots [ J ]. IEEE Transactions on Robotics and Automation, 1991,7 (3) :278 -288.
3彭一准,原魁,刘俊承,邹伟.室内移动机器人的三层规划导航策略[J].电机与控制学报,2006,10(4):380-384. 被引量：3
4KHATIB O. Real-time obstacle avoidance for manipulator and mobile robots [ J ]. International Journal of Robotic Research, 1986, 5 (1):90-98.
5Lee P S, Wang L L. Collision avoidance by fuzzy logic control for automated guided vehicle navigation [ J ]. Journal of Robotic Systems, 1994,11(8):743-760.
6张文志,吕恬生.Reactive fuzzy controller design by Q-learning for mobile robot navigation[J].Journal of Harbin Institute of Technology(New Series),2005,12(3):319-324. 被引量：5
7吴洪岩,刘淑华,张嵛.基于RBFNN的强化学习在机器人导航中的应用[J].吉林大学学报（信息科学版）,2009,27(2):185-190. 被引量：11
8陆军,徐莉,周小平.强化学习方法在移动机器人导航中的应用[J].哈尔滨工程大学学报,2004,25(2):176-179. 被引量：8
9段勇,徐心和.基于模糊神经网络的强化学习及其在机器人导航中的应用[J].控制与决策,2007,22(5):525-529. 被引量：13
10ER M J, DENG C. Online tuning of fuzzy inference systems using dynamic fuzzy Q-learning [ J ]. IEEE Transactions on Systems, Man and Cybernetics Part B: Cybernetics, 2004, 34 ( 3 ) : 1478 - 1489.

二级参考文献51

1王红睿,赵黎明.基于增强学习规则的倒立摆模糊神经网络控制器[J].吉林大学学报（信息科学版）,2006,24(5):561-566. 被引量：1
2康怀祺,史彩成,何佩琨,李晓琼.Novel Sequential Neural Network Learning Algorithm for Function Approximation[J].Journal of Beijing Institute of Technology,2007,16(2):197-200. 被引量：1
3SUTTON R S, BARTO A G. Reinforcement Learning: An Introductin [ M]. Cambridge, MA: MIT Press, 1998.
4THURN S, MITCHEIL T M. Lifelong Robot Leaning [J]. Robotics and Autonomous System, 1995, 15 (1) : 25-46.
5WATKINS C, DAYAN P. Q-Learning [J]. Machine Learning, 1992, 8 (3/4): 279-292.
6WIDROW B, RUMELHART D E, LEHR M A. The Basic Ideas in Neural Networks [ J]. Communications of the ACM, 1994, 37 (3) : 87-92.
7WANG Xue-song, CHENG Yu-hu, SUN Wei. Q Learning Based on Self-Organizing Fuzzy Radial Basis Function Network [ C] //Thrid International symposium on Neural Networks. Berlin Heidelberg: Springer Verlag, 2006: 607-615.
8PARK J, SANDBERG I W. Universal Approximation Using Radial Basis Functions Networks [ J ]. Neural Computation, 1991, 3 (2): 246-257.
9JUN L. Learning Reactive Behaviors with Constructive Neural Network in Mobile Robotics [ D]. [ S.l. ] : Orebro Studies in Technology, 2006.
10STASTNY J, SKORPIL. Analysis of Algorithms for Radial Basis Function Neural Network [ C ] // IFIP International Federation for Information Processing. [ S. l. ] : Springer, 2007, 245 : 54-62.

共引文献31

1周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
2杨立苹,洪炳镕,周浦城.基于Motor Schema的移动机器人反应式导航[J].哈尔滨商业大学学报（自然科学版）,2005,21(5):612-614.
3卢海曦,周百令.自适应联邦滤波器及其在组合导航系统中的应用[J].中国惯性技术学报,2007,15(6):678-681. 被引量：7
4陈延伟,施江天,吴艳茹,路红伟,贾菲,庞博.基于神经网络的多传感器信息融合技术在移动机器人中的应用[J].长春工业大学学报,2008,29(5):550-555. 被引量：6
5王雪松,张政,程玉虎,张依阳.基于测地高斯基函数的递归最小二乘策略迭代[J].信息与控制,2009,38(4):406-411.
6刘胜,李高云,宋佳.基于FNN的船舶舵伺服系统故障诊断研究[J].中国造船,2010,51(1):162-169. 被引量：3
7付帅,刘淑华,张之雅,程宇.基于改进人工协调场的多机器人运动编队[J].吉林大学学报（信息科学版）,2010,28(2):153-157. 被引量：3
8郭新辰,吴希,陈书坤,吴春国.基于RBFNN和PSO求解第二类Volterra积分方程的混合方法[J].吉林大学学报（理学版）,2010,48(4):658-661. 被引量：3
9但斌斌,王超.重轨矫直参数控制模型的自学习功能研究[J].微型机与应用,2010,29(18):83-85.
10葛锁良,杨旭玮,张亚东.RBF网络自整定PID控制在网络化控制系统中的应用[J].合肥工业大学学报（自然科学版）,2011,34(10):1489-1491. 被引量：7

同被引文献140

1Laura RAY.Hierarchical state-abstracted and socially augmented Q-Learning for reducing complexity in agent-based learning[J].控制理论与应用（英文版）,2011,9(3):440-450. 被引量：2
2杨敬辉,洪炳镕,朴松昊.基于遗传模糊算法的机器人局部避障规划[J].哈尔滨工业大学学报,2004,36(7):946-948. 被引量：21
3王栋耀,马旭东,戴先中.基于声纳的移动机器人沿墙导航控制[J].机器人,2004,26(4):346-350. 被引量：24
4段俊花,李孝安.基于改进遗传算法的机器人路径规划[J].微电子学与计算机,2005,22(1):70-72. 被引量：27
5赵颖,陈兵旗,王书茂,代峰燕.基于机器视觉的耕作机器人行走目标直线检测[J].农业机械学报,2006,37(4):83-86. 被引量：58
6闫茂德,吴青云,贺昱曜.非完整移动机器人的自适应滑模轨迹跟踪控制[J].系统仿真学报,2007,19(3):579-581. 被引量：34
7SKINNER B F. The behavior of organisms : An experimental anal- ysis[ M ]. New York : Appleton-Century-Crofts, 1938.
8TOURETZK~ D S, TRIRA-THOMPSON E J. Tekkotsu : a Frame- work for AIBO cognitive robotics[ C ]//The National Conference on Artificial Intelligence, July 9- 13, 2005, Pittsburgh, USA. 2005:1741 - 1742.
9VELOSO M M, RYBSKI P E, LENSER S, et al. CMRoboBits: creating an intelligent AIBO robot [ J ]. AI Magazine, 2006, 27 (1) : 67 -82.
10THATHACHAR M A L, HARITA B R. Learning automata with changing number of actions [ J ]. IEEE Trans. Syst. , Man, Cy- bern, 1987, 17(6) :1095 - 1100.

引证文献7

1蔡建羡,孙旭光,杨秋格.映射领域可自主收缩的操作条件反射自动机[J].电机与控制学报,2012,16(9):83-90. 被引量：1
2陈卫东,关永贞,朱奇光,赵成龙.移动机器人模糊Sarsa(λ)学习导航研究[J].小型微型计算机系统,2013,34(11):2599-2602.
3袁宇龙,李军.基于模糊逻辑的移动机器人沿墙行为精准控制[J].世界科技研究与发展,2013,35(6):704-708. 被引量：1
4马磊,张文旭,戴朝华.多机器人系统强化学习研究综述[J].西南交通大学学报,2014,49(6):1032-1044. 被引量：14
5居锦,刘继展,李男,李萍萍.基于侧向光电圆弧阵列的温室路沿检测与导航方法[J].农业工程学报,2017,33(18):180-187. 被引量：10
6马晓敏,刘丁,辛菁,张友民.移动机器人生物启发式变结构轨迹跟踪控制[J].电机与控制学报,2018,22(7):97-106. 被引量：12
7蒋林,张燕飞,朱建阳,雷斌,王翰,高旭敏.结合历史运动状态的机器人高效沿墙算法研究[J].自动化学报,2020,46(6):1166-1177. 被引量：5

二级引证文献43

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2宋国栋,魏立科,马宏伟,付霁野,刘希梁.六轴式小臂机器人运动学理论研究及其在掘锚作业中的应用[J].煤炭学报,2021,46(S02):1114-1123. 被引量：5
3李红双,李孝杰.一种基于北斗定位自主巡逻机器人的研究与试验测试[J].机械设计,2020,37(S01):51-54. 被引量：3
4徐宝昌,蔡胜清,冯爱祥,罗雄麟.变工况切换过程的Petri网自主预测与控制[J].化工学报,2016,67(3):839-845. 被引量：2
5渠国庆,熊峰,李军世,牛倩.基于多Agent可重构装配系统结构研究[J].工业控制计算机,2016,29(7):135-136.
6王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
7居锦,刘继展,李男,李萍萍.基于侧向光电圆弧阵列的温室路沿检测与导航方法[J].农业工程学报,2017,33(18):180-187. 被引量：10
8薛天.深度强化学习原理及其在机器人运动控制中的运用[J].通讯世界,2018,25(8):240-241. 被引量：3
9毛罕平,刘继展,张晓东,左志宇,韩绿化.设施园艺智能化装备的创新研发[J].农业工程技术,2018,38(22):10-15. 被引量：8
10张文旭,马磊,贺荟霖,王晓东.强化学习的地–空异构多智能体协作覆盖研究[J].智能系统学报,2018,13(2):202-207. 被引量：7

1罗元,孔维熙,张毅.基于Android手机的智能轮椅室外导航方法[J].计算机工程,2013,39(6):312-315. 被引量：2
2姚静,梅雪,林锦国.复杂背景下基于时间差分的人脸检测算法[J].微计算机信息,2007,23(02S):267-269. 被引量：3
3朱洪涛.基于图像采集卡的智能安防监控系统设计[J].微计算机信息,2009,25(25):90-91. 被引量：1
4马雷,王荣本,赵东标.智能车辆导航控制器参数选取与鲁棒性分析[J].机械科学与技术,2005,24(2):146-150.
5范亚男,葛卫丽.一种基于背景模型的自适应的目标检测方法[J].科技资讯,2010,8(32):11-11.
6阮宏镁,田学民,王平.带时延估计的时间差分PLS软测量建模方法[J].石油化工自动化,2013,49(6):35-39. 被引量：1
7王绪.视频序列中运动人体的实时检测与提取[J].现代企业文化,2008(33):88-89.
8刘亮,李龙澍.局部合作多智能体Q-学习研究[J].计算机工程与应用,2008,44(15):4-7.
9杨俊红,魏威.视频安全监控中的关键技术研究[J].开封大学学报,2009,23(4):87-89.
10危水根,陈震,黎明.一种基于时间差分运动检测的改进方法[J].南昌航空工业学院学报,2005,19(3):15-19. 被引量：6

电机与控制学报

2010年第6期

浏览历史

内容加载中请稍等...

移动机器人模糊Q-学习沿墙导航被引量：7

参考文献17

二级参考文献51

共引文献31

同被引文献140

引证文献7

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

移动机器人模糊Q-学习沿墙导航 被引量：7

参考文献17

二级参考文献51

共引文献31

同被引文献140

引证文献7

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

移动机器人模糊Q-学习沿墙导航被引量：7