未知环境下自主机器人的行为学习研究被引量：2

STUDY OF BEHAVIOR LEARNING FOR AUTONOMOUS ROBOT UNDER UNKNOWN ENVIRONMENT

导出

摘要机器人为实现在未知环境下的探索任务,必须具有自主学习其行为策略的能力.本文提出了一种自主机器人行为学习机制.机器人通过与环境的交互,基于Q-学习进行行为的自主学习.为降低学习时的计算复杂度,状态空间通过分段映射为不同的类别,从而减少状态—动作对的数量.自主机器人在未知环境中的行为学习是增量式的过程,本文将基于案例的学习与Q-学习结合,使机器人在试错时获得的经验以案例的形式保存,并实现案例库的动态更新.相关案例同时可以降低机器人行为学习时的计算复杂度和试错时的风险.在文中的最后给出了仿真结果. In order to accomplish exploration task under unknown environment, Robot must have the capability of autonomous behavior learning. In this paper, a mechanism of behavior learning for Robot is proposed. Robot learns its behaviors based on Q-algorithm through interacting with its environment. The state space is segmented into different categories, so that the mumber of state-action pairs is decreased. The behavior learning for Robot under unknown environment is incremental. Case based learning and Q-learning are combined to save the experiences obtained by trial-and-error and to update the case library. Meanwhile, the relevant cases decrease the computational complexity and risk in behavior learning. Finally, the simulation results are presented.

作者陈锋胡社教陈宗海

机构地区中国科学技术大学自动化系

出处《模式识别与人工智能》 EI CSCD 北大核心 2002年第4期498-501,共4页 Pattern Recognition and Artificial Intelligence

基金安徽省自然科学基金(00043302)

关键词自主机器人行为学习移动机器人未知环境强化学习方法 Autonomous Robot, Behavior Learning, Unknown Environment

分类号 TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献2

1李伟.在未知环境中基于模糊逻辑的移动机器人行为控制[J].控制理论与应用,1996,13(2):153-162. 被引量：16
2张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17

二级参考文献3

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
2李伟，Proc of Fuzzy.IEEE’94，1994年
3李伟，Proc of the 1994 IEEE/RSJ Int Conf on Intelligent Robots and Systems，1994年

共引文献31

1周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
2庄健,王孙安.基于人工免疫网络机器人路径规划算法的进一步研究[J].系统仿真学报,2004,16(5):1017-1019. 被引量：12
3张乐杰,杨国胜,侯增广,谭民.基于融合和人工势场的自主移动机器人路径规划研究[J].山东大学学报（工学版）,2005,35(3):28-31. 被引量：6
4张汝波,施洋.基于模糊Q学习的多机器人系统研究[J].哈尔滨工程大学学报,2005,26(4):477-481. 被引量：4
5吴广顺,凌雷,方素香,王玉果.模糊CMAC神经网络在机器人装配作业中的应用[J].机械传动,2006,30(3):75-77.
6沈晶,顾国昌,刘海波.未知动态环境中基于分层强化学习的移动机器人路径规划[J].机器人,2006,28(5):544-547. 被引量：15
7石朝侠,洪炳镕,王燕清.动态环境下基于速度空间寻优的局部避障方法[J].计算机研究与发展,2007,44(5):898-904. 被引量：1
8秦政,丁福光,边信黔.强化学习在移动机器人自主导航中的应用[J].计算机工程与应用,2007,43(18):215-217. 被引量：5
9南景富,刘延斌,牛广林.轮式移动机器人的运动及定位分析[J].机械设计与制造,2007(7):148-150. 被引量：10
10南景富,刘延斌,牛广林.轮式移动机器人的路径规划和跟踪控制[J].机械设计与制造,2007(8):131-133. 被引量：5

同被引文献17

1阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
2Cheng-Dong Wu,Ying Zhang,Meng-Xin Li,Yong Yue.A Rough Set GA-based Hybrid Method for Robot Path Planning[J].International Journal of Automation and computing,2006,3(1):29-34. 被引量：6
3[1]R S Sutton,A G Barto.An introduction to reinforcement learning[M].The MIT Press,1998.
4Les1iePack Kaelbling, Michael L. Littman, AndrewW. Moore. Reinforcement Learning: A Survey. Journal ofArtificial Intelligence Research 4 (1996) 237-285.
5RichardS. Sutton , Andrew G. Barto , ReinforcementLearning : An Introduction , MIT Press, MA, 1998.
6R. S. Sutton, A. G. Barto. Reinforcement learning: AnIntroduct ion [M]. MIT Press, Cambridge, MA,2006,72-77.
7P van Hasselt. Insight in Reinforcement Learning: formalanalysis and empirical evaluation of difference learningalgorithms. SIKS dissertation series, 2011.
8JohnHoland. Reinforcement learning: A survey [J]. Machinelearning, 1988, 3 (1): 9-14.
9WangX L, Wang L. Research of distinguish matrix dealingwith unconformity problems in rough sets [J]. MicrocomputerDevelopment, 2008, 13 (6):119-120.
10D.Michie, R. A. Chambers. Box: An experiment in adapt ivecontrol [M]. Machine intelligent, 2010, 137-152.

引证文献2

1孙方平,符秀辉.复杂环境下机器人的行为学习研究[J].仪器仪表学报,2006,27(z3):1982-1983. 被引量：2
2孙魁,吴成东.强化学习模型及其在避障中的应用[J].山东工业技术,2016(1):261-263.

二级引证文献2

1蔡建羡,马洪蕊,程丽娜.基于仿生策略的机器人自主导航方法研究[J].计算机仿真,2014,31(1):333-338. 被引量：2
2王宇,宋爱国,徐效农.基于任务空间双模式结合的遥操作机器人系统[J].电子测量技术,2014,37(1):24-29. 被引量：6

1尚游,庞永杰,徐玉如,.自主式水下机器人全局路径规划的基于案例的学习算法研究[J].机器人,1998,20(6):427-432.
2李兆歆,张大坤.包含运动物体的图像拼接关键技术[J].计算机工程,2010,36(19):210-212. 被引量：4
3崔玉文,冯晓宁.基于案例的学习方法的研究及其应用[J].齐齐哈尔大学学报（自然科学版）,2002,18(3):51-55. 被引量：2
4朱彦霞,谭玉波,华南.基于Hash算法的网格安全认证模型[J].现代电子技术,2010,33(1):75-77. 被引量：2
5望安全,陈宗海,文锋.一种基于强化学习的控制算法研究[J].计算机仿真,2003,20(11):42-44. 被引量：1
6马晶晶,朱红斌.探索任务教学法在数据库教学中的应用[J].信息与电脑（理论版）,2012(12):165-166. 被引量：1
7杜勤英.利用“互联网+”提升VB教学效果[J].福建电脑,2016,32(9):174-175. 被引量：2
8陕光,凌玲,胡于进.内存映射文件在提取有限元模态结果中的应用[J].计算机应用,2012,32(5):1429-1431. 被引量：3
9姜立强,刘光斌,郭铮.分工差分进化算法[J].小型微型计算机系统,2009,30(7):1302-1304. 被引量：4
10胡君映.任务驱动式教学法在Photoshop教学中的应用[J].福建电脑,2013,29(11):206-207. 被引量：3

模式识别与人工智能

2002年第4期

浏览历史

内容加载中请稍等...

未知环境下自主机器人的行为学习研究被引量：2

参考文献2

二级参考文献3

共引文献31

同被引文献17

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

未知环境下自主机器人的行为学习研究 被引量：2

参考文献2

二级参考文献3

共引文献31

同被引文献17

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

未知环境下自主机器人的行为学习研究被引量：2