移动机器人的自适应式行为融合方法被引量：5

Adaptive action fusion method for mobile robot

下载PDF

导出

摘要介绍了一种基于先验知识的强化学习方法,它将传统的规则控制方法和强化学习方法相结合,在保留了已知的部分规则的情况下,利用强化学习方法对基本行为的融合机制进行了完善;同时,利用已知的规则知识对学习器进行指导,保证了学习向正确方向进行,有利于学习收敛速度的提高.文章给出了2种实现方法的结合方式,并给出了学习器的结构及参数和函数设定.最后以机器人围捕为研究背景,实现了移动机器人的自适应式行为融合,并利用仿真实验对其有效性进行验证.结果表明该方法具有收敛快、学习效果好的特点. A method to reinforce learning based on prior knowledge was proposed, combining the traditional rule control method with the reinforcement learning method. The action fusion mechanism preserves the partially known rules and utilizes the reinforcement learning to accomplish modification of rules. At the same time, the partially known rules give guidance to the learner, which may guarantee the correct learning direction and speed up the convergence. The combination pattern of the two methods is presented, with the architecture and the parameter setting of the learner. The method was used for adaptive action fusion of a mobile robot in a ＂pursuitevasion＂ game, and its efficiency was shown by simulation results. The results prove that this method converges in less time and has a good learning result.

作者宋梅萍顾国昌张汝波

机构地区哈尔滨工程大学计算机科学与技术学院

出处《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2005年第5期586-590,613,共6页 Journal of Harbin Engineering University

关键词强化学习多机器人行为融合 reinforcement learning multi-agent action fusion

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1宋梅萍,顾国昌,张汝波.多移动机器人协作任务的分布式控制系统[J].机器人,2003,25(5):456-460. 被引量：19
2MORENO D L. Using prior knowledge to improve reinforcement learning in mobile robotics[A]. Towards Autonomous Robotic Systems [C]. Colchester, UK, 2004.
3DIXON K, MALAK R, KNOSLA P. Incorporating prior knowledge and previously learned information into reinforcement learning agents [R].Carnegie Mellon University, Institute for Complex Engineered Systems, 2000.
4WATKINS C J, DAYAN P. Q-learning [J]. Machine Learning, 1992, 8(3-4): 279-292.
5TAN Ming. Multi-agent reinforcement learning: Independent vs. cooperative agents [A]. Proceedings of the Tenth International Conference on Machine Learning [C]. Amherst, MA, USA, 1993.
6LITTMAN M L. Friend-or-foe Q-learning in general-sum games [A]. Proceedings of the Eighteenth International Conference on Machine Learning [C]. Williamstown, MA, USA, 2001.
7高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：258
8KAELBLING L P, LITTMAN M L, MOORE A W. Reinforcement learning: a survey [J]. Journal of Artificial Intelligence Research, 1996, 4(2): 237-285.
9李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26

二级参考文献13

1Li Chun. A decentralized approach to the conflict-free motion planning fo multiple mobile robots[A]. Proc. 1999 IEEE Int. Conf. on Robotics and Automation[ C ].Detroit: Michigan, 1999.
2Pagello Enrico, D'Angelo Antonio. Cooper-ative behaviors in muhi-robot systems through implicit communica-tion[J]. Robotics and Autonomous sys-tems,1999,26( 1 ) : 65 -77.
3Marios M Polycarpou, Yanli Yang, Kevin M. Passino. Cooperative control of distributed multi-agent system-s[J]. IEEE Control Systems Magazine,June 2001.
4张东摩,陈世福.AODE中智能体心智状态的表示与处理[J].软件学报,1997,8(A00):357-364. 被引量：2
5蒋国飞,吴沧浦.Q学习算法在库存控制中的应用[J].自动化学报,1999,25(2):236-241. 被引量：19
6丁晓明,刘博勤.MAS中合作策略的比较[J].计算机科学,1999,26(3):48-50. 被引量：4
7张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
8高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
9蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
10李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26

共引文献295

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：6
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93.
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
8杨红颖,王向阳,赵红.一种基于多Agent的远程教学模型框架[J].现代远距离教育,2005(2):53-57. 被引量：19
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

同被引文献30

1王鸿洁,常国岑.可拓神经网络在可拓专家系统中的研究与应用[J].系统工程与电子技术,2005,27(2):264-266. 被引量：10
2阎平凡.再励学习——原理、算法及其在智能控制中的应用[J].信息与控制,1996,25(1):28-34. 被引量：30
3Das T,Kar I N.Design and implementation of an adaptive fuzzy logic-based controller for wheeled mobile robots[J].IEEE Transactions on Control System Technology,2006,14 (3):501-510.
4SE S, LOWED G, LITTLE J J. Vision- based global localization and mapping for mobile robots [J]. IEEE Transactions on Robotics, 2005, 21(3): 364-375.
5BALTZAKIS H, ARGYROS A, TRAHANIAS P. Fusion of laser and visual data for robot motion planning and collision avoidance [ J ]. Machine Vision and Applications, 2003, 15: 92-100.
6MONTEIRO SILDOMART, RIBEIRO CARLOS H C.Use of reinforcement learning algorithms under conditions of sensory ambiguity in moving robotics [ J ]. Controle and Automacao, 2004, 15(3) : 320 -338.
7Maja J. Matari?. Reinforcement Learning in the Multi-Robot Domain[J] 1997,Autonomous Robots(1):73～83
8Christopher J. C. H. Watkins,Peter Dayan. Q-learning[J] 1992,Machine Learning(3-4):279～292
9单建华.基于行为的实时路径规划[J].控制工程,2009,16(3):367-370. 被引量：5
10张世杰,段广仁.基于分布式控制的多个体系统的循环追踪控制[J].吉林大学学报（工学版）,2010,40(2):506-510. 被引量：2

引证文献5

1黄庆成,洪炳镕,蔡则苏,朴松昊.一种新型的智能机器人——可拓机器人[J].哈尔滨工业大学学报,2006,38(7):1133-1134. 被引量：2
2宋颖丽,李彩虹.移动机器人漫游行为的研究[J].山东理工大学学报（自然科学版）,2010,24(4):89-93.
3段勇,陈腾峰.基于强化学习的多机器人避碰算法研究[J].信息技术,2012,36(6):100-103. 被引量：2
4祖丽楠,田彦涛,梅昊.基于分层强化学习的多移动机器人避障算法[J].吉林大学学报（工学版）,2006,36(S2):108-112. 被引量：1
5张志伟,滕英元,杨慧欣,倪智宇.具有速度、加速度约束的机器人编队避障控制[J].控制理论与应用,2020,37(6):1388-1396. 被引量：5

二级引证文献10

1王越超,申建芳.未知环境下基于可拓遗传算法的避障算法[J].计算机工程与应用,2010,46(20):226-229. 被引量：2
2周鹏程.基于强化学习的智能机器人避碰方法研究[J].消费电子,2013(18):174-175.
3赵博,徐卫亚,张冬梅,梁桂兰.基于安全监测信息的岩石高边坡稳定性评价[J].沈阳工业大学学报,2014,36(1):100-105. 被引量：4
4邓计才,孟森森,王佳,张大伟.多移动机器人避障与协作避碰研究[J].郑州大学学报（理学版）,2017,49(2):96-100. 被引量：1
5张普,薛惠锋,高山,左轩.具有弱通讯的多智能体分布式自适应协同跟踪控制[J].系统工程与电子技术,2021,43(2):487-498. 被引量：2
6魏竞毅,赖俊,陈希亮.基于互信息的智能博弈对抗分层强化学习研究[J].计算机技术与发展,2022,32(9):142-147.
7张新华.基于蝗虫优化算法的壁面爬行机器人导航避障方法[J].现代电子技术,2022,45(24):131-135.
8崔萌,王鑫,邓超.基于学习的线性多智能体系统弹性最优协同容错控制[J].控制与决策,2023,38(5):1303-1311.
9梁海宁.热电厂巡检机器人障碍物识别与避让控制方法[J].机械与电子,2023,41(6):36-40. 被引量：1
10刘晓铭,华定忠,张静,黄国方,钟亮民.基于姿态信息的双足移动机器人越障步态控制[J].机械与电子,2024,42(4):29-32.

1徐璐,陈阳舟,居鹤华.基于动态行为控制的移动机器人自主避障[J].计算机工程,2007,33(14):180-182. 被引量：16
2白会肖.移动机器人行为融合算法设计[J].小作家选刊（教学交流）,2013(2):357-357.
3李晖,董国成,居鹤华.基于SAM模糊行为控制的月球车运动规划方法[J].计算机测量与控制,2013,21(11):2975-2978.
4周从军,杜成龙,聂菊荣..NET平台下自适应式光滑进度条[J].电脑编程技巧与维护,2006(7):12-15.
5李明富.IT建设需深耕细作[J].金融电子化,2009(6):11-12.
6肖本贤,刘海霞,张松灿,赵明阳,齐东流.基于多传感器行为融合基础上的AGV导航研究[J].系统仿真学报,2005,17(8):1939-1943. 被引量：4
7张雪霞.基于计算机网络的自适应式远程教育模式的研究[J].科技信息,2007(20):24-24.
8马家辰,张琦,马立勇,谢玮.基于多行为融合的移动机器人路径规划方法[J].北京理工大学学报,2014,34(6):576-581. 被引量：8
9孙岩,田欣,席恩泽.论加强互联网管理的重要举措[J].才智,2016,0(7):217-217.
10任正非.清晰的方向来自灰度[J].当代党员,2014(5):74-74.

哈尔滨工程大学学报

2005年第5期

浏览历史

内容加载中请稍等...

移动机器人的自适应式行为融合方法被引量：5

参考文献9

二级参考文献13

共引文献295

同被引文献30

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

移动机器人的自适应式行为融合方法 被引量：5

参考文献9

二级参考文献13

共引文献295

同被引文献30

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

移动机器人的自适应式行为融合方法被引量：5