基于强化学习的多机器人协作被引量：3

Multi-Robot Cooperation Based on Reinforcement Learning

下载PDF

导出

摘要提出了一种动态环境下多个机器人获取合作行为的强化学习方法,该方法采用基于瞬时奖励的Q-学习完成单个机器人的学习,并利用人工势场法的思想确定不同机器人的学习顺序,在此基础上采用交替学习来完成多机器人的学习过程。试验结果表明所提方法的可行性和有效性。 In this paper,a kind of reinforcement learning method is addressed to obtain cooperative behaviors for multiple robots under dynamic environment.The proposed learning method adopts Q-learning with immediate reward,and determines learning order for different robots by virtue of the idea of artificial potential field.Based on these modifications,an alternative learning process is introduced to finish the learning process among multiple robots.Experimental results have shown the feasibility and validity of the given approach.

作者周浦城洪炳镕郭耸

机构地区哈尔滨工业大学计算机科学与工程系哈尔滨工程大学计算机与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2005年第28期10-12,90,共4页 Computer Engineering and Applications

基金国家自然科学基金资助项目(编号:69985002)

关键词多机器人系统机器人足球强化学习协作 multi-robot system,robot soccer,reinforcement learning,cooperation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1褚海涛,洪炳熔.基于动作选择级的多机器人协作(英文)[J].软件学报,2002,13(9):1773-1778. 被引量：3

二级参考文献8

1Stone, P., Veloso, M. Team-Partitioned, opaque-transition reinforcement learning.In: Asada, M., Kitano, H., eds, Robocup-98: Robot Soccer World CupII. Berlin: SpringerVerlag, 1999.
2Kim, Do-Yoon, Chung, Myung Jin. Path planning for multi-mobil robots in the dynamicenvironment. In: Proceedings of the Micro-Robot World Cup Soccer Tournament. 1996. 127～132.
3Noda, I., Matsubara, H., Hiraki, K., et al. Soccer server: a tool for research onmultiagent systems. Applied Artificial Intelligence, 1998,12:25～27.
4Kitano, H., Asada, M., Kuniyoshi,Y., et al. A challenge problem. AI Magazine, 1997,18(1):73-85.
5Stone, P., Veloso, M. Using machine learning in the soccer server. In: Proceedingsof the IROS Workshop on Robocup. Osaka, Japan, 1996. 105～203.
6Uchibe, E., Asada, M., Hosoda, K. State space construction for behavior acquisitionin multi-agent environments with vision and action. In: Proceedings of the InternationalConference on Computer Vision. 1998. 870～875.
7Salustowicz, R.P., Wiering, M.A., Schmidhuber, J. Learning team strategies: soccercase studies. Machine Learning, 1998,33: 263～282.
8Sandholm, T.W., Crites, R.H. On multiagent Q-learning in a semi-competition domain.In: Weib, G., Sen, S., eds. Adaptation and Learning in Multiagent Systems. Berlin:Springer-Verlag, 1996. 188～190.

共引文献2

1王慧华,朱娜.多用户协作环境下的递归建模及合理决策[J].计算机工程与科学,2004,26(12):94-96. 被引量：1
2孟伟,韩学东.并行强化学习算法及其应用研究[J].计算机工程与应用,2009,45(34):25-28. 被引量：7

同被引文献42

1朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
2童亮,陆际联.仿真机器人足球学习方法研究综述[J].计算机仿真,2004,21(6):1-5. 被引量：3
3刘新宇,洪炳镕.基于强化学习的足球机器人协作策略研究[J].高技术通讯,2004,14(10):46-48. 被引量：2
4周浦城,洪炳镕,蔡则苏.多机器人运动目标搜索策略研究[J].哈尔滨工业大学学报,2005,37(7):879-882. 被引量：7
5赵逢达,孔令富,李贤善.基于分层结构模型的机器人足球决策系统设计[J].哈尔滨工业大学学报,2005,37(7):933-935. 被引量：7
6周浦城,洪炳镕,王月海.动态环境下多机器人合作追捕研究[J].机器人,2005,27(4):289-295. 被引量：16
7李红娜,姚分喜,黄鸿.分层增强学习在足球机器人比赛中的应用[J].计算机仿真,2005,22(6):145-147. 被引量：2
8柳在鑫,王进戈,王强.基于Q学习与CBL结合的机器人足球行为学习研究[J].西华大学学报（自然科学版）,2005,24(4):58-60. 被引量：2
9李冬梅,陈卫东,席裕庚.基于强化学习的多机器人合作行为获取[J].上海交通大学学报,2005,39(8):1331-1335. 被引量：4
10罗真,曹其新.基于短期预测的追捕方法[J].上海交通大学学报,2006,40(7):1069-1073. 被引量：5

引证文献3

1柯立堃,程家兴.分层技术在机器人足球中的应用研究[J].计算机技术与发展,2007,17(3):73-76.
2张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
3王腾,李长江.基于强化学习的全自主机器人足球系统协作研究[J].科学技术与工程,2011,11(5):979-982. 被引量：1

二级引证文献5

1张钧嘉,周丹,贾瑞清.煤矿移动机器人双机合作运动测试和分析[J].煤矿机械,2012,33(1):36-38. 被引量：1
2沙丽娟,戴学丰,赵肖宇.基于离散事件系统的多机器人协调搜索控制研究[J].齐齐哈尔大学学报（自然科学版）,2012,28(5):1-5. 被引量：1
3王殿君,唐路璐.双机器人协调下棋系统开发[J].机械设计与制造,2012(9):159-161. 被引量：2
4郝兆明,康倩.基于免疫机理的足球机器人协作控制研究[J].科学技术与工程,2014,22(8):36-41.
5王汐,周少武,曾照福,陈微,周游.微小型群机器人室外组合定位系统与方法[J].计算机工程与应用,2015,51(15):261-265. 被引量：3

1张月琴,孙先洋,刘翔.一种基于竞争的覆盖算法[J].计算机技术与发展,2012,22(9):29-31.
2孙广玲,沈宙彪.基于多组耦合字典及交替学习的图像超分辨率重建[J].应用科学学报,2012,30(6):642-648. 被引量：2
3钟明.程序员中的“钢铁侠”[J].程序员,2008(7):11-11. 被引量：1
4张炼钢,钟珞,孙运瑛.学习顺序决策过程的神经网络[J].微机发展,1996,6(5):3-5. 被引量：2
5邵伟宏.关于计算机辅助设计课程教学改革的分析及其实践探究[J].信息与电脑（理论版）,2013,0(9):183-184.
6吴涛,尚丽,陈黎伟.一种基于聚类的交叉覆盖算法[J].计算机技术与发展,2008,18(11):113-116. 被引量：1
7何洁.如何提高学生英语听力水平[J].西北成人教育学院学报,2008(6):65-66.
8王喆正,唐晔,杨育彬.利用图像类标信息的自调式字典学习方法[J].南京大学学报（自然科学版）,2015,51(2):320-327. 被引量：1
9王焕盛.试论高中信息技术教学中翻转课堂教学模式的应用[J].新课程,2016,0(27):10-10. 被引量：3
10朱新华.基于顺序组件的可共享学习顺序的设计[J].计算机工程与设计,2007,28(11):2723-2725. 被引量：1

计算机工程与应用

2005年第28期

浏览历史

内容加载中请稍等...

基于强化学习的多机器人协作被引量：3

参考文献1

二级参考文献8

共引文献2

同被引文献42

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多机器人协作 被引量：3

参考文献1

二级参考文献8

共引文献2

同被引文献42

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多机器人协作被引量：3