基于强化学习的多机器人合作行为获取被引量：4

Multi-Robot Cooperative Behavior Generation Based on Reinforcement Learning

下载PDF

导出

摘要研究了基于强化学习的多机器人学习社会合作行为的问题.通过定义的分配布尔矩阵,对参与任务者进行奖励回报,并综合基础行为,生成状态到行为的新的映射,形成高级的群体合作行为,使得团队作为一个整体受益.讨论了学习社会行为的可行性和必要性,并采用强化学习方法,给出了多机器人传接合作搬运的详细算法实现. Learning social cooperative behavior in multi-robot was introduced, which assigns reinforcement by defining a boolean matrix, to agents if they have ever participated the accomplished task, and synthesizes basic behaviors to generate a new mapping from states to behaviors, and forms higher-level group cooperation, which will benefit the group as a whole. The possibility and necessity of learning social behavior were discussed, and applying reinforcement learning and the above idea to multi-agent＇s learning relay cooperation in convey.

作者李冬梅陈卫东席裕庚

机构地区上海交通大学自动化系

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2005年第8期1331-1335,共5页 Journal of Shanghai Jiaotong University

基金国家自然科学基金资助项目(60105005)

关键词强化学习多机器人传接合作社会行为 reinforcement learning multi-robot relay cooperation social behavior

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献8

1陈卫东,席裕庚,顾冬雷.自主机器人的强化学习研究进展[J].机器人,2001,23(4):379-384. 被引量：16
2Nicolescu M, Mataric M J. Learning and interacting in human-robot domains [J].Socially Intelligent Agents, 2001, 31(5):419-430.
3Gerkey B, Mataric M J. A formal framework for the study of task allocation in multi-robot systems [J].International Journal of Robotics Research, 2003, 3(13):1-17.
4贾建强,陈卫东,席裕庚.全自主足球机器人系统关键技术综述[J].上海交通大学学报,2003,37(z1):45-49. 被引量：13
5Mataric M J. Reinforcement learning in the multirobot domain[J]. Autonomous Robots, 1997, 4(1):73-83.
6Fontan M S, Mataric M J. Territorial multi-robot task division[J]. IEEE Transactions on Robotics and Automation, 1998, 14(5):815-822.
7Mataric M J. Learning social behaviors [J].Robotics and Autonomous Systems, 1997, (20) : 191 - 204.
8Peng J, Williams R J. Incremental multi-step Q-learning [J].Machine Learning, 1996, 22 (1/2/3):283-290.

二级参考文献9

1[1]Gutmann Jens-Steffen, Hatzack Wolfgang, Herrmann Immanuel, et al. The CS Freiburg robotic soccer team: reliable self-localization, multi-robot sensor integration, and basic soccer skills [A]. RoboCup-98:Robot Soccer World Cup Ⅱ [C]. Berlin: SpringerVerlag, 1999.93-108.
2[2]Werger Barry Brian. Cooperation without deliberation: a minimal behaviour-based approach to multirobot teams [J]. Artificial Intelligence, 1999, 110:293-320.
3[3]Adorni G, Cagnoni S, Mordonini M. Landmarkbased robot self-localization: a case study for the RoboCup goalkeeper [A]. Proc of the 1999 Iht Conf on Information Intelligence and Systems [C]. Washington, DC: [s.n.], 1999. 164-171.
4[4]Iocchi Luca, Mastrantuono Domenico, Nardi Daniele.A probabilistic approach to Hough localization [A].Proc of the 2001 IEEE Int Conf on Robotics & Automation [C]. Seoul, Korea: IEEE, 2001. 21-26.
5[5]Adorni G, Cagnoni S, Mordonini M, et al. Coordination strategies for the goalkeeper of a RoboCup midsize team [A]. Proc of the IEEE Intelligent Vehicles Symposium 2000 [C]. Dearborn, USA: IEEE, 2000.486-491.
6[7]Nakamura Takayuki.Development of self-learning visionn-based mobile robots for acquiring soccer robots behaviors[A].Proc of the 1998 IEEE Int Conf on Robotics & Automation[C].Leuven,Belgium:IEEE,1998.2592-2598
7[9]Uchibe Eiji,Asada Minoru, Hosoda Koh. Cooperative behavior acquisition in multi mobile robots environment by reinforcement learning based on state vector estimation [A]. Proc of the 1998 IEEE Int Conf on Robotics & Automation [C]. Leaven, Belgium:IEEE, 1998. 1558-1563.
8Lin L J，Proc AAAI'91，1991年，781页
9Lin L J，From Animals to Animates:Int Conference on Simulation of Adaptive Behavior，1991年

共引文献27

1赵曦,杨福兴.一种新型智能机器人控制系统设计[J].科技信息,2009(1):470-471. 被引量：2
2谢云,杨宜民.全自主机器人足球系统的研究综述[J].机器人,2004,26(5):474-480. 被引量：21
3贾建强,陈卫东,席裕庚.开放式自主移动机器人系统设计与控制实现[J].上海交通大学学报,2005,39(6):905-909. 被引量：6
4李志强,胡晓峰,张斌,董忠林.基于强化学习的指挥控制Agent适应性仿真研究[J].系统仿真学报,2005,17(11):2801-2804. 被引量：8
5方正,杨华,胡益民,徐心和.嵌入式智能机器人平台研究[J].机器人,2006,28(1):54-58. 被引量：30
6周金良,黄彦文,曹其新.对抗环境下足球机器人路径规划[J].上海交通大学学报,2006,40(11):1827-1831. 被引量：7
7吴晓.基于新规则足球机器人的研究[J].湖南文理学院学报（自然科学版）,2008,20(2):70-74. 被引量：5
8王文玺,肖世德,孟祥印,陈应松,张卫华.基于递阶强化学习的自主机器人路径规划智能体[J].计算机集成制造系统,2009,15(6):1215-1221. 被引量：5
9连晓峰,张弢,刘载文,苏维钧.RoboCup中型组机器人足球相关技术研究[J].机器人技术与应用,2009(3):35-40. 被引量：10
10王文玺,肖世德,孟祥印,张卫华.模糊神经网络下基于强化学习的自主式地面车辆路径规划研究[J].中国机械工程,2009(21):2536-2541. 被引量：2

同被引文献104

1杨晶东,洪炳熔,朴松昊.基于模糊行为融合的移动机器人避障算法[J].华中科技大学学报（自然科学版）,2008,36(S1):310-313. 被引量：50
2刘新宇,洪炳熔.Robot soccer action selection based on Qlearning[J].Journal of Harbin Institute of Technology(New Series),2001,8(3):212-214. 被引量：2
3李磊,曹志强,侯增广,谭民.基于行为的轮式移动机器人导航控制[J].控制与决策,2004,19(6):707-710. 被引量：4
4胡世亮,席裕庚.一种通用的移动机器人路径规划仿真系统[J].系统仿真学报,2004,16(8):1714-1716. 被引量：13
5张捍东,郑睿,岑豫皖.移动机器人路径规划技术的现状与展望[J].系统仿真学报,2005,17(2):439-443. 被引量：119
6张磊,秦元庆,孙德宝,肖俊.基于行为的多机器人任意队形的控制[J].控制工程,2005,12(2):174-176. 被引量：6
7魏英姿,赵明扬.资源受限单机动态调度的并行GA算法研究[J].系统仿真学报,2005,17(4):827-830. 被引量：2
8王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
9张淑军,孟庆春,吴槟,费云瑞.移动机器人智能寻线导航与策略控制[J].控制与决策,2005,20(5):529-532. 被引量：6
10周浦城,洪炳镕,蔡则苏.多机器人运动目标搜索策略研究[J].哈尔滨工业大学学报,2005,37(7):879-882. 被引量：7

引证文献4

1王世进,孙晟,周炳海,奚立峰.基于Q-学习的动态单机调度[J].上海交通大学学报,2007,41(8):1227-1232. 被引量：11
2张捍东,吴玉秀,岑豫皖.多机器人合作与协调研究进展[J].计算机工程与应用,2008,44(24):238-241. 被引量：4
3马军,殷保群.基于POMDP模型的机器人行动的仿真优化[J].系统仿真学报,2008,20(21):5903-5906.
4王义萍,陈庆伟,胡维礼.机器人行为选择机制综述[J].机器人,2009,31(5):472-480. 被引量：9

二级引证文献24

1王国磊,钟诗胜,林琳.基于聚类状态隶属度的动态调度Q-学习[J].高技术通讯,2009,19(4):428-433. 被引量：8
2王国磊,林琳,钟诗胜.基于模糊聚类的Q-学习在动态调度中的应用[J].计算机集成制造系统,2009,15(4):751-757. 被引量：1
3王国磊,钟诗胜,林琳.面向多机动态调度问题的两层Q学习算法[J].智能系统学报,2009,4(3):239-244. 被引量：1
4王世进.面向制造任务动态分配的改进合同网机制[J].计算机集成制造系统,2011,17(6):1257-1263. 被引量：7
5白云飞.机器人发展关键问题研究[J].机械工程与自动化,2011(5):155-156. 被引量：7
6张钧嘉,周丹,贾瑞清.煤矿移动机器人双机合作运动测试和分析[J].煤矿机械,2012,33(1):36-38. 被引量：1
7杨帆,刘士荣,董德国.编队控制中的机器人行为与基于服务的运动行为结构设计[J].机器人,2012,34(1):120-128. 被引量：13
8王玉友,陈俊杰,赵涓涓.基于情绪与认知的人机交互中的情感决策研究[J].软件导刊,2012,11(4):39-41.
9沙丽娟,戴学丰,赵肖宇.基于离散事件系统的多机器人协调搜索控制研究[J].齐齐哈尔大学学报（自然科学版）,2012,28(5):1-5. 被引量：1
10王殿君,唐路璐.双机器人协调下棋系统开发[J].机械设计与制造,2012(9):159-161. 被引量：2

1马华林,马寅初,张立燕.基于状态攻防图的网络安全最优攻防策略[J].福建电脑,2016,32(5):30-30. 被引量：1
2宁凡,林菲.基于时序单元电路功能验证的激励波形产生算法[J].科技通报,2013,29(9):117-119. 被引量：1
3王元卓,于建业,邱雯,沈华伟,程学旗,林闯.网络群体行为的演化博弈模型与分析方法[J].计算机学报,2015,38(2):282-300. 被引量：60
4李欣.基于博弈模型的网络安全最优攻防决策方法[J].网络安全技术与应用,2016(11):67-67.
5屈玉贵.从命题逻辑的需求描述到状态转移图的形式规格[J].小型微型计算机系统,2000,21(9):917-919. 被引量：3
6殷诚信,韩俊刚,黄虎才.并行扫描转换结构中的状态管理[J].中国图象图形学报,2013,18(9):1149-1155.
7楚天广,杨正东,邓魁英,王龙,谢广明.群体动力学与协调控制研究中的若干问题[J].控制理论与应用,2010,27(1):86-93. 被引量：27
8张保钦,李平,王亚晓,来跃深.基于PCI总线的CAMAC机箱控制卡的研制[J].西安工业学院学报,2005,25(2):118-121. 被引量：2
9吕浩音.可训练文语转换系统的时长模型优化[J].计算机应用,2010,30(1):282-284. 被引量：2
10李文峰,许爱强,冀全兴,周立建.基于集成ANN的锂电池粒子滤波RUL预测方法研究[J].电光与控制,2016,23(7):87-92. 被引量：4

上海交通大学学报

2005年第8期

浏览历史

内容加载中请稍等...

基于强化学习的多机器人合作行为获取被引量：4

参考文献8

二级参考文献9

共引文献27

同被引文献104

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多机器人合作行为获取 被引量：4

参考文献8

二级参考文献9

共引文献27

同被引文献104

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多机器人合作行为获取被引量：4