基于多Agent Q学习的RoboCup局部配合策略被引量：2

Robo Cup regional cooperative strategy based on multi-Agent Q-learning

下载PDF

导出

摘要针对Robo Cup(Robot World Cup)中,多Agent之间的配合策略问题,采用了一种局部合作的多Agent Q-学习方法:通过细分球场区域和Agent回报值的方法,加强了Agent之间的协作能力,从而增强了队伍的进攻和防守能力。同时通过约束此算法的使用范围,减少了学习所用的时间,确保了比赛的实时性。最后在仿真2D平台上进行的实验证明,该方法比以前的效果更好,完全符合初期的设计目标。 Because many multi-Agent cooperative problems can hardly be solved in RoboCup, this paper investigates a regional cooperative multi-Agent Q-learning method. Through subdividing the stadium area and rewards of agents, the agents’collaboration ability can be strengthened. As a result, the team’s offensive and defensive abilities are enhanced. At the same time, the agents can spend less time learning via restricting the using range of the algorithm. Consequently, the real-time of the game can be ensured. Finally, the experiment on the platform of the simulation 2D proves that the effect of this method is much better than that of the previous one, and it fully complies with the design of the original goal.

作者赵发君李龙澍

机构地区安徽大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 2014年第23期127-130,共4页 Computer Engineering and Applications

基金安徽省自然科学基金(No.090412054) 安徽高等学校省级自然科学基金(No.KJ2011Z020)

关键词随机对策 Q-学习实时性局部合作 RoboCup仿真2D 配合策略 stochastic game Q-learning real-time regional cooperation RoboCup simulation 2D cooperative strategy

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1Celiberto L A,Ribeiro C H C.Heuristic reinforcement learning applied to Robo Cup simulation agents[C]//LNCS 5001,2008:220-227.
2Mota L,Lau N,Reis L P.Co-ordination in Robo Cup’s2D simulation league:setplays as flexible,multi-robot plans[C]//RAM,2010:362-367.
3Bai Aijun,Wu Feng,Chen Xiaoping.Online planning for large MDPs with MAXQ decomposition[C]//Proceedings of the 11th International Conference on Autonomous Agents and Multiagent Systems,2012:1215-1216.
4Zhang Zhongzhang,Chen Xiaoping.A factored hybrid heuristic online planning algorithm for large POMDPs[C]//Proceedings of the 28th Conference on Uncertainty in Artificial Intelligence,2012:934-943.
5向中凡.Q学习角色值法在机器人足球比赛中的应用[J].电子科技大学学报,2007,36(4):809-812. 被引量：1
6孟祥萍,王圣镔,王欣欣.多Agent Q学习几点问题的研究及改进[J].计算机工程与设计,2009,30(9):2274-2276. 被引量：5
7刘亮,李龙澍.基于局部合作的RoboCup多智能体Q-学习[J].计算机工程,2009,35(9):11-13. 被引量：7
8柯文德,朴松昊,彭志平,蔡则苏,苑全德.基于π演算的足球机器人协作Q学习方法[J].计算机应用,2011,31(3):654-656. 被引量：4
9Kalyanakrishnan S,Liu Y,Stone P.Half field offense in Robo Cup soccer:a multiagent reinforcement learning case study[J].Computer Science,2007,4434:72-85.
10章惠龙,李龙澍.Q学习在RoboCup前场进攻动作决策中的应用[J].计算机工程与应用,2013,49(7):240-242. 被引量：6

二级参考文献49

1朴松昊,孙立宁,钟秋波,黄庆成.动态环境下的多智能体机器人协作模型[J].华中科技大学学报（自然科学版）,2008,36(S1):39-41. 被引量：6
2陈为雄,李振龙.基于BDI模型的多机器人智能体系统设计[J].机器人,2004,26(4):310-313. 被引量：2
3廖军,谭浩,刘锦德.基于Pi-演算的Web服务组合的描述和验证[J].计算机学报,2005,28(4):635-643. 被引量：107
4郭锐,彭军,吴敏.增强Q学习在非确定马尔可夫系统寻优问题中的应用[J].计算机工程与应用,2005,41(13):36-38. 被引量：4
5张钟俊,蔡自兴.智能控制与智能控制系统[J].信息与控制,1989,18(5):30-39. 被引量：69
6李长云,李赣生,何频捷.一种形式化的动态体系结构描述语言[J].软件学报,2006,17(6):1349-1359. 被引量：33
7郭锐,吴敏,彭军,彭姣,曹卫华.一种新的多智能体Q学习算法[J].自动化学报,2007,33(4):367-372. 被引量：13
8田锡唐.焊接结构[M].北京:机械工业出版社,1981..
9王元良.焊接变形与应用[M].成都:西南交通大学出版社,1990..
10于振华,蔡远利,徐海平.基于π网的多Agent系统建模与分析[J].系统工程理论与实践,2007,27(7):77-84. 被引量：3

共引文献121

1黄卜夫,熊蓉,周科,吴明光.基于视觉的足球机器人小车系统的设计与实现[J].微电子学,2002,32(6):477-480.
2胡凌云.世界机器人足球比赛控制模式的分析[J].商丘职业技术学院学报,2003,2(3):4-6.
3廖本先,杨宜民,项凡.基于改进遗传算法的RBF网络的截球策略[J].控制工程,2009,16(S2):98-99. 被引量：2
4黄庆成,洪炳镕.全自主足球机器人体系结构的研究[J].微型机与应用,2004,23(10):52-55. 被引量：1
5张礼华,卢道华.基于多Agent船舶运动协同控制研究及软件开发[J].舰船电子工程,2004,24(6):132-135.
6范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
7万铭,余臻,林枢.RoboCup仿真中多Agents的最优局部配合[J].厦门大学学报（自然科学版）,2005,44(1):24-28.
8张永贤.足球机器人视觉子系统的分析与设计[J].科技广场,2004(11):32-33.
9张驰,韩光胜.改进的模糊Q学习方法及其在RoboCup中的应用[J].计算机仿真,2005,22(5):189-192. 被引量：2
10陈健,朱建伟.多智能体系统(MAS)技术的研究与应用[J].机床与液压,2005,33(7):164-166. 被引量：1

同被引文献12

1Andrew I Iachinski.人工战争:基于多Agent的作战仿真[M].张志祥,高春蓉,郭福亮,译.北京:电子工业出版社,2010.
2Brown FB, Nagaya Y. The MCN P5 random number generator[J]. Trans Am Nucl Soc, 2012,87 : 230-232.
3Dudenhoeffer D. Permann MR. Manic MC. AFrame- work for Infrastructure Interdependency Modeling And Analysis[C]//Proceedings of the 38th conference on Winter Simulation. Monterey, California: [s. n. 1, 2006:478-485.
4Chris W. Johnson. Using Evacuation Simulations for Contingency Planning to Enhance the Security and Safe- ty of the 2012 Olympic Venues[J]. Safety Science, 2008,46:302-322.
5Kerstin Eriksson, Allan McConnell. Contingency Plan- ning For Crisis Management: Recipefor Success or Po- litical Fantasy? [J]. Policy and Society-103,2011 : 11- 22.
6Paul M. Torrens. Agent-based Models and the Spatial [J]. Geography Compass, 2010,4(5) : 428-448.
7Ragnar Rosness. A Contingency Model Of Decision- Making Involing Risk Of Accidental Loss[J]. Safety Science, 2009 :807-812.
8Leysia Palen, Sophia Liu. B. Citizen Communications in CrisisAnticipating a Future of ICT-Supported Pub- lic Participation[J]. Emergency Action, 2007~ 727- 736.
9董存祥,王文俊,杨鹏.应急预案体系本体模型(EPSOnto)及应用[J].计算机工程与应用,2010,46(10):235-238. 被引量：21
10侯艳丽.基于支持向量机和Q学习的移动机器人导航[J].计算机工程与应用,2011,47(23):242-244. 被引量：2

引证文献2

1季峰,陈飞.基于CAS理论的应急预案仿真系统的研究[J].计算机与数字工程,2015,43(5):817-820. 被引量：3
2王祎,葛静怡,薛昕惟,王胜法,李凤岐.改进Q学习的薄壁结构3D打印路径规划[J].计算机工程与应用,2022,58(12):299-303. 被引量：9

二级引证文献12

1王剑,司徒陈麒,袁胜强.基于多主体和前景理论的应急风险决策仿真研究[J].系统仿真学报,2020,32(3):353-361. 被引量：2
2王婷,张成,焦阳阳,龚青云,王迪,徐婕,蒋昀洁,钱东福,陈家应,陈彦.CAS理论视角下公立医院门诊应急管理体系建设实践[J].中国医院管理,2021,41(10):38-42. 被引量：4
3黄晓云,陈达庆,周辉,潘鑫,吴敏.复杂适应系统理论视角下院前急救风险管控体系建设[J].中华卫生应急电子杂志,2022,8(4):227-231.
4屈瑞娜,颜翠翠.基于遗传算法的一体式3D打印自动化控制技术[J].自动化与仪器仪表,2023(1):85-90.
5丁慧琴,曹雏清,徐昌军,李龙.改进Q-learning算法的柔性上料系统研究[J].现代制造工程,2023(4):87-92. 被引量：1
6顾力文,阮艳雯,李浩.基于柔性选择性激光烧结3D打印技术的服装研发[J].纺织学报,2023,44(4):154-164. 被引量：1
7姜晓晨光.一种基于人工场势的FDM薄壁结构打印路径规划方法[J].丝网印刷,2023(15):101-103. 被引量：1
8刘艳,周昊瑞,李炜融,袁贤浦.基于SLA成型的薄板件制备与工艺参数优化[J].工程塑料应用,2023,51(11):56-62.
9杨元,代溪林,常正平,高峰,段继豪.FDM有限元仿真与层间连贯分层复合扫描路径研究[J].机械科学与技术,2023,42(11):1952-1958. 被引量：1
10徐文鹏,王东晓,付林朋,张鹏,侯守明,曾艳阳.基于Q-learning的轻量化填充结构3D打印路径规划[J].传感器与微系统,2023,42(12):44-47.

1刘亮,李龙澍.基于局部合作的RoboCup多智能体Q-学习[J].计算机工程,2009,35(9):11-13. 被引量：7
2刘亮,李龙澍.局部合作多智能体Q-学习研究[J].计算机工程与应用,2008,44(15):4-7.
3赵连军,安琳,彭炎午.ERP系统开发工具的配合策略研究[J].计算机应用研究,2004,21(4):20-22. 被引量：1
4专家系统、人工智能[J].电子科技文摘,2002,0(11):143-144.
5赵连军.支持动态需求的企业信息系统开发技术研究[J].机械设计与制造,2007(7):174-176.
6Jiang Liangui.DATE WITH ‘WORLD CUP＇[J].重庆与世界（Hello重庆）,2014(12):6-6.
7许海,杨东,王雨辰,王潇潇.FIRA 11VS11足球机器人主攻助攻配合策略的研究[J].福建电脑,2013,29(7):6-8.
8吴军,徐昕,王健,贺汉根.面向多机器人系统的增强学习研究进展综述[J].控制与决策,2011,26(11):1601-1610. 被引量：22
9刘亮,李龙澍.分层的局部合作Q-学习[J].计算机工程与应用,2009,45(22):7-9.
10周清艳.计算机仿真机器人世界杯足球锦标赛攻防战术的研究[J].中国科技信息,2005(21A):61-61. 被引量：1

计算机工程与应用

2014年第23期

浏览历史

内容加载中请稍等...

基于多Agent Q学习的RoboCup局部配合策略被引量：2

参考文献15

二级参考文献49

共引文献121

同被引文献12

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于多Agent Q学习的RoboCup局部配合策略 被引量：2

参考文献15

二级参考文献49

共引文献121

同被引文献12

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于多Agent Q学习的RoboCup局部配合策略被引量：2