Robocup半场防守中的一种强化学习算法

A Reinforcement Learning Method for Robocup Soccer Half Field Defense

下载PDF

导出

摘要 Robocup仿真比赛是研究多Agent之间协作和对抗理论的优秀平台,提高Agent的防守能力是一个具有挑战性的问题。为制定合理的防守策略,将Robocup比赛中的一个子任务——半场防守任务分解为多个一对一防守任务,采用了基于Markov对策的强化学习方法解决这种零和交互问题,给出了具体的学习算法。将该算法应用到3D仿真球队——大连理工大学梦之翼(Fantasia)球队,在实际比赛过程中取得了良好效果。验证了采用Markov零和对策的强化学习算法在一对一防守中优于手工代码的结论。 Robocup soccer simulation is an excellent platform in which colhboration and counterwork among multi - agent are studied. It is a challenging problem to improve agent＇s defense ability. In order to design reasonable defending policy, decompose a subtask, half field defense, into some one- vs-one defense subtask and pose it as a problem of zero-sum Markov games. In this paper, a reinforcement learning method based on Markov game is developed and implemented in 3D simulation soccer team——DUT Fantasia. In real matches, this arithmetic is approved to be efficient and better than manual - coding in one- vs- one defense subtask.

作者冯林李琛孙焘

机构地区大连理工大学

出处《计算机技术与发展》 2008年第1期59-62,共4页 Computer Technology and Development

基金国家自然科学基金(50575031)

关键词 ROBOCUP 强化学习 MARKOV对策零和对策 Robocup reinforcement learning Markov game zero-sum game

分类号 TP242.6 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献8

1Kitano H,Tambe M,Stone P,et al. The RoboCup Synthetic agent challenge97[ C]//In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence. Nagoya: [s.n. ] ,1997:24-29.
2Stone P. Layered Learning in Multi- Agent Systems[ D ]. Pittsburgh, PA, USA: Computer Science Department, Carnegie Mellon University, 1998.
3Yao Jinyi, Chen Jiang, Cai Yunpeng, et al. Architecture of Tsinghua Aeolus[ C] // In: Birk A, Coradeschi S, Tadokoro S eds. Robocup 2001 : Robot Soccer World Cup Ⅴ. Heidelberg: Springer-Verlag,2002.
4Riedmiller M, Braun H. A direct adaptive method for faster back-propagation learning: The RPROP algorithm[ C]//In Ruspini H ed. Proceedings of the IEEE International Conference on Neural Networks (ICNN). San Francisco: [ s. n. ], 1993: 586 - 591.
5Owen G. Game Theory[ M]. 2nd Edition. Orlando, FL, USA: Academic Press, 1982.
6Littman M L. Markov games as a framework for multi - a- gem reinforcement learning [ C ] // In Proceedings of the Eleventh International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 1994 : 157 - 163
7常庭懋,韩中庚.用“匈牙利算法”求解一类最优化问题[J].信息工程大学学报,2004,5(1):60-62. 被引量：21
8Stone P, Veloso M. Task decomposition. dynamic role assignment, and low- bandwidth communication for real - time strategic teamwork[J]. Artificial Intelligence, 1999,110(2) : 241 - 273.

二级参考文献1

1代西武,李英,周万勇,张继生.锁具装箱问题的补充讨论──1994年全国大学生数学建模竞赛题的补充讨论[J].数学的实践与认识,1996,26(1):74-79. 被引量：2

共引文献20

1张振华,汪定伟.电子中介中的交易匹配研究[J].控制与决策,2005,20(8):917-920. 被引量：26
2李鹏.IPTV的机会在哪里?[J].中国新通信,2006,8(24):30-32.
3高兴佑,张向辉.一种基于伏格尔法的指派问题新算法[J].曲靖师范学院学报,2008,27(3):12-14. 被引量：5
4张磊,高雪霞.基于匈牙利算法的语义相似度分析在信息安全泄密检查中的应用[J].新乡学院学报,2010,27(6):50-52.
5肖侃,谭长庚,丁玲.基于中文分词的文本相似度动态规划算法[J].现代电子技术,2011,34(8):72-74. 被引量：3
6岳璐,傅妍芳,钟联炯,高武奇.基于改进匈牙利算法的云仿真资源调度[J].微电子学与计算机,2012,29(12):22-26. 被引量：1
7王义锦,赵耀.用二分图实现复杂参数类型匹配[J].软件,2012,33(11):198-201. 被引量：2
8万琴,余洪山,吴迪,林国汉.基于kinect摄像机的多运动目标实时跟踪[J].湖南工程学院学报（自然科学版）,2018,28(4):1-5. 被引量：1
9吴国华,霍晨晨.一种根据文档相似度快速查找定密依据的方法[J].保密科学技术,2014,0(7):12-15. 被引量：3
10王蓉,江帆,许腾驹,孙长印.D2D通信中一种资源分配与功率控制结合的方案[J].电讯技术,2016,56(3):295-301. 被引量：15

1徐子珊.严格鞍点的查找算法[J].重庆工商大学学报（自然科学版）,2004,21(5):477-479. 被引量：1
2李镇宇,陈小平.基于Markov对策的强化学习及其在RoboCup中的应用[J].计算机工程与应用,2005,41(27):202-204.
3张化祥,黄上腾.基于强化学习与对策的多代理协同技术[J].计算机科学,2004,31(8):116-119. 被引量：3
4严耀华,程显毅.RoboCup中整体与局部混合防御模型的研究[J].现代电子技术,2007,30(4):52-54. 被引量：1
5赵三工.三招两式活用Fantasia[J].电脑爱好者,2001(15):34-35.
6赵丽.角色在多Agent系统中的应用[J].哈尔滨师范大学自然科学学报,2006,22(2):75-78. 被引量：1
7谁主宽屏乱世：上下半场冷热不均[J].电脑时空,2008(10):115-119.
8上半场：雷声大雨点小[J].中国连锁,2012(9):30-33.
9李晓萌,杨煜普,许晓鸣.基于Markov对策和强化学习的多智能体协作研究[J].上海交通大学学报,2001,35(2):288-292. 被引量：7
10陈魁,刘久富,苏青琴,刘蓉.基于Markov对策的机械臂二维路径规划[J].计算机技术与发展,2012,22(5):57-59.

计算机技术与发展

2008年第1期

浏览历史

内容加载中请稍等...

Robocup半场防守中的一种强化学习算法

参考文献8

二级参考文献1

共引文献20

相关作者

相关机构

相关主题

浏览历史