共享经验的多主体强化学习研究被引量：4

Research on Multi-agent Reinforcement Learning with Sharing Experience

下载PDF

导出

摘要合作多主体强化学习的关键问题在于如何提高强化学习的学习效率。在追捕问题的基础上,该文提出一种共享经验的多主体强化学习方法。通过建立合适的状态空间使猎人共享学习经验,根据追捕问题的对称性压缩状态空间。实验结果表明,共享状态空间能够加快多主体强化学习的过程,状态空间越小,Q学习算法收敛越快。 How to improve the efficiency of reinforcement learning is the key problem of reinforcement leaning with multi-agent collaboration. This paper proposes a method of multi-agent reinforcement learning with sharing experience based on the research to pursuit problem. By applying this method the hunters can share the learning experience through constructing the appropriate state space. It further compresses the state space according to the symmetry character of pursuit problem. Experimental results show that sharing state space can expedite the process of multi-agent reinforcement learning. The smaller the state space is, the faster Q learning algorithm convergence will be.

作者焦殿科石川

机构地区辽宁工业大学计算机科学与工程学院北京邮电大学北京市智能软件与多媒体重点实验室

出处《计算机工程》 CAS CSCD 北大核心 2008年第11期219-221,共3页 Computer Engineering

关键词合作多主体强化学习 Q学习算法状态空间 multi-agent collaboration reinforcement learning Q learning algorithm state space

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1MITCHELL TM.机器学习[M].曾华军,张银奎.北京:机械工业出版社,2003.
2Nitschke G. Emergence of Cooperation in a Pursuit-evasion Game[C]//Proc. of the 18th International Joint Conference on Artificial Intelligence. Acapulco, Mexico: [s. n.], 2003: 639-646.
3Tan M. Multi-agent Reinforcement Learning: Independent vs Cooperative Agents[C]//Proc. of the 10th International Conference on Machine Learning. Amherst, MA: [s. n.], 1993: 330-337.
4Nunes L. Cooperative Learning Using Advice Exchange[M]. Berlin, Heidelberg, Germany: Springer-Verlag, 2003: 33-48.
5王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
6蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31

二级参考文献7

1Kaelbling L P, Littman M L, Moore A W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 1996, 4:237-285.
2Watkins C, Dayan P. Q-Learning. Machine Learning, 1992, 8:279-292.
3Nitschke G. Emergence of Cooperation in a Pursuit-Evasion Game. In: Proc of the 18th International Joint Conference on Artificial Intelligence. Acapulco, Mexico, 2003, 639-646.
4Tan M. Multi - Agent Reinforcement Learning: Independentvs.Cooperative Agents. In: Proc of the 10th International Conference on Machine Learning. Amherst, USA, 1993, 330-337.
5Hu J L, Wellman M P. Nash Q-Learning for General-Sum Stochastic Games. Journal of Machine Learning Research, 2003,4; 1-30.
6Ribeiro C. Reinforcement Learning Agents.Artificial Intelligence Review, 2002, 17(3): 223-250.
7蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31

共引文献62

1朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
2张彦铎,闵锋.基于人工神经网络的强化学习在机器人足球中的应用[J].哈尔滨工业大学学报,2004,36(7):859-861. 被引量：7
3陈雪江,杨东勇.基于强化学习的多智能体协作实现[J].浙江工业大学学报,2004,32(5):516-519. 被引量：2
4陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
5王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
6厉广伟,曹爱增,尹建芹.基于视觉的足球机器人决策规划研究进展[J].济南大学学报（自然科学版）,2006,20(2):155-159. 被引量：2
7王长缨,陈文伟.多agent协同强化学习算法SE-MACOL及其应用[J].广西师范大学学报（自然科学版）,2006,24(4):167-170. 被引量：5
8刘菲,曾广周,宋言伟.多Agent协作的强化学习模型和算法[J].计算机科学,2006,33(12):156-158. 被引量：6
9李海潮,王明礼.基于多Agent系统学习模型提高自主创新技术能力[J].科技管理研究,2007,27(1):11-12.
10沈军.团队学习与知识服务的研究现状与特点[J].中原工学院学报,2007,18(1):16-22. 被引量：2

同被引文献20

1王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
2Makino T, Aihara K. Multi-Agent Reinforcement Learning Algorithm to Handle Beliefs of Other Agents' Policies and Embedded Beliefs[C]//Proc. of AAMAS'06. Hakodate, Japan: [s. n.], 2006.
3Stone P, Sutton R S, Kuhlmann G. Reinforcement Learning for RoboCup Soccer Keepaway[J]. International Society for Adaptive Behavior, 2005, 13(3): 165-188.
4Marthi B. Automatic Shaping and Decomposition of Reward Functions[C]//Proceedings of the 24th International Conference on Machine Learning. Corvallis, USA: [s. n.], 2007.
5Torrey L, Shavlik J, Walker T, etal. Skill Acquisition via Transfer Learning and Advice Taking[M]. Berlin, Germany: Springer, 2006: 425-436.
6Bianchi R A C, Ribeiro C H C, Costa A H R. Heuristically Accelerated Q-learning: A New Approach to Speed Up Reinforcement Learning[J]. Lecture Notes in Artificial Intelligence, 2004, 3171: 245-254.
7Sutton S. Learing to predict by the methods of temporal difference[J]. Machine Learing, 1998(3) : 9-44.
8Watkins C J C H, Dayan P. Technical note: Q-learing[J]. Machine Learing, 1992,8(3/4) :279-292.
9Ito K, Imoto Y, Taguchi H, et al. A study of reinforcement learning with knowledge sharing[C]//Proceedings of the 2004 IEEE International Conference on Robotics and Biomimetics. Japan: Okayama University Digital Information Repository, 2004 : 175-180.
10沈晶,程晓北,刘海波,顾国昌,张国印.动态环境中的分层强化学习[J].控制理论与应用,2008,25(1):71-74. 被引量：5

引证文献4

1王洪彦.新的启发式Q学习算法[J].计算机工程,2009,35(22):173-175. 被引量：1
2乔林,罗杰.学习过程中共享经验的Q学习算法的研究[J].计算机科学,2012,39(5):213-216. 被引量：1
3邵杰,杜丽娟,林海霞.基于LCS和LS-SVM的多机器人强化学习[J].人工智能与机器人研究,2013,2(1):24-28. 被引量：1
4邵杰,王清珍.基于XCS和LS-SVM的ALV在狭隘环境中的避碰规划[J].人工智能与机器人研究,2017,6(1):22-30.

二级引证文献3

1徐雪松,曾智,邵红燕,杨胜杰,李想.基于个体-协同触发强化学习的多机器人行为决策方法[J].仪器仪表学报,2020(5):66-75. 被引量：11
2Quan LIU,Xudong YANG,Ling JING,Jin LI,Jiao LI.A parallel scheduling algorithm for reinforcement learning in large state space[J].Frontiers of Computer Science,2012,6(6):631-646.
3尹依伊,王晓芳,周健.基于Q学习的多无人机协同航迹规划方法[J].兵工学报,2023,44(2):484-495. 被引量：7

1乔林,罗杰.学习过程中共享经验的Q学习算法的研究[J].计算机科学,2012,39(5):213-216. 被引量：1
2王蕾.浅谈高职院校信息技术课程教学[J].黑龙江科技信息,2009(28):163-163. 被引量：1
3杨聪,王文永,蔡宏亮,张拓.基于手机浏览器开放平台的移动学习研究[J].中国信息技术教育,2011(13):111-113. 被引量：1
4张煌辉,陈焕文,刘泽文,陈哲平.共享经验分布式Q-学习模型在RoboCup中的应用[J].微计算机信息,2010,26(8):25-26. 被引量：1
5泰克创新论坛展现新数字时代特色[J].电子产品世界,2009,16(12):74-74.
6张旭军.集百家经验促政府上网——百城市政府上网推进交流会侧记[J].中国计算机用户,2000(6):60-61. 被引量：2
7共享经验,共议发展索尼“3D杯”作品研讨会(北京)举行[J].电视工程,2013(1):62-62.
8四川收49度俄星亚玛尔202报告[J].卫星电视与宽带多媒体,2005(14):70-71.
9王熙照,王婷婷,翟俊海.基于样例选取的属性约简算法[J].计算机研究与发展,2012,49(11):2305-2310. 被引量：28
10陈剑华.抓住上好综合性学习的关键[J].福建基础教育研究,2010(6):63-64.

计算机工程

2008年第11期

浏览历史

内容加载中请稍等...

共享经验的多主体强化学习研究被引量：4

参考文献6

二级参考文献7

共引文献62

同被引文献20

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

共享经验的多主体强化学习研究 被引量：4

参考文献6

二级参考文献7

共引文献62

同被引文献20

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

共享经验的多主体强化学习研究被引量：4