多Agent协作的强化学习模型和算法被引量：6

Reinforcement Learning Model and Algorithm Based on Multi-agent Cooperation

下载PDF

导出

摘要结合强化学习技术讨论了多Agent协作学习的过程,构造了一个新的多Agent协作学习模型。在这个模型的基础上,提出一个多Agent协作学习算法。算法充分考虑了多Agent共同学习的特点,使得Agent基于对动作长期利益的估计来预测其动作策略,并做出相应的决策,进而达成最优的联合动作策略。最后,通过对猎人-猎物追逐问题的仿真试验验证了该算法的收敛性,表明这种学习算法是一种高效、快速的学习方法。 The multi-agent cooperative learning process based on Reinforcement Learning is addressed and a new multiagent cooperative learning model is proposed. Based on this model, a cooperative learning algorithm is introduced. This algorithm pays fully attention to multl-agent cooperative learning together simultaneity, so it can make each agent predict its action policy based on the estimation on its action＇s long-time reward, At last relevant decisions to be the best associated action policy is made. We conduct a series of empirical evaluation of the algorithm on the hunter-prey problem to validate its astringency. The result shows this algorithm is an efficient and fast method for multi-agent learning.

作者刘菲曾广周宋言伟

机构地区山东大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2006年第12期156-158,186,共4页 Computer Science

基金国家自然科学基金项目资助(编号:60573169)。

关键词协作学习强化学习多AGENT学习学习模型学习算法 Cooperative learning, Reinforcement learning, Multi-agent learning, Learning model, Learning algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Sutton R, Barto AG. Reinforcement Learning: An Introduction.MIT Press, 1998
2Tan Ming. Multi-agent reinforcement learning: independent vs,cooperative Agents. In:Proceedings of the 10^th International Conference on Machine Learning(ICML-93), 1993. 330-337
3Watkins C J C H, Dayan P. Q-learning. Machine learning. 1992,8:272-292
4蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
5Irwig K, Wobeke W. Muhi-Agent Reinfoecement Learning with Vicarious Rewards. Electronic Transactions on Artificial Intelligence, 1999,3(B): 23-45
6Mataric M J. Interaction and intelligent behavior: [Ph D Thesis].Department of Electrical Engineering and Computer Science,MIT, USA, 1994
7Bowling M. Convergence problems of general-sum multi-agent reinforcement learning [A]. In: Langley P,ed. Proceedings of the Seventeenth International Conference on Machine Learning [C],San Francisco: Morgan Kaufmann Publishers,2000. 89-94
8Benda M,Jagannathan V,Dodhiawalla R. On optimal cooperation of knowledge sources: [Technical Report]. BCS-G2010-28. Boeing AI Center, Boeing Computer Services, Bellevue, WA, August 1985

共引文献30

1朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
2张彦铎,闵锋.基于人工神经网络的强化学习在机器人足球中的应用[J].哈尔滨工业大学学报,2004,36(7):859-861. 被引量：7
3陈雪江,杨东勇.基于强化学习的多智能体协作实现[J].浙江工业大学学报,2004,32(5):516-519. 被引量：2
4陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
5王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
6厉广伟,曹爱增,尹建芹.基于视觉的足球机器人决策规划研究进展[J].济南大学学报（自然科学版）,2006,20(2):155-159. 被引量：2
7王长缨,陈文伟.多agent协同强化学习算法SE-MACOL及其应用[J].广西师范大学学报（自然科学版）,2006,24(4):167-170. 被引量：5
8李海潮,王明礼.基于多Agent系统学习模型提高自主创新技术能力[J].科技管理研究,2007,27(1):11-12.
9沈军.团队学习与知识服务的研究现状与特点[J].中原工学院学报,2007,18(1):16-22. 被引量：2
10杨克巍,张少丁,岑凯辉,谭跃进.基于半自治agent的profit-sharing增强学习方法研究[J].计算机工程与应用,2007,43(15):72-75. 被引量：3

同被引文献57

1姜丽红,徐博艺,席俊红.基于案例推理的过滤算法及智能信息推荐系统[J].清华大学学报（自然科学版）,2006,46(z1):1074-1077. 被引量：10
2樊玮,陈增强,袁著祉.Agent的PASS-BDI模型[J].中国工程科学,2004,6(6):43-49. 被引量：2
3李秀芳,张立群,王小会.基于角色和CSCL的智能网络协作模型[J].计算机工程与设计,2005,26(4):1078-1080. 被引量：1
4宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：13
5秦伟俊,史元春,相培峰.基于多层体系结构的网络教学系统[J].清华大学学报（自然科学版）,2006,46(7):1301-1304. 被引量：12
6Dodge B J. WebQuests: A Technique for Internet Based Learning[J]. The Distance Educator. 1995, 1(2): 10-13.
7文可为,陈淳泉等.网络探索WebQuest的应用:在香港中学会考课程中地理议题的应用[C].第十届全球华人计算机教育应用会议(GCCCE2006),2006:1-17.
8李振贤.应用WebQuest理论于网络环境教学其学习成效之研究:以中学生物为例[D].台湾:南台科技大学,2002.
9SCORM Guidelines [ EB/OL].< http://www.adlnet.gov/scorm/index.aspx, 2006-12 / 2007-11-02.>
10史元春,沈中南,向欣,等.学习对象元数据[EB/OL].<http://wwwlceltsc.edu.cn/680751c665875e93/folder, 2006-04-03/2007-12-01.>

引证文献6

1李恬,周宏.基于Webquest的自适应教学系统设计与研究[J].现代教育技术,2009,19(1):116-121. 被引量：7
2张颖,李佳.伙伴选择问题的多Agent强化学习演化博弈方法[J].沈阳工业大学学报,2009,31(5):568-572.
3潘莹,李德华,梁京章,王俊英.基于实用推理的多智能体协作强化学习算法[J].华中科技大学学报（自然科学版）,2010,38(4):54-57. 被引量：3
4张志刚,游义刚.Repast竞价策略模型在电力市场教学中的研究[J].中国电力教育（下）,2011(4):163-164.
5刘清秀,李秀芳.基于角色和CSCL的多Agent协作过程研究[J].计算机与现代化,2011(5):114-116.
6吴伟丽.PSCAD/EMTDC故障仿真在电气工程教学中的应用研究[J].伊犁师范学院学报（自然科学版）,2014,8(1):71-75. 被引量：2

二级引证文献12

1方宝富,潘启树,洪炳镕,丁磊.基于活跃区域的多机器人分层追逃算法[J].华中科技大学学报（自然科学版）,2011,39(S2):335-339.
2方平.WebQuest在大学英语网络自主学习中的研究与应用[J].科技信息,2013,0(34):115-116.
3黄如民,刘艳玲.WebQuest动态化设计原理及创建平台开发[J].中国电化教育,2009(9):104-107. 被引量：9
4李文宏.以认知建模为支架的适应性学习系统构建[J].电化教育研究,2011,32(9):75-78. 被引量：5
5李梅莲,曾宪权.基于WebQuest知识进级型教学模型设计[J].软件导刊,2011,10(9):87-88.
6乔林,罗杰.学习过程中共享经验的Q学习算法的研究[J].计算机科学,2012,39(5):213-216. 被引量：1
7陈伟玲.ThinkQuest项目学习模式及其应用研究[J].中国电化教育,2012(11):122-125. 被引量：6
8马良,孙海英.WebQuest教学应用效果的实证研究[J].蚌埠学院学报,2014,3(2):29-32. 被引量：2
9赵丹.基于网络探究模式(WebQuest)的教学平台设计与构建——以Photoshop教学网站为例[J].江苏理工学院学报,2014,20(4):76-80. 被引量：3
10张良力,祝贺,王斌.基于虚拟现实技术的电气工程专业实验平台开发[J].实验技术与管理,2015,32(2):123-126. 被引量：16

1李琳娜.基于变学习率的多agent学习算法的研究[J].长春工程学院学报（自然科学版）,2009,10(4):81-83.
2赵海燕,曹健,徐文博.基于多Agent学习机制的服务组合[J].计算机工程与科学,2013,35(9):117-121.
3林虹虹.现代远程协作学习系统的设计与实现[J].现代计算机,2011,17(10):106-109.
4杨海滨,郭敦陶.基于CSCW的协作学习模式研究[J].黑龙江科技信息,2009(14):152-152.
5李彤,李银山,余玄机,项四通.追逐问题的计算机模拟[J].力学与实践,2010,32(1):80-81. 被引量：1
6杨善林,罗贺,胡小建.基于Q学习的自主Agent模型[J].微电子学与计算机,2006,23(9):203-205. 被引量：5
7蒋剑军.一个追逐问题的数学模型和matlab仿真[J].大学数学,2010,26(1):156-162.
8李豹.多Agent MDPs中并行Rollout学习算法[J].安徽工程大学学报,2014,29(2):75-78.
9闫静.云环境下协作学习平台的研究[J].福建电脑,2016,32(10):69-70. 被引量：1
10陶那日苏,王崇骏,张雷,谢俊元.一个基于XCS的同质团队学习模型[J].计算机工程与科学,2010,32(5):37-40. 被引量：1

计算机科学

2006年第12期

浏览历史

内容加载中请稍等...

多Agent协作的强化学习模型和算法被引量：6

参考文献8

共引文献30

同被引文献57

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

多Agent协作的强化学习模型和算法 被引量：6

参考文献8

共引文献30

同被引文献57

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

多Agent协作的强化学习模型和算法被引量：6