基于Markov对策和强化学习的多智能体协作研究被引量：7

Research on Multiagent Cooperation with Markov Game and Reinforcement Learning

下载PDF

导出

摘要 MAS的协作机制研究 ,当前比较适用的研究框架是非零和 Markov对策及基于 Q-算法的强化学习 .但实际上在这种框架下的 Agent强调独立学习而不考虑其他 Agent的行为 ,故 MAS缺乏协作机制 .并且 ,Q-算法要求 Agent与环境的交互时具有完备的观察信息 ,这种情况过于理想化 .文中针对以上两个不足 ,提出了在联合行动和不完备信息下的协调学习 .理论分析和仿真实验表明 ,协调学习算法具有收敛性 . Non zero-sum Markov game and reinforcement learning based on Q-algorithm is a feasible frame for the research on the mechanism of multiagent system's cooperation. In fact, the independent learning is focused on individual agent regardless of other agents' actions under this frame. So, the cooperative mechanism is deficient. And, it is over idealized that the perfect observed information is required when agents are interacting with environment. A cooperated learning under joined action and imperfect information was proposed for solving these two problems. Convergence of the improved algorithm was proved.

作者李晓萌杨煜普许晓鸣

机构地区上海交通大学自动化系

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2001年第2期288-292,共5页 Journal of Shanghai Jiaotong University

基金国家自然科学基金!资助项目 (3930 0 70 )

关键词 MARKOV对策 Q-学习算法协调学习多智能体系统强化学习 Agents Artificial intelligence Learning algorithms Markov processes Matrix algebra

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1Christopher J.C.H. Watkins,Peter Dayan.Technical Note: Q-Learning[J].Machine Learning (-).1992(3-4)

同被引文献62

1范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
2宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：12
3刘菲,曾广周,宋言伟.多Agent协作的强化学习模型和算法[J].计算机科学,2006,33(12):156-158. 被引量：6
4Littman M L. Markov games as a framework for multi-agent reinforcement learning[C]//Proc of the Eleventh International Conference on Machine Learn- ing. New Brunswick:Morgan Kaufmann Publishers, 1994: 157- 163.
5Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: a survey[J].Journal of Artificial Intelligence Research, 1996, 4: 437-285.
6Tan M. Multi-agent reinforcement learning: independent vs. cooperative Agents[C] //Proc of the 10th International Conference on Machine Learning. Amherst:Morgan Kaufmann Publishers, 1993: 330- 337.
7Iriwig K, Wobcke W. Multi-agent reinforcement learning with vicarious rewards [J]. Series: Linkoping Electronic Articles in Computer and Information Science, 1999, 34(4): 23-45.
8Zinkevich M, Balch T. Symmetry in Markov decision process and its implication for single agent and multiagent learning [C].// Proc of the 18th International Conference on Machine learning. Williamstown: Morgan Kaufmann Publishers, 2001 : 632-640.
9Ravindran B, Barto A G. SMDP homomorphisms: an algebraic approach to abstraction in semi Markov decision processes[C]//Proc of the 18th International Joint Conference on Artificial Intelligence. Acapulco: Morgan Kaufmann Publishers, 2003: 1 011-1 016.
10Watkins C, Dayan P. Technical note Q-learning[J]. Machine Learning, 1992, 18:279-292.

引证文献7

1陈雪江,杨东勇.基于强化学习的多智能体协作实现[J].浙江工业大学学报,2004,32(5):516-519. 被引量：1
2陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
3刘虹秀,魏武,彭驰.基于Multi-agent的城市交通控制与诱导协调研究[J].公路与汽运,2007(5):42-44. 被引量：1
4赵晓华,李振龙,于泉,李云驰.基于NashCC-Q学习的两交叉口信号灯协调控制[J].系统仿真学报,2008,20(17):4660-4663. 被引量：2
5潘莹,李德华,梁京章,王俊英.基于实用推理的多智能体协作强化学习算法[J].华中科技大学学报（自然科学版）,2010,38(4):54-57. 被引量：3
6刘久富,陈魁,苏青琴,梁娟娟,王志胜.基于Markov对策的码垛机器人三维路径规划[J].中国机械工程,2012,23(7):851-855. 被引量：4
7陈魁,刘久富,苏青琴,刘蓉.基于Markov对策的机械臂二维路径规划[J].计算机技术与发展,2012,22(5):57-59.

二级引证文献15

1方宝富,潘启树,洪炳镕,丁磊.基于活跃区域的多机器人分层追逃算法[J].华中科技大学学报（自然科学版）,2011,39(S2):335-339.
2张辉,陈阳舟,杨玉珍,李世伟.基于Multi-Agent的区域交通协调控制研究[J].交通与计算机,2006,24(2):94-98. 被引量：9
3沈军.团队学习与知识服务的研究现状与特点[J].中原工学院学报,2007,18(1):16-22. 被引量：2
4张辉,杨玉珍,李振龙,陈阳舟.基于分布式Q学习的区域交通协调控制的研究[J].武汉理工大学学报（交通科学与工程版）,2007,31(6):1121-1124. 被引量：8
5余芳,张海涛.基于Multi-agent的交通控制协调算法研究[J].自动化技术与应用,2008,27(12):5-8. 被引量：1
6乔林,罗杰.学习过程中共享经验的Q学习算法的研究[J].计算机科学,2012,39(5):213-216. 被引量：1
7卢守峰,邵维,韦钦平,刘喜敏.基于绿灯时间等饱和度的离线Q学习配时优化模型[J].系统工程,2012,30(7):117-122. 被引量：3
8王帅.基于两层Q-Learning算法的多智能体协作方法研究[J].煤矿机电,2013,34(5):74-76.
9刘晓伟,高春鸣.结合行为树与Q-learning优化UT2004中agent行为决策[J].计算机工程与应用,2016,52(3):113-118. 被引量：6
10江维,吴功平,樊飞,张颉.高压输电线路带电检修机器人作业臂运动优化[J].工程科学学报,2016,38(11):1643-1651. 被引量：1

1范波,潘泉,张洪才.基于Markov对策的多智能体协调方法及其在Robot Soccer中的应用[J].机器人,2005,27(1):46-51. 被引量：5
2李镇宇,陈小平.基于Markov对策的强化学习及其在RoboCup中的应用[J].计算机工程与应用,2005,41(27):202-204.
3张化祥,黄上腾.基于强化学习与对策的多代理协同技术[J].计算机科学,2004,31(8):116-119. 被引量：3
4张婷.项目教学法在计算机教学中的运用[J].新课程（下）,2011,0(6):104-104.
5陈魁,刘久富,苏青琴,刘蓉.基于Markov对策的机械臂二维路径规划[J].计算机技术与发展,2012,22(5):57-59.
6刘久富,陈魁,苏青琴,梁娟娟,王志胜.基于Markov对策的码垛机器人三维路径规划[J].中国机械工程,2012,23(7):851-855. 被引量：4
7杨煜普,李晓萌,许晓鸣.多智能体协作技术综述[J].信息与控制,2001,30(4):337-342. 被引量：28
8谷歌取得人工智能新突破[J].时事资料手册,2015(2):95-95.
9高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
10冯林,李琛,孙焘.Robocup半场防守中的一种强化学习算法[J].计算机技术与发展,2008,18(1):59-62.

上海交通大学学报

2001年第2期

浏览历史

内容加载中请稍等...

基于Markov对策和强化学习的多智能体协作研究被引量：7

参考文献1

同被引文献62

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于Markov对策和强化学习的多智能体协作研究 被引量：7

参考文献1

同被引文献62

引证文献7

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于Markov对策和强化学习的多智能体协作研究被引量：7