多agent协同强化学习算法SE-MACOL及其应用被引量：5

Multi-agent Cooperative Reinforcement Learning Algorithm SE-MACOL and Its Application

下载PDF

导出

摘要针对多agent团队中各成员之间是协作关系且自主决策的学习模型,在此对Q学习算法进行了适当扩充,提出了适合于多agent团队的一种共享经验元组的多agent协同强化学习算法。其中采用新的状态行为的知识表示方法,采用相似性变换和经验元组的共享,能够提高多agent团队协同工作的效率。最后将该算法应用于猎人捕物问题域,实验结果表明该算法能够明显加快多个猎人合作抓捕猎物的进程。 This paper extends Q-learning algorithm properly to multi-agent cooperative team domain, in which members make their decisions independently,and proposes a shared experience tuples multi-agent cooperative reinforcement learning algorithm. A new knowledge representation form composed of sequential pair as （state-value,action-value） is proposed, and experience tuples are shared with other agents in one team by through similarity transformation according to homogeneous subtasks. By importing this learning algorithm,not only the space of state-action is reduced,but also the learning efficiency is improved ,and it shows that cooperation efficiency of the team is improved obviously. In the end ,the algorithm is applied to pursuit game domain,and the result shows the validity of the algorithm that it can speed up the progress of pursuit task.

作者王长缨陈文伟

机构地区济南军区装备部自动化站国防科技大学信息系统与管理学院

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2006年第4期167-170,共4页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(70371008)

关键词多AGENT学习强化学习 Q学习状态行为空间协作团队 multi-agent learning reinforcement learning Q-learning state-action space cooperative team

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1王珏,石纯一.机器学习研究[J].广西师范大学学报（自然科学版）,2003,21(2):1-15. 被引量：77
2KAELBLING L P,LITTMAN M L,MOORE A W.Reinforcement learning:A survey[J].Journal of Artificial Intelligence Research,1996(4):237-285.
3RIBEIRO C.Reinforcement learning agents[C]//Artificial Intelligence Review.Netherlands:Kluwer Academic Publishers,2002(17):223-250.
4蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
5TAN Ming.Multi-agent reinforcement learning:Independent vs.cooperative agents[C]//Proceedings of the Tenth International Conference on Machine Learning.USA:Morgan Kaufmann Publishers,1993:330-337.

二级参考文献52

1WienerN.控制论(中译本)[M].北京：科学出版社,1962..
2Yao Y,Lin T. Generalization of rough sets using model logics[J]. Intelligent Automation and Soft Computing, 1996,2(2):103-120.
3Skowron A,Rauszer C. The discernibility matrices and functions in information systems [A]. Slowinski R. Ifitelligent decision support-handbook of applications and advances of the rough sets theory[C]. Dordrecht :Kluwer Academic Publishers, 1992. 331-362.
4Han J,Kamber M. Data mining:Concepts and techniques [M]. San Mateo :Morgan Kaufmann Publishers, 2000.
5Zhou Yu-jian,Wang Jue. Rule + exception modeling based on rough set theory[A]. Polkowski L,Skowron A. Rough sets and current trends in computing[C]. Berlin :Springer, 1998. 529-536.
6Kaelbling L,Littman M ,Moore A. Reinforcement learning :A survey[J]. Journal of Artificail Intelligence Research,1996,4:237-285.
7Arbib M. Brains machines and mathematics[M]. New York :McGraw Hill companies, 1964.
8Ashby W. Design for a brain the origin of adaptive behavior[M]. London :Chapman & Hall, 1950.
9Holland J. Adaptation in natural and artificial systems[M]. Ann Arbor:University of Michigan Press ,1975.
10Sutton R ,Barto A. Reinforcement learning :An introduction[M]. Cambridge ,MA :MIT Press, 1998.

共引文献106

1朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
2张彦铎,闵锋.基于人工神经网络的强化学习在机器人足球中的应用[J].哈尔滨工业大学学报,2004,36(7):859-861. 被引量：7
3孙建涛,郭崇慧,陆玉昌,石纯一.多项式核支持向量机文本分类器泛化性能分析[J].计算机研究与发展,2004,41(8):1321-1326. 被引量：16
4王炳奇,何星.基于模糊数据库的专家系统实现方法[J].计算机应用,2004,24(11):77-80. 被引量：6
5陈雪江,杨东勇.基于强化学习的多智能体协作实现[J].浙江工业大学学报,2004,32(5):516-519. 被引量：1
6贺玲,吴玲达,鲁汉榕,朱世松.一种可用于基于内容智能检索的知识表示方式[J].计算机工程与应用,2004,40(35):90-93. 被引量：2
7陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
8王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
9刘郁,陈耘志,张兵.图像挖掘中利用类特征集成的自动学习算法研究[J].电脑知识与技术（技术论坛）,2005(10):71-73.
10沈晓蓉,张海,孙先仿,范跃祖.基于遗传算法的学习分类器系统研究[J].控制与决策,2006,21(3):323-326. 被引量：4

同被引文献28

1祝玉华,甄彤.基于Agent的分布式空间数据挖掘研究[J].微电子学与计算机,2005,22(6):1-4. 被引量：4
2包剑,冀常鹏,李义杰.基于移动Agent的分布式入侵检测系统研究[J].长春理工大学学报（自然科学版）,2006,29(4):80-83. 被引量：3
3黎新华,张兆宁.基于Agent的空中交通流量管理系统结构研究[J].交通运输工程与信息学报,2007,5(1):56-61. 被引量：14
4范明孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2001..
5CHAKRABARTI S, DOM B E, KUMAR S R, et al. Mining the web's link structure[J]. Computer,1999,32(8):60- 67.
6胡明华.空中交通流量管理理论[M].南京:南京航空航天大学出版社,2006
7ADAMS M ,KOLITZ S, MILNER J,et al. Evolutionary concepts for decentralized air traffic flow management [J]. Air Traffic Control Quarterly, 1996,4 (10) : 281-306.
8BALL M O,HOFFMAN R. Collaborative decision making air traffic management :a preliminary assessment ,Technical Report RR-99-S[R]. NEXTOR :National Center of Excellence for Aviation Operations Research,1998.
9MINH NGUYEN-DUC,JEAN-PIERRE BRIOT,ALEXIS DROGOUL. An application of multi-agent coordination techniques in air traffic[C]//Proceedings of the IEEE/WIC International Conference on Intelligent Agent Technology, 2003. New York :IEEE Computer Press, 2003 : 699-703.
10张洪海,胡明华,陈世林.基于Agents的终端区流量协同管理研究[C]//第七届全国交通运输领域青年学术会议论文集.北京:中国民航出版社,2007:528-532.

引证文献5

1邓悦.基于Agent技术的数据挖掘系统[J].硅谷,2009,2(1).
2包剑,冀常鹏,李义杰.基于Agent的网络用户浏览行为模式[J].广西师范大学学报（自然科学版）,2007,25(4):224-227.
3王飞,徐肖豪,张静.基于Multi-Agent的空中交通协同流量管理[J].广西师范大学学报（自然科学版）,2008,26(1):125-128. 被引量：7
4钱旭培,李凡长.一种基于DFL的Agent心智模型[J].广西师范大学学报（自然科学版）,2008,26(1):143-145. 被引量：1
5赵志宏,黄蕾,刘峰,骆斌.基于强化学习的多Agent系统规划规则抽取方法[J].广西师范大学学报（自然科学版）,2008,26(1):174-177. 被引量：1

二级引证文献9

1张钧翔,胡明华.基于多Agent的多机场终端区空中交通智能仿真系统设计[J].交通运输工程与信息学报,2009,7(2):90-98. 被引量：9
2程红林,韩雪.基于动态模糊逻辑的Agent推理模型及稳定性[J].江南大学学报（自然科学版）,2010,9(2):201-205. 被引量：1
3梁叶.上海地区复杂天气条件下的协同流量管理方法[J].中国民航大学学报,2012,30(5):16-18. 被引量：1
4王飞,王红勇,韩邦村.多Agent协调模型与算法在时隙分配中的应用[J].航空计算技术,2013,43(4):14-17. 被引量：1
5叶博嘉,胡明华(指导),田勇.基于多Agent技术的飞机协同飞行建模与仿真[J].交通运输工程学报,2013,13(6):90-98. 被引量：6
6黄昱斌.基于Multi-Agent的空中交通流量的探究[J].科技创新与应用,2015,5(14):57-57. 被引量：1
7甘鑫鑫.基于多Agent的空中交通协同流量管理研究[J].科学与财富,2015,7(30):278-278. 被引量：1
8许言.人工智能在空中交通管理中的应用[J].科学家,2016,4(9):21-21.
9何俊颖.基于知识点网络的在线学习者有效学习行为的仿真[J].电子技术与软件工程,2021(7):191-192. 被引量：2

1王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
2李琳娜.基于变学习率的多agent学习算法的研究[J].长春工程学院学报（自然科学版）,2009,10(4):81-83.
3Jeanine Katzel,辛磊夫.建立自动化与IT的协作团队[J].软件,2008(12):18-22.
4赵海燕,曹健,徐文博.基于多Agent学习机制的服务组合[J].计算机工程与科学,2013,35(9):117-121.
5Wade Foster.如何打造优秀的远程团队[J].程序员,2014,0(11):8-9.
6郑延斌,段领玉,李波,梁凯.基于演化博弈惩罚机制的多智能体协作稳定性研究[J].计算机工程与科学,2015,37(9):1682-1687. 被引量：3
7刘菲,曾广周,宋言伟.多Agent协作的强化学习模型和算法[J].计算机科学,2006,33(12):156-158. 被引量：6
8王长缨,陈文伟,姚莉.一种基于团队马尔可夫博弈的多agent协同强化学习算法[J].复旦学报（自然科学版）,2004,43(5):842-844. 被引量：2
9李豹.多Agent MDPs中并行Rollout学习算法[J].安徽工程大学学报,2014,29(2):75-78.
10王长缨,尹晓虎,鲍翊平,姚莉.基于随机博弈的Agent协同强化学习方法[J].计算机工程与科学,2006,28(2):107-110. 被引量：4

广西师范大学学报（自然科学版）

2006年第4期

浏览历史

内容加载中请稍等...

多agent协同强化学习算法SE-MACOL及其应用被引量：5

参考文献5

二级参考文献52

共引文献106

同被引文献28

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

多agent协同强化学习算法SE-MACOL及其应用 被引量：5

参考文献5

二级参考文献52

共引文献106

同被引文献28

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

多agent协同强化学习算法SE-MACOL及其应用被引量：5