基于强化学习的多智能体协作实现被引量：1

Multi-agent cooperation based on reinforcement learning

下载PDF

导出

摘要基于马尔科夫过程的强化学习作为一种在线学习方式,能够很好地应用于单智能体环境中。但是由于强化学习理论的限制,在多智能体系统中马尔科夫过程模型不再适用,因此强化学习不能直接用于多智能体的协作学习问题。本文提出了多智能体协作的两层强化学习方法。该方法主要通过在单个智能体中构筑两层强化学习单元来实现。第一层强化学习单元负责学习智能体的联合任务协作策略,第二层强化学习单元负责学习在本智能体看来是最有效的行动策略。所提出的方法应用于3个智能体协作抬起圆形物体的计算机模拟中,结果表明所提出的方法比采用传统强化学习方法的智能体协作得更好。 Reinforcement learning based on Markov decision process is a way of on-line learning, which can be applied to single agent environment. However, due to the theoretical limitation that it assumes that an environment is Markovian, traditional reinforcement learning algorithms cannot be applied directly to multi-agent system. In this paper, a two-layer reinforcement learning method for multi-agent cooperation is presented. The proposed method is realized by adding two-layer reinforcement learning units to every agent. The first layer is for learning global cooperation strategy, and the second layer is for learning efficient action policy in one's own view. An experiment that three agents raise a disk-like object cooperatively has been done. Results show that the cooperative performance with the presented method is better than that using traditional reinforcement learning.

作者陈雪江杨东勇

机构地区浙江工业大学信息工程学院

出处《浙江工业大学学报》 CAS 2004年第5期516-519,572,共5页 Journal of Zhejiang University of Technology

基金浙江省自然科学基金项目(601078)

关键词强化学习多智能体系统协作策略马尔科夫过程单元在线学习模型习作协作学习物体 reinforcement learning Q-learning multi-agent cooperation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP242 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献13

1Piao S, Hong B. Fast reinforcement learning approach to cooperative behavior acquisition in multi-agent system[A]. Proceedings of the 2002 IEEE/RSJ International Conference on Intelligent Robots and Systems EPFL[C]. Lausanne ,Switzerland, 2002. 871-875.
2Mataric M J. Reinforcement learning in the multi-robot domain[J]. Autonomous Robots, 1997, 4(1):73-83.
3Stone P, Veloso M. Using machine learning in the soccer server[A]. Proceedings of the IROS-96 Workshop on RoboCup [C]. Osaka, 1996.
4Suematsu N,Hayashi A. A multiagent reinforcement learning algorithm using extended optimal response[A]. Proceedings of the First International Joint Conference on Autonomous Agents & Multiagent Systems[C]. Bologna Italy, 2002. 370-377.
5Hu J,Michael Wellman P. Multiagent reinforcement learning: theoretical framework and an algorithm[A]. Proceedings.15th International Conf[C]. on Machine Learning, 1998. 242-250.
6Claus Caroline,Boutilier Craig. The dynamics of reinforcement learning in cooperative multiagent systems[A]. Proc[C].Workshop on Multi-Agent Learning, 1997. 602-608.
7孟伟,洪炳熔,韩学东.强化学习在机器人足球比赛中的应用[J].计算机应用研究,2002,19(6):79-81. 被引量：11
8李晓萌,杨煜普,许晓鸣.基于Markov对策和强化学习的多智能体协作研究[J].上海交通大学学报,2001,35(2):288-292. 被引量：7
9蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
10高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30

二级参考文献14

1Christopher J.C.H. Watkins,Peter Dayan.Technical Note: Q-Learning[J].Machine Learning (-).1992(3-4)
2蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
3张汝波,顾国昌,刘照德,王醒策.强化学习理论、算法及应用[J].控制理论与应用,2000,17(5):637-642. 被引量：92
4王蘇音.植物发酵食品中有害微生物安全问题探讨[J].食品安全导刊,2018,0(12):28-28. 被引量：4
5贾金滏,杨立风,刘光鹏.微生物在食品加工中的应用[J].食品研究与开发,2018,39(11):214-219. 被引量：13
6张振东,赵慧君,沈馨,舒娜,耿国庆,郭壮.米酒曲细菌多样性研究[J].中国微生态学杂志,2018,30(6):640-646. 被引量：12
7安飞宇,武俊瑞,解梦汐,姜静,邱博书,唐筱扬,乌日娜.酱块发酵过程中真菌和细菌群落的演替[J].现代食品科技,2018,34(7):61-67. 被引量：11
8黄盼盼,蒋先芝,田建卿.火腿微生物研究进展[J].生物工程学报,2018,34(9):1410-1418. 被引量：14
9解万翠,尹超,宋琳,许志颖,于文露,贾俊涛,赵宏伟,张俊逸,李钰金,杨锡洪.中国传统发酵食品微生物多样性及其代谢研究进展[J].食品与发酵工业,2018,44(10):253-259. 被引量：29
10侯星,易弋,张兴猛,鲁晶娣,赵东玲,黄翠姬,伍时华.发酵食品中微生物的功能特性[J].中国调味品,2019,44(1):191-194. 被引量：28

共引文献64

1朱伟一.格林斯潘斗不过经济规律[J].南风窗,2002(24):61-61.
2张彦铎,闵锋.基于人工神经网络的强化学习在机器人足球中的应用[J].哈尔滨工业大学学报,2004,36(7):859-861. 被引量：7
3郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
4陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
5郭锐,彭军,吴敏.增强Q学习在非确定马尔可夫系统寻优问题中的应用[J].计算机工程与应用,2005,41(13):36-38. 被引量：4
6王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
7宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：13
8高建清,王浩,于磊,方宝富.一种模糊强化学习算法及其在RoboCup中的应用[J].计算机工程与应用,2006,42(6):52-54.
9厉广伟,曹爱增,尹建芹.基于视觉的足球机器人决策规划研究进展[J].济南大学学报（自然科学版）,2006,20(2):155-159. 被引量：2
10王长缨,陈文伟.多agent协同强化学习算法SE-MACOL及其应用[J].广西师范大学学报（自然科学版）,2006,24(4):167-170. 被引量：5

同被引文献4

1Stone P,Veloso M. Multi-agent systems: a survey from a machine learning perspective [ R ]. CMU CS technical report, No. CMU-CS- 97-103.
2Sutton R S, Barto A G. Reinforcement Learning: An Introduction [ M]. Cambridge,MA: MIT Press,1998.
3Watkins C, Dayan P. Q-learning[ J ]. Machine Learning, 1992,8 (3) :279-292.
4Littman M L, Szepesvari C. A Generalized Reinforcement learning Model:Convergence and Application. In:Proc of the 13th Int'l Conf on Machine Learning. Bar, Italy: MorganKanfmann, 1996: 310.

引证文献1

1王帅.基于两层Q-Learning算法的多智能体协作方法研究[J].煤矿机电,2013,34(5):74-76.

1罗三定,鸟胁纯一郎.数字图象中圆形物体的识别及其应用[J].中南矿冶学院学报,1989,20(3):301-309. 被引量：1
2陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
3王雅琴,高华.类圆形物体的特征描述[J].计算机工程,2004,30(1):158-159. 被引量：2
4王智勇,王永强,王钧,李军,吴秋云.多星联合任务规划方法[J].中国空间科学技术,2012,32(1):8-14. 被引量：13
5王志刚.论人工智能技术在Internet与Intranet中的应用[J].办公自动化（综合月刊）,2008(8):54-56.
6成鹏飞,高阳,王仲,张马林.复杂背景下圆形物体分割算法[J].计算机应用,2006,26(10):2360-2361. 被引量：5
7秦岭,阚树林.基于多Agent粒子群改进算法的车间调度[J].价值工程,2013,32(23):58-60.
8段勇,刘兴刚,徐心和.基于强化学习的机器人模糊控制系统设计[J].系统仿真学报,2006,18(6):1597-1600. 被引量：4
9苏浩.基于复杂环境下的圆形物体检测系统[J].中国科技博览,2015,0(5):140-140.
10张文志,吕恬生.强化学习理论在机器人应用中的几个关键问题探讨[J].计算机工程与应用,2004,40(4):69-71. 被引量：2

浙江工业大学学报

2004年第5期

浏览历史

内容加载中请稍等...

基于强化学习的多智能体协作实现被引量：1

参考文献13

二级参考文献14

共引文献64

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多智能体协作实现 被引量：1

参考文献13

二级参考文献14

共引文献64

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于强化学习的多智能体协作实现被引量：1