Multi-task Coalition Parallel Formation Strategy Based on Reinforcement Learning 被引量：6

Multi-task Coalition Parallel Formation Strategy Based on Reinforcement Learning

下载PDF

导出

摘要代理人联盟是代理人协作和合作的一种重要方式。形成一个联盟，代理人能提高他们的能力解决问题并且获得更多的实用程序。在这份报纸，新奇多工联盟平行形成策略被介绍，并且多工联盟形成的过程是一个 Markov 决定过程的结论理论上被证明。而且，学习的加强被用来解决多工联盟平行的代理人行为策略，和这个过程形成被描述。在多工面向的领域，策略罐头有效地并且平行形式多工联盟。 Agent coalition is an important manner of agents＇ coordination and cooperation.Forming a coalition,agents can enhance their ability to solve problems and obtain more utilities.In this paper,a novel multi-task coalition parallel formation strategy is presented,and the conclusion that the process of multi-task coalition formation is a Markov decision process is testified theoretically.Moreover,reinforcement learning is used to solve agents＇ behavior strategy,and the process of multi-task coalition parallel formation is described.In multi-task oriented domains,the strategy can effectively and parallel form multi-task coalitions.

作者 JIANG Jian-Guo SU Zhao-Pin QI Mei-Bin ZHANG Guo-Fu

机构地区 Department of Computer and Information Science Engineering Research Center of Safety Critical Industrial Measurement and Control Technology

出处《自动化学报》 EI CSCD 北大核心 2008年第3期349-352,共4页 Acta Automatica Sinica

基金 Supported by National Natural Science Foundation of China（60474035）,National Research Foundation for the Doctoral Program of Higher Education of China（20050359004）,Natural Science Foundation of Anhui Province（070412035）

关键词强化学习多任务合并平行排列马尔可夫决策过程 Multi-task coalition parallel formation Markov decision process reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1宋梅萍,顾国昌,张国印.随机博弈框架下的多agent强化学习方法综述[J].控制与决策,2005,20(10):1081-1090. 被引量：12
2罗翊,石纯一.Agent协作求解中形成联盟的行为策略[J].计算机学报,1997,20(11):961-965. 被引量：48
3蒋建国,夏娜,于春华.基于能力向量发挥率和拍卖的联盟形成策略[J].电子学报,2004,32(F12):215-217. 被引量：20
4张国富,蒋建国,夏娜,苏兆品.基于离散粒子群算法求解复杂联盟生成问题[J].电子学报,2007,35(2):323-327. 被引量：33

二级参考文献77

1蒋建国,夏娜,齐美彬,木春梅.一种基于蚁群算法的多任务联盟串行生成算法[J].电子学报,2005,33(12):2178-2182. 被引量：26
2Justin Lenzo, Todd Sarver. Correlated Equilibrium in Evolutionary Models with Subpopulations [A]. The 15th Annual lnt Conf on Game Theory[C]. NY, 2004.
3Eilon Solan, Nicolas Vieille. Correlated Equilibrium in Stochastic Games[J]. Games and Economic Behavior,2002, 38(2): 362-399.
4Watkins P Dayan. Q-Learning[J]. Machine Learning,1992, 8(3); 279-292.
5Michael L Littman, Szepesvari C. A Generalized Reinforcement Learning Model: Convergence and Applications[J]. Proc of the 13th Int Conf on Machine Learning[C]. Bari, 1996: 310-318.
6Michael Bowling. Convergence Problems of Generalsum Multiagent Reinforcement Learning[A]. Proc of the 17th Int Conf on Machine Learning[C]. Stanford,2000 : 89-94.
7Bowling M, Veloso M. Rational and Convergent Learning in Stochastic Games[A]. Proc of the 17th Int Joint Conf on Artificial Intelligence[C]. Seattle,2001 : 1021-1026.
8Singh S, Kearns M, Mansour Y. Nash Convergence of Gradient Dynamics in General-sum Games [A].Proc of the 16th Conf on Uncertainty in Artificial Intelligence[C]. Stanford: Morgan Kaufman, 2000:541-548.
9Fudenberg D, Levine D K. The Theory of Learning in Games[M]. Boston: MIT Press, 1999.
10Michael L Littman, Peter Stone. A Polynomial-time Nash Equilibrium Algorithm for Repeated Games[A].ACM Conf on Electronic Commerce[C]. San Diego,2003: 48-54.

共引文献94

1武志峰,黄厚宽.用差异演化算法求解单任务Agent联盟[J].计算机研究与发展,2006,43(z1):186-189. 被引量：3
2刘桂庆,李凯.Agent模型的伦理学分类[J].大连理工大学学报,2003,43(z1):129-131. 被引量：1
3VU Khuong.Study on attitude determination based on discrete particle swarm optimization[J].Science China(Technological Sciences),2010,53(12):3397-3403. 被引量：1
4李剑,成保栋,曹元大.一种多智能体协作中形成联盟的机制[J].计算机工程,2004,30(15):10-12. 被引量：3
5龚勇,姚莉,张维明,王长缨.多主体系统中的联盟形成技术综述[J].计算机工程与科学,2004,26(6):100-104. 被引量：3
6王磊,唐华斌,孙增圻.多机器人系统形成联合协作的综合评价算法[J].清华大学学报（自然科学版）,2005,45(4):505-508. 被引量：2
7蒋建国,夏娜,于春华.基于能力向量发挥率和拍卖的联盟形成策略[J].电子学报,2004,32(F12):215-217. 被引量：20
8蒋嶷川,钟亦平,张世永.Agent联盟通信机制的动态构造及其Ambient演算验证分析[J].模式识别与人工智能,2005,18(3):291-296. 被引量：1
9蒋建国,夏娜.基于MAS的分布式智能控制初探[J].合肥工业大学学报（自然科学版）,2005,28(9):1085-1088. 被引量：6
10周留军,王靖,殷凡.基于学习者个性因素的多Agent协同学习系统[J].计算机工程与应用,2005,41(30):225-228. 被引量：2

同被引文献67

1刘治翔,王帅,谢春雪,谢苗,毛君.油缸位移传感器精度对掘进机截割成形误差影响规律研究[J].仪器仪表学报,2020,41(8):99-109. 被引量：10
2吴淼,李瑞,王鹏江,沈阳,郑伟雄,王东杰.基于数字孪生的综掘巷道并行工艺技术初步研究[J].煤炭学报,2020,45(S01):506-513. 被引量：41
3赵学社.煤矿高效掘进技术现状与发展趋势[J].煤炭科学技术,2007,35(4):1-10. 被引量：262
4宋作文,王志强,任耀飞,王红亮,李军.EBZ-150掘锚一体机在煤巷掘进中的应用[J].煤炭科学技术,2013,41(S2):41-42. 被引量：25
5蒋建国,夏娜,于春华.基于能力向量发挥率和拍卖的联盟形成策略[J].电子学报,2004,32(F12):215-217. 被引量：20
6孙海燕,王晓东,周斌,贾焰,王怀民,邹鹏.基于存储联盟的双层动态副本创建策略—SADDRES[J].电子学报,2005,33(7):1222-1226. 被引量：15
7蒋建国,夏娜,齐美彬,木春梅.一种基于蚁群算法的多任务联盟串行生成算法[J].电子学报,2005,33(12):2178-2182. 被引量：26
8周浦城,洪炳镕,黄庆成.一种新颖的多agent强化学习方法[J].电子学报,2006,34(8):1488-1491. 被引量：8
9Yang Jin-gan, Luo Zheng-hu. Coalition formation mechanism in multi-agent systems based on genetic algorithms [ J ]. Applied Soft Computing Journal, 2007, 7 (2) : 561 - 568.
10Shapley L S.A value for n-person games[ A] .Roth A E. The Shapley Value[ M ]. Cambridge: Cambridge University Press, 1995.8,31 -40.

引证文献6

1李剑,景博,杨义先.一种基于奖励机制的agent联盟形成策略[J].电子学报,2008,36(B12):71-75. 被引量：5
2Zhao-Pin Su,Jian-Guo Jiang,Chang-Yong Liang2＇ 3 Guo-Fu Zhang,Guo-Fu Zhang.Path Selection in Disaster Response Management Based on Q-learning[J].International Journal of Automation and computing,2011,8(1):100-106. 被引量：3
3Min Fang,Frans C.A. Groen.Collaborative multi-agent reinforcement learning based on experience propagation[J].Journal of Systems Engineering and Electronics,2013,24(4):683-689. 被引量：5
4苏兆品,张国富,蒋建国,岳峰,张婷.基于非支配排序差异演化的应急资源多目标分配算法[J].自动化学报,2017,43(2):195-214. 被引量：18
5马宏伟,王世斌,毛清华,石增武,张旭辉,杨征,曹现刚,薛旭升,夏晶,王川伟.煤矿巷道智能掘进关键共性技术[J].煤炭学报,2021,46(1):310-320. 被引量：53
6马宏伟,王鹏,王世斌,毛清华,石增武,夏晶,杨征,薛旭升,王川伟.煤矿掘进机器人系统智能并行协同控制方法[J].煤炭学报,2021,46(7):2057-2067. 被引量：19

二级引证文献97

1王岩,张旭辉,曹现刚,赵友军,杨文娟,杜昱阳,石硕.掘进工作面数字孪生体构建与平行智能控制方法[J].煤炭学报,2022,47(S01):384-394. 被引量：10
2雷孟宇,张旭辉,杨文娟,沈奇峰,张超,万继成,王恒.煤矿掘进装备视觉位姿检测与控制研究现状与趋势[J].煤炭学报,2021,46(S02):1135-1148. 被引量：14
3史先影.掘锚一体机高效掘进系统智能控制技术研究[J].煤炭科学技术,2022,50(S02):265-270. 被引量：3
4吴晓旭,罗会强,丁震.国家能源集团掘进智能化建设现状与路径研究[J].工矿自动化,2021,47(S01):7-9. 被引量：9
5胡小璠.模糊条件下境外应急物资自适应分配方法[J].科技通报,2020,36(6):97-100. 被引量：2
6刘垚,郑琳,郑凯,王肃,廖启丹.基于申威众核处理器的NSGA-Ⅱ并行和优化方法[J].计算机应用研究,2020,37(1):96-101. 被引量：1
7孙少军.浅析煤矿巷道掘进的影响因素及对策[J].城市建设理论研究（电子版）,2022(34):67-69. 被引量：1
8李鹏.基于改进PSO-BP算法的机器人目标位姿识别方法[J].国外电子测量技术,2023,42(1):7-12. 被引量：5
9张国富,周鹏,蒋建国,苏兆品,田敬北,刘扬.基于虚拟联盟的重叠联盟形成算法[J].电子学报,2012,40(1):121-127. 被引量：8
10曹义亲,张贞,黄晓生.基于忠诚度的多智能体联盟效用分配策略[J].计算机科学,2014,41(5):235-238. 被引量：2

1最详细洋流图出炉[J].科学世界,2008(6):32-32.
2东芝开发43nm CMOS的16Gb NAND闪存[J].电子设计应用,2008(4):142-142.
3兰少华,叶东海,吴慧中.一种AGENT任务求解联盟形成策略[J].小型微型计算机系统,2004,25(5):941-944. 被引量：11
4冀俊忠,程亮,赵学武,刘椿年.基于相对距离和关联度的多任务联盟的蚁群算法[J].北京工业大学学报,2013,39(1):57-62. 被引量：1
5关伟,李建华.新一代信息集成技术—工作流管理技术[J].计算机时代,2001(4):35-37. 被引量：2
6冀俊忠,程亮,赵学武,刘椿年.量子蚁群算法求解多任务联盟问题[J].北京工业大学学报,2013,39(3):412-419. 被引量：8
7严正香,吴明慧.基于Web Service的可视化微工作流系统设计[J].信阳农业高等专科学校学报,2011,21(3):116-119.
8还原真实本色打造全实时新历程晨熙CR－8816／8808／8804全D1DVR拆机评测[J].中国公共安全,2010,0(20):108-109.
9硬件维护实例[J].计算机与网络,2001,0(21):5-5.
10Yi SHEN Jian-ping FAN.Multi-task multi-label multiple instance learning[J].Journal of Zhejiang University-Science C(Computers and Electronics),2010,11(11):860-871.

自动化学报

2008年第3期

浏览历史

内容加载中请稍等...