基于蚁群算法和轮盘算法的多Agent Q学习被引量：5

Multiagent Q-learning based on ant colony algorithm and roulette algorithm

下载PDF

导出

摘要提出了一种新颖的基于Q-学习、蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其学习速度骤然下降。另外,Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。把蚁群算法、轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效地提高学习效率。 Authors present a novel Multiagent Reinforcement Learning Algorithm based on Q-Learning,ant colony algorithm and roulette algorithm.In reinforcement learning algorithm,when the number of agents is large enough,all of the action selection methods will be failed：the speed of learning is decreased sharply.Besides,as the Agent makes use of the Q value to choose the next action,the next action is restrainted seriously by the high Q value,in the prophase.So,authors combine the ant conlony algorithm,roulette algorithm with Q-learning,hope that the problems will be resolved with the algorithm proposed.At last,the theory analysis and experiment result both demonstrate that the improved Q-learning is feasible and increases the learning efficiency.

作者孟祥萍王圣镔王欣欣

机构地区长春工程学院电气与信息学院东北电力大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2009年第16期60-62,共3页 Computer Engineering and Applications

基金吉林省科技发展计划项目(No.20070530)~~

关键词多Agent强化学习算法蚁群算法轮盘赌算法 muhiagent reinforcement learning algorithm ant colony algorithm roulette algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1StUtzle T,Hoos H.MAX-MIN ant system[J].Future Generation Computer Systems,2000, 16:889-915.
2孙焘,王秀坤,刘业欣,张名举.一种简单蚂蚁算法及其收敛性分析[J].小型微型计算机系统,2003,24(8):1524-1527. 被引量：21
3陈崚,沈洁,秦玲.蚁群算法求解连续空间优化问题的一种方法[J].软件学报,2002,13(12):2317-2323. 被引量：68
4张云,刘建平.Q学习的改进研究及其仿真实验[J].计算机仿真,2007,24(10):111-114. 被引量：3
5Bowling M.Convergenee and no-regret in multiAgent learning[G]// Advances in Natural Information Processing Systems,2004.
6Jennings N R,Corera J M,Laresgoiti I.Developing industrial multiagent systems[C]//Proceedings of the First International Conference on MuhiAgent Systems ( ICMAS' 95 ).Menlo Park, California: AAAI Press, 1995:423-430.
7高阳,周志华,何佳洲,陈世福.基于Markov对策的多Agent强化学习模型及算法研究[J].计算机研究与发展,2000,37(3):257-263. 被引量：30
8郭锐,彭军,吴敏.增强Q学习在非确定马尔可夫系统寻优问题中的应用[J].计算机工程与应用,2005,41(13):36-38. 被引量：4

二级参考文献30

1林明,朱纪洪,孙增圻.固定长度经验回放对Q学习效率的影响[J].计算机工程,2006,32(6):7-10. 被引量：1
2Narendra P,Sandip S,Maria Gordin.Shared memory based cooperative coevolution[C].In:Proceedings of the 1998 IEEE International Conference on Evolutionary Computation.Alaska,IEEE Press, 1998:570-574.
3M L Littman.Markov games as a framework for multiagent reinforcement leaming[C].In :Proceedings of the 11th International conference on Machine learning,1994.
4Kaelbling L P,Littman M L,Moore A W.Reinforcement learning:A survey[C].In :Journal of AI Research,4:237-285.
5Sandip Sen-Chair.Adaption,Coevolution and Learning in Multiagent Systems:Papers from the 1996 AAAI Spring Symposium[R].AAAI Press, AAAI Technical Report SS-96-01.
6Weiss G,Dillenbourg P.What is multi in multiagent learning?Dillenbourg P,Collaborative learning,cognitive and computational approaches. Amsterdam:Pergamon Press, 1998:64-80.
7M L Littman.Friend-or-foe :Q-learnlng in general-sum games[C].In: Proceedings of the Eighteenth International Conference on Machine Learning,2001.
8J Hu.Best-response algorithm for muhiagent reinforcement learning. 2003.
9Tom M Mitchell.Machine learning.McGraw-Hill Companies,Inc.1997: 367-387.
10Watkins C,Dayan P.Q-learning.Maehine learning,8,1992:279-292.

共引文献117

1陈平.适应形势发展要求加强爱国主义教育[J].福建教育学院学报,2005,2(4):7-10.
2叶志伟,周欣,夏彬.蚁群算法研究应用现状与展望[J].吉首大学学报（自然科学版）,2010,31(1):35-39. 被引量：2
3刘丽亚.基于SD模型的城市群—交通影响机理研究[J].道路交通与安全,2011,11(1):41-45. 被引量：3
4郝宗波,洪炳镕,周彤.基于模糊Q-学习的多智能体协作策略研究[J].哈尔滨工业大学学报,2004,36(7):931-933. 被引量：1
5李亮,迟世春,林皋.基于蚁群算法的复合形法及其在边坡稳定分析中的应用[J].岩土工程学报,2004,26(5):691-696. 被引量：47
6唐泳,马永开,唐小我.用改进蚁群算法求解函数优化问题[J].计算机应用研究,2004,21(9):89-91. 被引量：7
7陈雪江,杨东勇.基于强化学习的多智能体协作实现[J].浙江工业大学学报,2004,32(5):516-519. 被引量：2
8詹士昌.蚁群算法在连续性空间优化问题中的应用[J].杭州师范学院学报（自然科学版）,2004,3(5):395-399. 被引量：2
9陈雪江,杨东勇,范荣真.多智能体协作的两层强化学习实现方法[J].计算机工程,2005,31(3):192-194. 被引量：4
10张勇德,黄莎白.多目标优化问题的蚁群算法研究[J].控制与决策,2005,20(2):170-173. 被引量：59

同被引文献35

1管霖,冯垚,刘莎,石东.大规模配电网可靠性指标的近似估测算法[J].中国电机工程学报,2006,26(10):92-98. 被引量：61
2欧阳东,陈国荣,王滨.智能建筑办公环境的无线联网节能控制系统及其控制方法:中国,101706663A[P].2010-05.12.
3杨柱勇,吴寿克,罗维芳,等.智能办公大楼环境管理系统[EB/OL].(2010).http://dbpub.cnki.net/Grid2008/Dbpub/detail.aspx?filename=SNAD000001362382&dbname=SNAD&uid.WEEvREcwSlJHSldSdnQlZkklYkpFRWZ-kS2JFVEl6aDhZMDl0N2NDcXpxQkt6R1BzeW9yMGRJd-jzEQINxMw恤PQ==.
4Jennings N R, Sycara K,Wooldridge M.A roadmap of Agent research and development[J].Autonomous Agent and Multi-Agent System, 1998,1 ( 1 ) :275-306.
5Jouffe L.Fuzzy inference system leaning by reinforcement methods[J].IEEE Transactions on Systems,Man,and Cy- bernetics, Part C : Applications and Reviews, 1998,28 (3) : 338-355.
6Watkins C J C H,Dayan P.Q learning[J].Machine Learn- ing, 1992,8 (3) : 279-292.
7Yao Jinyi.An application in RoboCub combining Q-learn- ing with adversarial planning[C]//Proceedings of the 4th World on Intelligent Control and Automation, Shanghai, China, 2002 : 10-14.
8王明常,何月,许军强,王志恒.基于GIS的长白山景观格局演化信息图谱分析[J].测绘科学,2008,33(6):33-35. 被引量：8
9张宝光.人工神经网络在遥感数字图像分类处理中的应用[J].国土资源遥感,1998,10(1):21-27. 被引量：36
10黎夏,刘小平,何晋强,李丹,陈逸敏,庞瑶,李少英.基于耦合的地理模拟优化系统[J].地理学报,2009,64(8):1009-1018. 被引量：45

引证文献5

1王海珍,廉佐政,滕艳平.智能办公环境中多Agent模糊Q学习研究[J].计算机工程与应用,2012,48(18):231-235. 被引量：1
2鲁斌,衣楠.微网控制系统中多Agent Q学习算法的研究[J].软件,2013,34(11):80-82.
3王明常,郭鑫,王凤艳,张馨月.基于FLUS的长春市土地利用动态变化与预测分析[J].吉林大学学报（地球科学版）,2019,49(6):1795-1804. 被引量：24
4王梓耀,陈俊斌,林丹,曾广璇,余涛.基于精英蚁群Q算法的中压配电网双Q规划模型[J].电力自动化设备,2020,40(11):32-39. 被引量：10
5海星朔,徐炳辉,任羿,崔京京.基于改进鸽群优化的机器人自抗扰控制方法[J].郑州大学学报（工学版）,2019,0(4):20-24. 被引量：7

二级引证文献42

1杨朔,苏昊,赵国平.基于PLUS模型的城市生态系统服务价值多情景模拟——以汉中市为例[J].干旱区资源与环境,2022,36(10):86-95. 被引量：48
2李裕后.无线局域网的时代已经到来[J].现代电信科技,2000(4):23-25. 被引量：2
3吕乐章,艾月,郝传斌,岳志睿,陈旭龙.基于模糊自抗扰的四旋翼无人机设计[J].电子技术与软件工程,2020(10):105-108.
4李俊锋,刘吉平.2000-2018年长吉图地区土地利用动态变化研究[J].南方农业,2020,14(15):104-106. 被引量：1
5欧阳海滨,全永彬,高立群,邹徳旋.基于混合遗传粒子群优化算法的层次路径规划方法[J].郑州大学学报（工学版）,2020,41(4):34-40. 被引量：8
6李胜鹏,柳建玲,林津,范胜龙.基于土地利用情景的福建省生态经济系统协调度时空演变模拟[J].水土保持研究,2021,28(1):234-241. 被引量：4
7李桂鑫,王伟臣,杨白洁,王哲,孙阔,刘洪.高比例清洁能源接入与终端电气化率提升对城市电网规划影响分析[J].通信电源技术,2021,38(1):34-36.
8罗鸿,杨存建.2005—2015年四川省土地利用变化及驱动力分析[J].生态科学,2021,40(1):86-94. 被引量：15
9马欢,冯朝阳,宋婷,计伟,杨娇,李付杰.1990—2018年赤水河流域土地利用变化分析[J].环境工程技术学报,2021,11(3):428-436. 被引量：11
10吴敏,徐兴雷,尚猛.基于双种群鲨鱼优化算法的自抗扰机械臂轨迹跟踪[J].计算机应用与软件,2021,38(6):231-237. 被引量：3

1孟祥萍,王圣镔,王欣欣.多Agent Q学习几点问题的研究及改进[J].计算机工程与设计,2009,30(9):2274-2276. 被引量：5
2李甫,徐鲁强.基于复杂网络的P2P流媒体网络的研究[J].内江科技,2008,29(2):139-139. 被引量：1
3雷航,陈丽敏.Markov链使用模型的测试用例生成方法研究[J].电子科技大学学报,2011,40(5):732-736. 被引量：3
4王潇,王红卫,祁超.基于多Agent强化学习的流水线维护策略[J].系统工程学报,2013,28(5):702-708. 被引量：5
5王小彤,侯立刚,苏成利.一种改进的蚁群算法求解多维背包问题[J].辽宁石油化工大学学报,2015,35(4):53-57. 被引量：7
6C.S.Lam.谈谈振荡器[J].今日电子,2009(5):40-41.
7屈迟文.基于优化模型的类级测试数据自动生成研究[J].科学技术与工程,2012,20(30):7920-7923.
8乔阳,唐昊,程文娟,江琦,马学森.一种基于多Agent强化学习的无线传感器网络多路径路由协议[J].合肥工业大学学报（自然科学版）,2016,39(7):896-899. 被引量：7
9郭凌云.多Agent强化学习方法与应用[J].福建电脑,2015,31(5):92-93.
10毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2

计算机工程与应用

2009年第16期

浏览历史

内容加载中请稍等...

基于蚁群算法和轮盘算法的多Agent Q学习被引量：5

参考文献8

二级参考文献30

共引文献117

同被引文献35

引证文献5

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于蚁群算法和轮盘算法的多Agent Q学习 被引量：5

参考文献8

二级参考文献30

共引文献117

同被引文献35

引证文献5

二级引证文献42

相关作者

相关机构

相关主题

浏览历史

基于蚁群算法和轮盘算法的多Agent Q学习被引量：5