基于Q-learning的一种多Agent系统结构模型被引量：2

A Structure Model of Multi-agent System Based on Q-learning

下载PDF

导出

摘要多Agent系统是近年来比较热门的一个研究领域,而Q-learning算法是强化学习算法中比较著名的算法,也是应用最广泛的一种强化学习算法。以单Agent强化学习Q-learning算法为基础,提出了一种新的学习协作算法,并根据此算法提出了一种新的多Agent系统体系结构模型,该结构的最大特点是提出了知识共享机制、团队结构思想和引入了服务商概念,最后通过仿真实验说明了该结构体系的优越性。 Multi-agent system（MAS） is a very popular research field in recent years, and Q-learning algorithm is a more famous algorithm, also is one of the most widely used reinforcement learning algorithms. In this paper, a new algorithm based on learning cooperation is proposed. Its basis is Q-learning, a single agent reinforcement learning algorithm. Fi nally, a novel structure model of MAS is proposed. The most significant characteristic of the model is to put forward the mechanism of knowledge sharing, the ideal of team structure and to introduce the concept of facilitator. In the end, it shows the advantage of the structure system by the simulation experiment.

作者许培薛伟

机构地区江南大学物联网工程学院

出处《计算机与数字工程》 2011年第8期8-11,共4页 Computer & Digital Engineering

关键词多AGENT系统强化学习 Q学习体系结构知识共享 multi-agent system（MAS）, reinforcement learning, Q-learning, structure system, knowledge sharing

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1MICHAEL Wooldridge. An Introduction To MultiAgent System[M]. New York: J. Wiley,2002.
2WATKINS C, DAYAN P. QLearning[J]. Machine Learning, 1992,8(3) :279-292.
3Bellman R E. A Markov Decision Process[J]. Journal of Mathematical Mechanics, 1957,6 (5) : 679 - 684.
4吴元斌.单agent强化学习与多agent强化学习比较研究[J].电脑与信息技术,2009,17(1):8-11. 被引量：2
5WATKINS C. Learning From Delayed Rewards[D]. Cambridge: University of Cambridge, 1989.
6郑淑丽,韩江洪,骆祥峰,蒋建文.多Agent系统的协作及强化学习算法研究[J].模式识别与人工智能,2002,15(4):453-457. 被引量：2
7王长缨,尹晓虎,鲍翊平,姚莉.一种共享经验元组的多agent协同强化学习算法[J].模式识别与人工智能,2005,18(2):234-239. 被引量：4
8MICHAEL R. Genesereth, STEVEN P. Ketchpel. Soft Agents[J]. Communications of the ACM, 1994,37 (7) :48-53.
9TAN M. Multi-agent Reinforcement Learning: independent vs. Cooperative Agents[C]//Proceedings of the Tenth International Conference on Machine Learning. [s. l.]..[s. n ],1993:330-337.

二级参考文献31

1Busoniu,L. Babuska, R. De Schutter,B. A Comprehensive Survey of Multiagent Reinforcement Learning [J]. IEEE Transactions on Systems, Man, and Cybernetics - Part C: Applications and Reviews,2008,38 (2):156-172.
2M. L. Littman. Value-function reinforcement learning in Markov games [J]. Journal of Cognitive Systems Research ,2001, (2):55-66.
3C. J. C. H. Watkins, P. Dayan. Technical note: Q-learning [J]. Machine Learning, 1992, ( 8):279-292.
4Weiss G.Muhiagent Systems: A Modem Approach to Distributed Artificial Intelligence [M]. Cambridge, MA: MIT Press, 1999.
5Peter Stone. Learning and Multiagent Reasoning for Autonomous Agents [A]. In 20th International Joint Conference on Artificial Intelligence(IJCAI-07 )[C], Hyderabad, India, 2007:13-30.
6Russell S, Norvig P. Artificial Intelligence: A Modern Approach (Second Edition)[M].北京:清华大学出版社,2006.
7R. S. Sutton, A. G. Barto. Reinforcement Learning: An Introduction [M]. Cambridge, MA: MIT Press, 1998.
8L.P. Kalebling, M. L. Littman, A. W. Moore. Reinforcement learning:. A survey [J].Journal of Artificial Intelligence Research, 1996, (4):237-285.
9Kaelbling L P, Littman M L, Moore A W. Reinforcement Learning: A Survey. Journal of Artificial Intelligence Research, 1996, 4:237-285.
10Watkins C, Dayan P. Q-Learning. Machine Learning, 1992, 8:279-292.

共引文献5

1焦殿科,石川.共享经验的多主体强化学习研究[J].计算机工程,2008,34(11):219-221. 被引量：4
2刘升贵,朱旦晨.一种基于DFS的Agent强化学习策略研究[J].计算机与现代化,2010(12):25-26.
3乔林,罗杰.学习过程中共享经验的Q学习算法的研究[J].计算机科学,2012,39(5):213-216. 被引量：1
4刘树城,谢志军.基于功率控制的无线体域网间干扰研究[J].数据通信,2015(5):27-30.
5张峰,刘凌云,郭欣欣.基于改进Q-学习算法的多阶段群体决策模型[J].控制与决策,2019,34(9):1917-1922. 被引量：4

同被引文献17

1Sijie CHEN,Chen-Ching LIU.From demand response to transactive energy: state of the art[J].Journal of Modern Power Systems and Clean Energy,2017,5(1):10-19. 被引量：31
2Zafra A,Gibaja E L,Ventura S. Multiple instance learn - ing with multiple obj'ective genetic programming for web- mining [J]. Applied Soft Computing,2011,11:93 - 102.
3R thomas. L DaSilva, A MacKenzie. Cognitive network [C] . In New Frontiers in Dynamic Spectrum Access Networks2005 (DySPAN). First IEEE International Sym-posium,2005:352 - 360.
4XU Yu - hua, WANG Jin - long, WU Qi - hui, et al. Op- portunistic spec -tram access in unknown dynamic envi- ronment: a game - theoretic sto - chastic learning solution [ J]. IEEE Trans on Wireless Communi - cations, 2012, 11(4) : 1380-1391.
5金婷婷.认知无线电中多用户环境下协作频谱感知策略的研究[D].武汉:华中科技大学,2012.
6G. Faulhaber, D. Farber. Spectrum management, property rights, markets, and the commons [ C ] . Telecommunica- tions Policy Research Conference Proceedings, 2003.
7李默,徐友云,蔡跃明.基于Q-Learning的认知无线电系统感知管理算法[J].电子与信息学报,2010,32(3):623-628. 被引量：3
8沈乐,毛新军,董孟高.基于强化学习的自适应多Agent系统的构造[J].计算机工程与科学,2011,33(12):72-77. 被引量：2
9王程,刘念,成敏杨,马丽.基于Stackelberg博弈的光伏用户群优化定价模型[J].电力系统自动化,2017,41(12):146-153. 被引量：18
10郝然,艾芊,姜子卿.区域综合能源系统多主体非完全信息下的双层博弈策略[J].电力系统自动化,2018,42(4):194-201. 被引量：30

引证文献2

1康俊丽,郭坤祺,曹亚兰,王思璇.一种多Agent系统频谱接入算法[J].无线通信技术,2015,24(4):7-12. 被引量：1
2王丹,刘博,贾宏杰,张子阳,陈竟成,苏朋飞.基于强化学习的产消用户端对端电能交易决策[J].电力系统自动化,2021,45(3):139-147. 被引量：11

二级引证文献12

1徐琳,赵知劲.基于案例推理和启发式Q学习的资源分配算法[J].计算机应用研究,2019,36(12):3657-3660. 被引量：2
2尚楠,黄国日.面向零售侧的点对点交易体系:概念、国际经验与相关启示[J].综合智慧能源,2022,44(2):49-59. 被引量：3
3周玮,高垚,彭飞翔,吴建中,党伟,刘颖,王钟辉.基于模型预测控制的能源产消者端对端交易策略[J].电力系统保护与控制,2022,50(9):1-10. 被引量：7
4陈永东,刘友波,沈晓东,许立雄,刘进,李利娟.面向城市能源系统分布式资源的边缘智能技术综述[J].电力系统自动化,2022,46(17):142-152. 被引量：4
5范宏,于伟南,柳璐,窦真兰.双碳目标下考虑电氢互补的智慧园区多楼宇协调调度[J].电力系统自动化,2022,46(21):42-51. 被引量：21
6祁浩南,刘友波,高红均,王潇笛,潘思蓉,李争博.考虑运行约束快速校核的配电网多主体端对端交易机制[J].电力系统自动化,2022,46(23):20-28. 被引量：1
7吴毓峰,杨胜春,潘振宁,余涛,刘前进,邱星宇.无协调主体的多产消者完全端到端交易机制[J].电力系统自动化,2023,47(3):96-103. 被引量：3
8李吉峰,邹楠,李卫东,吴俊,张明泽.计及需求灵活性的地区绿色证书、碳排放权及电力联合交易分析[J].电网技术,2023,47(8):3164-3173. 被引量：2
9张帅,裴玮,马腾飞,肖浩,唐成虹.考虑马尔可夫决策的产消者P2P电能交易非合作博弈模型[J].电力系统自动化,2023,47(13):18-27. 被引量：2
10付蓉,陆振熙,蒋宇,吴巨爱,梁肖.光伏发电供保水平下新型用户交易行为决策研究[J].价格理论与实践,2023(5):65-70.

1尹辉,尹政,李振军.数据仓库技术及其应用[J].福建电脑,2004,20(3):14-15. 被引量：3
2王帅.基于两层Q-Learning算法的多智能体协作方法研究[J].煤矿机电,2013,34(5):74-76.
3任艳斐,张军锋.煤矿井下移动机器人路径规划的算法优化[J].煤炭技术,2013,32(7):80-82. 被引量：2
4徐学东.基于Q-learning算法的煤矿井下移动机器人路径规划[J].煤炭技术,2013,32(2):105-106. 被引量：4
5望安全,陈宗海,文锋.一种基于强化学习的控制算法研究[J].计算机仿真,2003,20(11):42-44. 被引量：1
6刘升贵,朱旦晨.一种基于DFS的Agent强化学习策略研究[J].计算机与现代化,2010(12):25-26.
7金锋,宋士吉,吴澄.基于NDP的遗传算法及其在JSP中的应用[J].清华大学学报（自然科学版）,2006,46(4):488-491. 被引量：3
8陈洪锋,刘勇坚,罗均.数据规划在电力生产管理系统建设中的应用[J].中国高新技术企业,2008(18):151-152.
9吴元斌.单agent强化学习与多agent强化学习比较研究[J].电脑与信息技术,2009,17(1):8-11. 被引量：2
10钟玉峰.一种分布式入侵检测系统体系结构[J].应用科技,2008,35(7):47-49.

计算机与数字工程

2011年第8期

浏览历史

内容加载中请稍等...

基于Q-learning的一种多Agent系统结构模型被引量：2

参考文献9

二级参考文献31

共引文献5

同被引文献17

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Q-learning的一种多Agent系统结构模型 被引量：2

参考文献9

二级参考文献31

共引文献5

同被引文献17

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于Q-learning的一种多Agent系统结构模型被引量：2