基于黑板模型的多智能体合作学习被引量：5

Multiagent Learning Based on Black-board Model

下载PDF

导出

摘要 Q学习算法要求智能体无限遍历每个状态-动作转换,因此在涉及状态-动作空间非常大的应用问题时,导致收敛速度非常慢。借助多智能体的合作学习,智能体之间基于黑板模型的方法通过开关函数相互协调合作,可以更快地定位那些有效的状态-动作转换,避免了无效的更新,从而以较小的学习代价加快了Q表的收敛速度。 Q learning requires each state-action transform be visited infinitely, which limits its application when comes to large state-action space. This paper puts forward a black-board-model based multiagents cooperation learning algorithm. Agents cooperate and coordinate by a bull function which is defined in state-action space. By this bull function, agents can find those effective update more quickly and thus avoid those useless updates. Simulation proves the method can speed up the learning process at lower cost.

作者韩伟韩忠愿

机构地区南京财经大学信息工程学院

出处《计算机工程》 CAS CSCD 北大核心 2007年第22期42-44,47,共4页 Computer Engineering

关键词多智能体系统合作学习黑板模型 multiagents system cooperation learning black-board model

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Wyatt J.Exploration and Inference in Learning from Reinforcement[D].Department of Artificial Intelligence,University of Edinburgh,UK,1997:33-34.
2罗青,李智军,吕恬生.复杂环境中的多智能体强化学习[J].上海交通大学学报,2002,36(3):302-305. 被引量：8
3杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
4Sutton R.Learning to Predict by the Methods of Temporal Differences[J].Machine Learning,1988,3(1):9-44
5于存贵,李自勇,马志文.基于黑板模型的多属性决策模式[J].南京理工大学学报,2000,24(4):334-337. 被引量：5

二级参考文献16

1于功弟.DSS的新决策方法——模糊决策法的应用[J].计算机工程,1993,19(2):20-23. 被引量：2
2张莉芳.地面火炮结构总体方案参数设计专家系统研究（博士学位论文）[M].北京:南京理工大学,1999..
3侯云.基于知识的武器系统综合评价决策支持系统研究（硕士学位论文）[M].南京:南京理工大学,1999..
4彭和平呙福德.决策支持系统的问题处理系统的研究与实现.第五届全国青年计算机工作者会议论文集[M].北京:海洋出版社,1995.747-751.
5[5]Riedmiller M, Merke A, Meier D. Karlsruhe brainstormers- a reinforcement learning approach to robotic soccer[DB/OL].http://illwww.ira.uka.de/-riedml/.
6[1]Noda I. Soccer sever: a tool for researches on multi-agent systems[DB/OL].http://citeseer.nj.nec.com/noda97soccer.html.
7[2]Kitano H, Tambe M, Stone P, et al. The robocup synthetic agent challenge 97[A]. RoboCup-97:Robot Soccer World Cup I[C].Berlin:Springer Verlag, 1998.62-73.
8[3]Stone P. Layered learning in multi-agent learning[D].Pittsburgh:Carnegie Mellon University, 1998.
9[4]Kaelbling P L, Littman L M, Moore W A. Reinforcement learning: a survey[J]. Journal of Artificial Intelligence, 1996,4:237-285.
10MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..

共引文献28

1郭晓军,杨建军,李红卫.Agent仿真中具有先验知识的混合学习算法与混合结构模型[J].海军航空工程学院学报,2007,22(2):247-251.
2范波,潘泉,张洪才.多智能体学习中基于知识的强化函数设计方法[J].计算机工程与应用,2005,41(3):77-79. 被引量：3
3韩阳.北京图书大厦多项活动庆世界图书日[J].出版参考,2006(05S):9-9.
4何涛,白振兴.多智能体系统设计的关键技术研究[J].现代电子技术,2006,29(14):31-34. 被引量：2
5王惠,符策,谢益武,许瑞雪,杨小佳.面向伙伴选择的模糊Markov博弈控制及仿真研究[J].系统仿真学报,2007,19(15):3572-3576. 被引量：1
6冯少荣,肖文俊.并行分布环境下的黑板模型[J].华东理工大学学报（自然科学版）,2008,34(1):96-102. 被引量：4
7韩伟.基于边界样本协调的多智能体合作学习[J].模式识别与人工智能,2008,21(1):111-115.
8毛俊杰,刘国栋.基于先验知识的改进强化学习及其在MAS中应用[J].计算机工程与应用,2008,44(24):156-158. 被引量：2
9邢宇明,白振兴.分层强化学习在足球机器人中的应用[J].微计算机信息,2008,24(32):231-233. 被引量：2
10李红梅,严正.具有先验知识的Q学习算法在AGC中的应用[J].电力系统自动化,2008,32(23):36-40. 被引量：10

同被引文献40

1尚丽辉,汪小帆.一类拥塞问题研究综述[J].控制与决策,2004,19(11):1201-1207. 被引量：1
2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
3韩伟.基于情节序列训练的电子市场智能定价算法[J].计算机工程与应用,2007,43(6):17-19. 被引量：3
4韩伟,陈优广,姜昌华.基于内省推理的多agent在线学习方法[J].模式识别与人工智能,2007,20(2):254-260. 被引量：5
5Straβer M, Schwehm M. A performance model for mobile agent systems//H. R. Arabnia, ed. Proceedings of the Internationa lConference on Parallel and Distributed Processing Techniques andApplieations ( PDPTA '97 ). Las Vegas ( USA ), CSREA Press, 1997,2 : 1132-1140
6China T, Kannapan S. Strategically mobile agents//KRother - meled[R]. Berlin: Springer, 1997 : 149-161
7Schlegel T, Braun P, Kowalczy R. Towards Autonomous Mobile Agents with Emergent Migration Behaviour // AAMAS06. 2006 : 585-592
8Arthur W B. Inductive Reasoning and Bounded Rationality. American Economic Review (Papers and Proceedings), 1994,84 (2) :406-411
9Wooldridge M.多agent系统引论.北京电子工业出版社,2001
10SUN R, PERTERSON T. Multiagent reinforcement learning: weighting and partitioning [ J ]. Neural Networks, 1999, 20(3) :727-753.

引证文献5

1韩伟.基于边界样本协调的多智能体合作学习[J].模式识别与人工智能,2008,21(1):111-115.
2王晓伶,慕德俊,袁源,刘哲元.基于预测机制的MAS协商通信模型[J].计算机科学,2008,35(12):65-68.
3王云,王俊,韩伟.基于进化算法的多智能体合作学习[J].山东大学学报（工学版）,2010,40(6):8-11. 被引量：1
4马子鹏.基于粒子群优化的多智能体协作进化方法[J].机床与液压,2015,43(9):39-41.
5王素娟,吴小滔.电梯群控系统调度算法研究[J].现代电子技术,2022,45(11):104-107. 被引量：1

二级引证文献2

1牟耀荣,石荣亮,黄冀,潘晓光.超级电容储能装置在电梯节能中的应用与分析[J].中国电梯,2023,34(3):13-16.
2马子鹏.基于粒子群优化的多智能体协作进化方法[J].机床与液压,2015,43(9):39-41.

1曹慧,刘玉峰.未标记样本在半监督学习中的应用方法研究[J].广西轻工业,2008,24(12):80-81. 被引量：1
2吕怡龙,黄传河,贾永宏,张海.软件定义网络中交换机处理时延的仿真[J].计算机应用,2014,34(9):2472-2475.
3疑难解答[J].微电脑世界,1999,0(2):49-50.
4陈玉明,张广明,赵英凯.基于强化学习的混合智能控制算法研究与分析[J].机床与液压,2010,38(20):75-77.
5郭成贺.QQ表情真不少导入飞信才叫好[J].电脑爱好者,2011(12):25-25.
6何荣.仅用一个开关的组合机床钻深孔PLC控制系统[J].制造业自动化,2014,36(11):151-153. 被引量：1
7杨军,张和生,潘成.交通信息采集传感器网络基于强化学习的路由[J].电子测量与仪器学报,2012,26(12):1086-1090. 被引量：3
8赵娟.基于Q学习的新闻图像检索方法[J].计算机工程与设计,2012,33(8):3210-3213.
9Physik Instrumente发布V-273致动器[J].伺服控制,2015(4):8-8.
10安国成,刘玉进,李洪研.智能手势云台控制研究[J].中国铁路,2014(8):87-89.

计算机工程

2007年第22期

浏览历史

内容加载中请稍等...

基于黑板模型的多智能体合作学习被引量：5

参考文献5

二级参考文献16

共引文献28

同被引文献40

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于黑板模型的多智能体合作学习 被引量：5

参考文献5

二级参考文献16

共引文献28

同被引文献40

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于黑板模型的多智能体合作学习被引量：5