期刊文献+

基于黑板模型的多智能体合作学习 被引量:5

Multiagent Learning Based on Black-board Model
下载PDF
导出
摘要 Q学习算法要求智能体无限遍历每个状态-动作转换,因此在涉及状态-动作空间非常大的应用问题时,导致收敛速度非常慢。借助多智能体的合作学习,智能体之间基于黑板模型的方法通过开关函数相互协调合作,可以更快地定位那些有效的状态-动作转换,避免了无效的更新,从而以较小的学习代价加快了Q表的收敛速度。 Q learning requires each state-action transform be visited infinitely, which limits its application when comes to large state-action space. This paper puts forward a black-board-model based multiagents cooperation learning algorithm. Agents cooperate and coordinate by a bull function which is defined in state-action space. By this bull function, agents can find those effective update more quickly and thus avoid those useless updates. Simulation proves the method can speed up the learning process at lower cost.
作者 韩伟 韩忠愿
出处 《计算机工程》 CAS CSCD 北大核心 2007年第22期42-44,47,共4页 Computer Engineering
关键词 多智能体系统 合作学习 黑板模型 multiagents system cooperation learning black-board model
  • 相关文献

参考文献5

二级参考文献16

  • 1于功弟.DSS的新决策方法——模糊决策法的应用[J].计算机工程,1993,19(2):20-23. 被引量:2
  • 2张莉芳.地面火炮结构总体方案参数设计专家系统研究(博士学位论文)[M].北京:南京理工大学,1999..
  • 3侯云.基于知识的武器系统综合评价决策支持系统研究(硕士学位论文)[M].南京:南京理工大学,1999..
  • 4彭和平 呙福德.决策支持系统的问题处理系统的研究与实现.第五届全国青年计算机工作者会议论文集[M].北京:海洋出版社,1995.747-751.
  • 5[5]Riedmiller M, Merke A, Meier D. Karlsruhe brainstormers- a reinforcement learning approach to robotic soccer[DB/OL].http://illwww.ira.uka.de/-riedml/.
  • 6[1]Noda I. Soccer sever: a tool for researches on multi-agent systems[DB/OL].http://citeseer.nj.nec.com/noda97soccer.html.
  • 7[2]Kitano H, Tambe M, Stone P, et al. The robocup synthetic agent challenge 97[A]. RoboCup-97:Robot Soccer World Cup I[C].Berlin:Springer Verlag, 1998.62-73.
  • 8[3]Stone P. Layered learning in multi-agent learning[D].Pittsburgh:Carnegie Mellon University, 1998.
  • 9[4]Kaelbling P L, Littman L M, Moore W A. Reinforcement learning: a survey[J]. Journal of Artificial Intelligence, 1996,4:237-285.
  • 10MitchellTM著 曾华军 张银奎译.机器学习[M].北京:机械工业出版社,2003..

共引文献28

同被引文献40

  • 1尚丽辉,汪小帆.一类拥塞问题研究综述[J].控制与决策,2004,19(11):1201-1207. 被引量:1
  • 2杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报(自然科学版),2005,45(7):981-984. 被引量:21
  • 3韩伟.基于情节序列训练的电子市场智能定价算法[J].计算机工程与应用,2007,43(6):17-19. 被引量:3
  • 4韩伟,陈优广,姜昌华.基于内省推理的多agent在线学习方法[J].模式识别与人工智能,2007,20(2):254-260. 被引量:5
  • 5Straβer M, Schwehm M. A performance model for mobile agent systems//H. R. Arabnia, ed. Proceedings of the Internationa lConference on Parallel and Distributed Processing Techniques andApplieations ( PDPTA '97 ). Las Vegas ( USA ), CSREA Press, 1997,2 : 1132-1140
  • 6China T, Kannapan S. Strategically mobile agents//KRother - meled[R]. Berlin: Springer, 1997 : 149-161
  • 7Schlegel T, Braun P, Kowalczy R. Towards Autonomous Mobile Agents with Emergent Migration Behaviour // AAMAS06. 2006 : 585-592
  • 8Arthur W B. Inductive Reasoning and Bounded Rationality. American Economic Review (Papers and Proceedings), 1994,84 (2) :406-411
  • 9Wooldridge M.多agent系统引论.北京电子工业出版社,2001
  • 10SUN R, PERTERSON T. Multiagent reinforcement learning: weighting and partitioning [ J ]. Neural Networks, 1999, 20(3) :727-753.

引证文献5

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部