期刊文献+

竞争环境中学习算法的预检测机制

The Pre-Testing Mechanism of Learning Algorithm in Competition Environment
下载PDF
导出
摘要 多Agent系统中(MAS),所有的Agent都在不断学习,对于单个Agent来说就是一个学习移动目标的问题.PHC(policy hill climb)算法理性但自博弈时并不收敛.不过,PHC自博弈时的平均策略却能够快速且精确地收敛到纳什均衡(NE).在一些需要NE作为先验知识或需要收敛到NE的算法中,可以通过增加一个PHC自博弈过程来估计NE,然后再根据对手策略采取进一步措施.这样,不仅可以避免使用其他算法计算NE,而且能够使学习者至少获得均衡回报.Exploiter-PHC算法(Exploiter算法)能够击败大多数公平对手但需要NE作为先验知识,且自博弈时也不收敛.在其中加入预检测过程后的算法ExploiterWT(exploiter with testing)能够收敛且不需要先验知识.除此之外,该过程也可以加入其他一些算法之中.
作者 王黎明 白洋
出处 《计算机研究与发展》 EI CSCD 北大核心 2006年第z1期152-156,共5页 Journal of Computer Research and Development
  • 相关文献

参考文献5

  • 1[1]S Singh,M Kearns,Y Mansour.Nash convergence of gradient dynamics in general-sum games[C].In:Proc of the 16th Conf on Uncertainty in Aritficial Intelligence.San Francisco:Morgan Kaufmann,2000.541-548
  • 2[2]Bikramjit Banerjee,Jing Peng.Convergent gradient ascent in general-sum games[C].The 13th European Conf on Machine Learning,Helsinki,Finland,2002
  • 3[3]M Bowling,M Veloso.Multi-agent learning using a variable learning rate[J].Arificial Intelligence,2002,136(2):215-250
  • 4[4]Y-H Chang,L P Kaelbling.Playing is believing:The role of beliefs in multi-agent learning[C].The Conf on Neural Information Proceesing Systems,Vancouver,Canada,2001
  • 5[5]J Nash.Non-cooperative games[J].Annals of Mathematics,1951,54(2):286-295

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部