摘要
多Agent系统中(MAS),所有的Agent都在不断学习,对于单个Agent来说就是一个学习移动目标的问题.PHC(policy hill climb)算法理性但自博弈时并不收敛.不过,PHC自博弈时的平均策略却能够快速且精确地收敛到纳什均衡(NE).在一些需要NE作为先验知识或需要收敛到NE的算法中,可以通过增加一个PHC自博弈过程来估计NE,然后再根据对手策略采取进一步措施.这样,不仅可以避免使用其他算法计算NE,而且能够使学习者至少获得均衡回报.Exploiter-PHC算法(Exploiter算法)能够击败大多数公平对手但需要NE作为先验知识,且自博弈时也不收敛.在其中加入预检测过程后的算法ExploiterWT(exploiter with testing)能够收敛且不需要先验知识.除此之外,该过程也可以加入其他一些算法之中.
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第z1期152-156,共5页
Journal of Computer Research and Development