摘要
Q-learning是一种优良的强化学习算法。该文首先阐述了Q-learning的基本学习机制,然后以囚徒困境问题为背景,分析、对比T Q-learning算法与TFT算法,验证了 Q-learning算法的优良特性。
Q-learning is an algorithm of Reinforcement learning algorithm.In this paper,We elaborate the learning method of Q-learning algorithm simply,use it in prisoner's dilemma game and compare it with TFT to show its good character.
出处
《计算机工程与应用》
CSCD
北大核心
2001年第13期121-122,128,共3页
Computer Engineering and Applications
基金
国家自然科学基金的支持(编号:69875017)