期刊文献+

样本有限关联值递归Q学习算法及其收敛性证明 被引量:4

A RELATIVE VALUE ITERATION Q-LEARNING ALGORITHM AND ITS CONVERGENCE BASED-ON FINITE SAMPLES
下载PDF
导出
摘要 一个激励学习 Agent通过学习一个从状态到动作映射的最优策略来解决策问题 .求解最优决策一般有两种途径 :一种是求最大奖赏方法 ,另一种是求最优费用方法 .利用求解最优费用函数的方法给出了一种新的 Q学习算法 .Q学习算法是求解信息不完全 Markov决策问题的一种有效激励学习方法 .Watkins提出了 Q学习的基本算法 ,尽管他证明了在满足一定条件下 Q值学习的迭代公式的收敛性 ,但是在他给出的算法中 ,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响 .因此提出的关联值递归 Q学习算法改进了原来的 Q学习算法 ,并且这种算法有比较好的收敛性质 .从求解最优费用函数的方法出发 ,给出了 Q学习的关联值递归算法 ,这种方法的建立可以使得动态规划 (DP)算法中的许多结论直接应用到 Q学习的研究中来 . A reinforcement learning agent solves its decision problems by learning optimal decision mapping from a state to an action. There are two approaches generally to solving optimal decision, the one for maximum reward, the other for optimal cost. This paper is concerned with the problem of a novel Q-learning algorithm for solving optimal cost function. Q-learning is a reinforcement learning method to solve Markovian decision problems with incomplete information. In this paper, beginning with solving optimality cost function, the relative value iteration Q-learning algorithm is proposed. It can make many results of the dynamics programming algorithm available for studying Q-learning directly.
出处 《计算机研究与发展》 EI CSCD 北大核心 2002年第9期1064-1070,共7页 Journal of Computer Research and Development
基金 国家自然科学基金项目资助 ( 6 0 0 75 0 19)
关键词 关联值递归 Q学习算法 收敛性证明 激励学习 最优费用函数 MARKOV决策过程 人工智能 reinforcement learning, Q-learning, optimality function, relative value iteration, Markovian decision process
  • 相关文献

参考文献6

二级参考文献18

共引文献113

同被引文献31

  • 1Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].MA:MIT Press,1998
  • 2Watkins C J C H,Dayan P.Q-learning[J].Machine Learning,1992;8(3):279~292
  • 3Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning,1988 ;3 (1) :9~44
  • 4Peng J,Williams R.Incremental multi-step Q-learning[J].Machine Learning,1996 ;22(4) :283~290
  • 5Watkins C J C H.Leaming from delayed rewarfs[D].University of Cambridge,England,1989
  • 6Wiering M,Schmidhuber J.Speeding up Q-learnind[C].In:Proc of the 10 European Conf on Machine Learning,1998
  • 7Sutton R S.Open theoretical questions in reinforcement learning[C].In:Proc of EuroCOLT'99(Computational Learning Theory),Cambridge,A:MIT Press,1999:11~17
  • 8Singh S.Reinforcement Learning Algorithm for Average-Payoff Mar~kovian Decision Processes[C].In:Proc of the 12' AAAI,1994
  • 9Sutton R S,Barto A G.Reinforcement Learning:An introduction[M].MA: MIT Press, 1998
  • 10Watkins C J C H,Dayan P.Q-learning[J].Machine learning, 1992;8(3) :279~292

引证文献4

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部