期刊文献+

基于动态规划方法的激励学习遗忘算法

The Forgetting Reinforcement Learning Algorithm Based-on Dynamic Programming Methods
下载PDF
导出
摘要 一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下与策略相关的值函数学习算法。但由于Agent在学习的过程中,需要记忆全部的值函数,这个记忆容量随着状态空间的增加会变得非常巨大。文章提出了一种基于动态规划方法的激励学习遗忘算法,这个算法是通过将记忆心理学中有关遗忘的基本原理引入到值函数的激励学习中,导出了一类用动态规划方法解决激励学习问题的比较好的方法,即Forget-DP算法。 A reinforcement-learning agent solves its decision problems by learning optimal decision mapping from a state to an action.Reinforcement learning method is that an agent improves its actions by using experiment and interacting on environment.Markov Decision Process(MDP)model is the general frame for solving reinforcement learning problems.The Dynamic Programming(DP)method is the Agent learning value functions algorithm relating with policy in Markov Decision Processes Environment.Generally,the agent must remember all of value functions.This remembering quantity becomes very big while the state space increasing.In this it gives a forgetting algorithm,which introduces the forgetting principles in psychology to reinforcement learning about value functions.Using forgetting algorithm,it discusses that problem describing above.
出处 《计算机工程与应用》 CSCD 北大核心 2004年第16期75-78,81,共5页 Computer Engineering and Applications
基金 国家自然科学基金项目资助(编号:60075019)
关键词 激励学习 MARKOV决策过程 动态规划 值函数 记忆 遗忘算法 peinforcement learning,Markov Decision Process,Dynamics Programming,value function,remember,forget algorithm
  • 相关文献

参考文献14

  • 1Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].MA:MIT Press,1998
  • 2Watkins C J C H,Dayan P.Q-learning[J].Machine Learning,1992;8(3):279~292
  • 3Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning,1988 ;3 (1) :9~44
  • 4Peng J,Williams R.Incremental multi-step Q-learning[J].Machine Learning,1996 ;22(4) :283~290
  • 5Watkins C J C H.Leaming from delayed rewarfs[D].University of Cambridge,England,1989
  • 6Wiering M,Schmidhuber J.Speeding up Q-learnind[C].In:Proc of the 10 European Conf on Machine Learning,1998
  • 7Sutton R S.Open theoretical questions in reinforcement learning[C].In:Proc of EuroCOLT'99(Computational Learning Theory),Cambridge,A:MIT Press,1999:11~17
  • 8Singh S.Reinforcement Learning Algorithm for Average-Payoff Mar~kovian Decision Processes[C].In:Proc of the 12' AAAI,1994
  • 9殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量:3
  • 10殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量:4

二级参考文献17

  • 1陈焕文 谢建平 等.在策略激励学习算法的POMDPs实验研究[J].南京大学学报(自然科学版)(计算机专辑),2000,36:219-223.
  • 2Bertsekas D P 李人厚(译).动态规划-确定和随机模型[M].西安:西安交通大学学报,1990..
  • 3Chen Huanwen,南京大学学报,2000年,36卷,219页
  • 4陈焕文,南京大学学报,2000年,36卷,计算机专辑,219页
  • 5Peng J,Machine Learning,1996年,22卷,4期,283页
  • 6杨治良,记忆心理学(第2版),1999年
  • 7张奇,学习理论,1999年
  • 8李月甫(译),人类的学习,1998年
  • 9Zhang W,Proc of the 14th IJCAI,1995年,1114页
  • 10张东摩,李红兵.人工智能研究动态与发展趋势——参加第十五届国际人工智能联合大会总结报告[J].计算机科学,1998,25(2):5-8. 被引量:14

共引文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部