期刊文献+

一种激励学习遗忘算法 被引量:1

A Kind of Forgetting Reinforcement Learning Algorithm
下载PDF
导出
摘要 提出了一种基于动态规划方法的激励学习遗忘算法,这个算法是通过将记忆心理学中有关遗忘的基本原理引入到值函数的激励学习中,导出了一类用动态规划方法解决激励学习问题的比较好的方法,即Forget-DP算法。 In this paper we give a forgetting algorithm,which introduces the forgetting principles in psychology to reinforcement learning about value functions.Using forgetting algorithm,we discuss that problem describing above.
出处 《计算机工程与应用》 CSCD 北大核心 2004年第30期61-64,共4页 Computer Engineering and Applications
基金 江苏省自然科学基金(编号:BK2002040) 江苏省教育厅自然科学基金(编号:02KJB520001)资助
关键词 动态规划 值函数 记忆 遗忘 算法 dynamics programming,value function,remember,forget,algorithm
  • 相关文献

参考文献14

  • 1Sutton R S,Barto A G.Reinforcement Learning:An introduction[M].MA: MIT Press, 1998
  • 2Watkins C J C H,Dayan P.Q-learning[J].Machine learning, 1992;8(3) :279~292
  • 3Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning, 1988; 3 ( 1 ) :9~44
  • 4Peng J,Williams R.incremental multi-step Q-learning[J].Machine Learning, 1996; 22 ( 4 ): 283~290
  • 5Watkins C J C H.Learning from delayed rewards[D]. Ph D thesis. University of Cambridge,England, 1989
  • 6Wiering M,Schmidhuber J.Speeding up Q-leaning[C].In:Proc of the10th European Conf on Machine Learning, 1998
  • 7Sutton R S.Open theoretical questions in reinforcement learning[C].In: Proc of EuroCOLT′99 (COMPUTATIONAL learning Theory), Cambridge, A: MIT Press, 1999:11 ~ 17
  • 8Singh S.Reinforcement Learning Algorithm for Average-Payoff Markovian Decision Processes[C]. In: Proc of the 12th AAAI, 1994
  • 9殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量:3
  • 10殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量:4

二级参考文献17

  • 1陈焕文 谢建平 等.在策略激励学习算法的POMDPs实验研究[J].南京大学学报(自然科学版)(计算机专辑),2000,36:219-223.
  • 2Bertsekas D P 李人厚(译).动态规划-确定和随机模型[M].西安:西安交通大学学报,1990..
  • 3Chen Huanwen,南京大学学报,2000年,36卷,219页
  • 4陈焕文,南京大学学报,2000年,36卷,计算机专辑,219页
  • 5Peng J,Machine Learning,1996年,22卷,4期,283页
  • 6杨治良,记忆心理学(第2版),1999年
  • 7张奇,学习理论,1999年
  • 8李月甫(译),人类的学习,1998年
  • 9Zhang W,Proc of the 14th IJCAI,1995年,1114页
  • 10张东摩,李红兵.人工智能研究动态与发展趋势——参加第十五届国际人工智能联合大会总结报告[J].计算机科学,1998,25(2):5-8. 被引量:14

共引文献16

同被引文献1

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部