一种激励学习遗忘算法被引量：1

A Kind of Forgetting Reinforcement Learning Algorithm

下载PDF

导出

摘要提出了一种基于动态规划方法的激励学习遗忘算法,这个算法是通过将记忆心理学中有关遗忘的基本原理引入到值函数的激励学习中,导出了一类用动态规划方法解决激励学习问题的比较好的方法,即Forget-DP算法。 In this paper we give a forgetting algorithm,which introduces the forgetting principles in psychology to reinforcement learning about value functions.Using forgetting algorithm,we discuss that problem describing above.

作者密君英李凡长

机构地区苏州农业职业技术学院苏州大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2004年第30期61-64,共4页 Computer Engineering and Applications

基金江苏省自然科学基金(编号:BK2002040) 江苏省教育厅自然科学基金(编号:02KJB520001)资助

关键词动态规划值函数记忆遗忘算法 dynamics programming,value function,remember,forget,algorithm

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1Sutton R S,Barto A G.Reinforcement Learning:An introduction[M].MA: MIT Press, 1998
2Watkins C J C H,Dayan P.Q-learning[J].Machine learning, 1992;8(3) :279～292
3Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning, 1988; 3 ( 1 ) :9～44
4Peng J,Williams R.incremental multi-step Q-learning[J].Machine Learning, 1996; 22 ( 4 ): 283～290
5Watkins C J C H.Learning from delayed rewards[D]. Ph D thesis. University of Cambridge,England, 1989
6Wiering M,Schmidhuber J.Speeding up Q-leaning[C].In:Proc of the10th European Conf on Machine Learning, 1998
7Sutton R S.Open theoretical questions in reinforcement learning[C].In: Proc of EuroCOLT′99 (COMPUTATIONAL learning Theory), Cambridge, A: MIT Press, 1999:11 ～ 17
8Singh S.Reinforcement Learning Algorithm for Average-Payoff Markovian Decision Processes[C]. In: Proc of the 12th AAAI, 1994
9殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量：3
10殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量：4

二级参考文献17

1陈焕文谢建平等.在策略激励学习算法的POMDPs实验研究[J].南京大学学报（自然科学版）（计算机专辑）,2000,36:219-223.
2Bertsekas D P 李人厚（译）.动态规划-确定和随机模型[M].西安:西安交通大学学报,1990..
3Chen Huanwen，南京大学学报，2000年，36卷，219页
4陈焕文，南京大学学报，2000年，36卷，计算机专辑，219页
5Peng J，Machine Learning，1996年，22卷，4期，283页
6杨治良，记忆心理学（第2版），1999年
7张奇，学习理论，1999年
8李月甫（译），人类的学习，1998年
9Zhang W，Proc of the 14th IJCAI，1995年，1114页
10张东摩,李红兵.人工智能研究动态与发展趋势——参加第十五届国际人工智能联合大会总结报告[J].计算机科学,1998,25(2):5-8. 被引量：14

共引文献16

1殷苌茗,王汉兴,陈焕文.基于动态规划方法的激励学习遗忘算法[J].计算机工程与应用,2004,40(16):75-78.
2田建军,唐中勇.基于RBF函数状态离散化的激励学习[J].太原师范学院学报（自然科学版）,2006,5(3):50-53.
3钱旭培.一种基于DFS的Agent在线学习模型研究[J].计算机与现代化,2006(11):5-7.
4殷苌茗,王汉兴,赵飞,郭兴明.风险敏感度激励学习的广义平均算法[J].应用数学和力学,2007,28(3):369-378. 被引量：1
5张玉洁,孟祥武.遗忘遗传算法及其在信用评分中的应用[J].北京科技大学学报,2012,34(4):471-475. 被引量：1
6李春贵,刘永信.一种状态集结因子化SARSA(λ)强化学习算法[J].内蒙古大学学报（自然科学版）,2001,32(6):675-678. 被引量：1
7殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量：3
8殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量：4
9陈叔平.两个问题:汽车车牌拍卖和图片比对问题[J].数学建模及其应用,2017,6(3):84-86.
10殷苌茗,陈焕文,谢丽娟.样本有限关联值递归Q学习算法及其收敛性证明[J].计算机研究与发展,2002,39(9):1064-1070. 被引量：4

同被引文献1

1陈焕文,谢丽娟,谢建平.一类值函数激励学习的遗忘算法[J].计算机研究与发展,2001,38(4):487-494. 被引量：14

引证文献1

1陈叔平.两个问题:汽车车牌拍卖和图片比对问题[J].数学建模及其应用,2017,6(3):84-86.

1殷苌茗,王汉兴,陈焕文.基于动态规划方法的激励学习遗忘算法[J].计算机工程与应用,2004,40(16):75-78.
2陈焕文,谢丽娟,谢建平.一类值函数激励学习的遗忘算法[J].计算机研究与发展,2001,38(4):487-494. 被引量：14
3殷苌茗,王汉兴,陈焕文,谢丽娟.基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)[J].长沙电力学院学报（自然科学版）,2003,18(4):12-16.
4罗技发布时尚V系列无线鼠标[J].数码先锋,2008,0(7):84-84.
5林洁,李丹宁,吴晓.基于用户的个性化综合倒排索引[J].杭州师范大学学报（自然科学版）,2008,7(3):211-215. 被引量：2
6郑运刚,马建国.基于分类的用户兴趣漂移模型[J].情报杂志,2008,27(1):37-38. 被引量：5
7徐义文,张力,慕晓冬,殷小静.虚拟士兵的智能记忆模型研究[J].计算机工程与设计,2012,33(4):1586-1590.
8揭开记忆的真相[J].发现,2013(8):34-35.
9高考英语考点典型陷阱题分析——虚拟语气与精态动词[J].中学英语之友（新教材高三版）,2009(11):45-48.
10朱醒,钟再敏,孙泽昌.修正指数遗忘RLS算法及其在故障诊断上的应用[J].计算机测量与控制,2007,15(3):329-331. 被引量：3

计算机工程与应用

2004年第30期

浏览历史

内容加载中请稍等...

一种激励学习遗忘算法被引量：1

参考文献14

二级参考文献17

共引文献16

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种激励学习遗忘算法 被引量：1

参考文献14

二级参考文献17

共引文献16

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种激励学习遗忘算法被引量：1