基于动态规划方法的激励学习遗忘算法

The Forgetting Reinforcement Learning Algorithm Based-on Dynamic Programming Methods

下载PDF

导出

摘要一个激励学习Agent通过学习一个从状态到动作映射的最优策略来解决策问题。激励学习方法是Agent利用试验与环境交互以改进自身的行为。Markov决策过程(MDP)模型是解决激励学习问题的通用方法,而动态规划方法是Agent在具有Markov环境下与策略相关的值函数学习算法。但由于Agent在学习的过程中,需要记忆全部的值函数,这个记忆容量随着状态空间的增加会变得非常巨大。文章提出了一种基于动态规划方法的激励学习遗忘算法,这个算法是通过将记忆心理学中有关遗忘的基本原理引入到值函数的激励学习中,导出了一类用动态规划方法解决激励学习问题的比较好的方法,即Forget-DP算法。 A reinforcement-learning agent solves its decision problems by learning optimal decision mapping from a state to an action.Reinforcement learning method is that an agent improves its actions by using experiment and interacting on environment.Markov Decision Process(MDP)model is the general frame for solving reinforcement learning problems.The Dynamic Programming(DP)method is the Agent learning value functions algorithm relating with policy in Markov Decision Processes Environment.Generally,the agent must remember all of value functions.This remembering quantity becomes very big while the state space increasing.In this it gives a forgetting algorithm,which introduces the forgetting principles in psychology to reinforcement learning about value functions.Using forgetting algorithm,it discusses that problem describing above.

作者殷苌茗王汉兴陈焕文

机构地区上海大学理学院长沙电力学院数学与计算机系

出处《计算机工程与应用》 CSCD 北大核心 2004年第16期75-78,81,共5页 Computer Engineering and Applications

基金国家自然科学基金项目资助(编号:60075019)

关键词激励学习 MARKOV决策过程动态规划值函数记忆遗忘算法 peinforcement learning,Markov Decision Process,Dynamics Programming,value function,remember,forget algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].MA:MIT Press,1998
2Watkins C J C H,Dayan P.Q-learning[J].Machine Learning,1992;8(3):279～292
3Sutton R S.Learning to predict by the method of temporal difference[J].Machine Learning,1988 ;3 (1) :9～44
4Peng J,Williams R.Incremental multi-step Q-learning[J].Machine Learning,1996 ;22(4) :283～290
5Watkins C J C H.Leaming from delayed rewarfs[D].University of Cambridge,England,1989
6Wiering M,Schmidhuber J.Speeding up Q-learnind[C].In:Proc of the 10 European Conf on Machine Learning,1998
7Sutton R S.Open theoretical questions in reinforcement learning[C].In:Proc of EuroCOLT'99(Computational Learning Theory),Cambridge,A:MIT Press,1999:11～17
8Singh S.Reinforcement Learning Algorithm for Average-Payoff Mar～kovian Decision Processes[C].In:Proc of the 12' AAAI,1994
9殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量：3
10殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量：4

二级参考文献17

1陈焕文谢建平等.在策略激励学习算法的POMDPs实验研究[J].南京大学学报（自然科学版）（计算机专辑）,2000,36:219-223.
2Bertsekas D P 李人厚（译）.动态规划-确定和随机模型[M].西安:西安交通大学学报,1990..
3Chen Huanwen，南京大学学报，2000年，36卷，219页
4陈焕文，南京大学学报，2000年，36卷，计算机专辑，219页
5Peng J，Machine Learning，1996年，22卷，4期，283页
6杨治良，记忆心理学（第2版），1999年
7张奇，学习理论，1999年
8李月甫（译），人类的学习，1998年
9Zhang W，Proc of the 14th IJCAI，1995年，1114页
10张东摩,李红兵.人工智能研究动态与发展趋势——参加第十五届国际人工智能联合大会总结报告[J].计算机科学,1998,25(2):5-8. 被引量：14

共引文献16

1密君英,李凡长.一种激励学习遗忘算法[J].计算机工程与应用,2004,40(30):61-64. 被引量：1
2田建军,唐中勇.基于RBF函数状态离散化的激励学习[J].太原师范学院学报（自然科学版）,2006,5(3):50-53.
3钱旭培.一种基于DFS的Agent在线学习模型研究[J].计算机与现代化,2006(11):5-7.
4殷苌茗,王汉兴,赵飞,郭兴明.风险敏感度激励学习的广义平均算法[J].应用数学和力学,2007,28(3):369-378. 被引量：1
5张玉洁,孟祥武.遗忘遗传算法及其在信用评分中的应用[J].北京科技大学学报,2012,34(4):471-475. 被引量：1
6李春贵,刘永信.一种状态集结因子化SARSA(λ)强化学习算法[J].内蒙古大学学报（自然科学版）,2001,32(6):675-678. 被引量：1
7殷苌茗,陈焕文,谢丽娟.基于每阶段平均费用最优的激励学习算法[J].计算机应用,2002,22(4):25-27. 被引量：3
8殷苌茗,陈焕文,谢丽娟.基于有限样本的最优费用关联值递归Q学习算法[J].计算机工程与应用,2002,38(11):65-67. 被引量：4
9陈叔平.两个问题:汽车车牌拍卖和图片比对问题[J].数学建模及其应用,2017,6(3):84-86.
10殷苌茗,陈焕文,谢丽娟.样本有限关联值递归Q学习算法及其收敛性证明[J].计算机研究与发展,2002,39(9):1064-1070. 被引量：4

1密君英,李凡长.一种激励学习遗忘算法[J].计算机工程与应用,2004,40(30):61-64. 被引量：1
2陈焕文,谢丽娟,谢建平.一类值函数激励学习的遗忘算法[J].计算机研究与发展,2001,38(4):487-494. 被引量：14
3牛希望.基于触摸示教与视觉引导的机器人控制方法研究[J].工业控制计算机,2015,28(10):6-8. 被引量：1
4殷苌茗,王汉兴,陈焕文,谢丽娟.基于有效跟踪的平均渐进瞬时差分学习遗忘算法(英文)[J].长沙电力学院学报（自然科学版）,2003,18(4):12-16.
5李春霞,杨树国,董继学,张玉琴.DCT域内分形水印技术的研究[J].计算机工程与应用,2006,42(27):46-49. 被引量：1
6杨树国,李春霞,孙尧,郝燕玲.基于位平面分解的图像数字水印方法[J].计算机工程与应用,2003,39(18):111-113. 被引量：8
7杨树国,李春霞,孙尧,孙枫.基于小波变换的零水印方案[J].计算机工程与应用,2003,39(29):128-130. 被引量：8
8林洁,李丹宁,吴晓.基于用户的个性化综合倒排索引[J].杭州师范大学学报（自然科学版）,2008,7(3):211-215. 被引量：2
9罗技发布时尚V系列无线鼠标[J].数码先锋,2008,0(7):84-84.
10郑运刚,马建国.基于分类的用户兴趣漂移模型[J].情报杂志,2008,27(1):37-38. 被引量：5

计算机工程与应用

2004年第16期

浏览历史

内容加载中请稍等...

基于动态规划方法的激励学习遗忘算法

参考文献14

二级参考文献17

共引文献16

相关作者

相关机构

相关主题

浏览历史