-
题名样本有限关联值递归Q学习算法及其收敛性证明
被引量:4
- 1
-
-
作者
殷苌茗
陈焕文
谢丽娟
-
机构
长沙电力学院数学与计算机系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2002年第9期1064-1070,共7页
-
基金
国家自然科学基金项目资助 ( 6 0 0 75 0 19)
-
文摘
一个激励学习 Agent通过学习一个从状态到动作映射的最优策略来解决策问题 .求解最优决策一般有两种途径 :一种是求最大奖赏方法 ,另一种是求最优费用方法 .利用求解最优费用函数的方法给出了一种新的 Q学习算法 .Q学习算法是求解信息不完全 Markov决策问题的一种有效激励学习方法 .Watkins提出了 Q学习的基本算法 ,尽管他证明了在满足一定条件下 Q值学习的迭代公式的收敛性 ,但是在他给出的算法中 ,没有考虑到在迭代过程中初始状态与初始动作的选取对后继学习的影响 .因此提出的关联值递归 Q学习算法改进了原来的 Q学习算法 ,并且这种算法有比较好的收敛性质 .从求解最优费用函数的方法出发 ,给出了 Q学习的关联值递归算法 ,这种方法的建立可以使得动态规划 (DP)算法中的许多结论直接应用到 Q学习的研究中来 .
-
关键词
关联值递归
Q学习算法
收敛性证明
激励学习
最优费用函数
MARKOV决策过程
人工智能
-
Keywords
reinforcement learning, Q-learning, optimality function, relative value iteration, Markovian decision process
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于有限样本的最优费用关联值递归Q学习算法
被引量:4
- 2
-
-
作者
殷苌茗
陈焕文
谢丽娟
-
机构
长沙电力学院数学与计算机系
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第11期65-67,共3页
-
基金
国家自然科学基金项目资助(编号:60075019)
-
文摘
一个激励学习Agent通过学习一个从状态到动作映射的最优策略来求解决策问题。求解最优决策一般有两种途径,一种是求最大奖赏方法,另一种是求最优费用方法。该文利用求解最优费用函数的方法给出了一种新的Q学习算法。Q学习算法是求解信息不完全Markov决策问题的一种有效激励学习方法。文章从求解最优费用函数的方法出发,给出了Q学习的关联值递归算法,这种方法的建立,可以使得动态规划(DP)算法中的许多结论直接应用到Q学习的研究中来。
-
关键词
有限样本
最优费用
关联值递归
Q学习算法
人工智能
-
Keywords
Reinforcement Learning,Q-Learning,Optimal ity Cost Function,Relative Value Iteration,Markovian Decision Process
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-