Incremental Multi Step R Learning

多步 R 学习算法(英文)

下载PDF

导出

摘要 Aim To investigate the model free multi step average reward reinforcement learning algorithm. Methods By combining the R learning algorithms with the temporal difference learning (TD( λ ) learning) algorithms for average reward problems, a novel incremental algorithm, called R( λ ) learning, was proposed. Results and Conclusion The proposed algorithm is a natural extension of the Q( λ) learning, the multi step discounted reward reinforcement learning algorithm, to the average reward cases. Simulation results show that the R( λ ) learning with intermediate λ values makes significant performance improvement over the simple R learning. 目的　讨论平均准则下控制马氏链的强化学习算法，在事先未知状态转移矩阵及报酬函数的条件下，通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略．方法　结合平均报酬问题的一步学习算法和即时差分学习算法，提出了一种多步强化学习算法——— Ｒ（ λ）学习算法．结果与结论　新算法使得已有的Ｒ学习算法成为其λ＝０时的特例．同时它也是折扣报酬Ｑ（λ）学习算法到平均报酬问题的自然推广．仿真结果表明λ取中间值的Ｒ（ λ）学习算法明显优于一步的Ｒ学习算法．

作者胡光华吴沧浦

机构地区北京理工大学自动控制系

出处《Journal of Beijing Institute of Technology》 EI CAS 1999年第3期245-250,共6页 北京理工大学学报（英文版）

基金国家自然科学基金

关键词 reinforcement learning average reward R learning Markov decision processes temporal difference learning 强化学习平均报酬 R学习 Markov决策过程即时差分学习

分类号 O232 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1Jing Peng,Ronald J. Williams. Incremental multi-step Q-learning[J] 1996,Machine Learning(1-3):283～290

1胡光华.参数Markov决策过程的随机逼近算法[J].云南大学学报（自然科学版）,2003,25(5):377-380. 被引量：1
2贾让成.向量值有限平均MDP[J].西北师范大学学报（自然科学版）,1994,30(3):16-19.
3胡光华,吴沧浦.平均准则问题的即时差分学习算法[J].自动化学报,2000,26(4):533-536. 被引量：2
4周晶,盛昭瀚,何建敏,杨海,王长君.适于估计OD矩阵的交通检测点的最优分布[J].自动化学报,2000,26(3):303-309. 被引量：7
5柳长春,沈志江,于海斌.可重入生产系统的平均报酬型强化学习调度[J].信息与控制,2004,33(2):145-150. 被引量：5
6李江红,胡照文.一类Markov决策过程自适应决策的新方法[J].控制与决策,2001,16(4):415-419.
7金治明,王勇献.一类扩散过程的最优停止[J].国防科技大学学报,1999,21(5):98-102. 被引量：1
8徐晨,甘小冰.半马氏环境连续时间马氏决策过程:平均准则[J].数学研究,1998,31(3):312-318.
9张智聪,郑力,翁小华.基于增强学习的平行机调度研究[J].计算机集成制造系统,2007,13(1):110-116. 被引量：3
10胡光华,吴沧浦.基于Span压缩的相对值迭代算法(英文)[J].运筹学学报,1999,3(2):1-9.

Journal of Beijing Institute of Technology

1999年第3期

浏览历史

内容加载中请稍等...

Incremental Multi Step R Learning

参考文献1

相关作者

相关机构

相关主题

浏览历史