期刊文献+

多步 R 学习算法(英文)

Incremental Multi Step R Learning 
下载PDF
导出
摘要 目的 讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均报酬最大的最优控制策略. 方法 结合平均报酬问题的一步学习算法和即时差分学习算法,提出了一种多步强化学习算法——— R( λ) 学习算法. 结果与结论 新算法使得已有的 R 学习算法成为其λ= 0 时的特例. 同时它也是折扣报酬 Q(λ) 学习算法到平均报酬问题的自然推广. 仿真结果表明λ取中间值的 R( λ) 学习算法明显优于一步的 R 学习算法. Aim To investigate the model free multi step average reward reinforcement learning algorithm. Methods By combining the R learning algorithms with the temporal difference learning (TD( λ ) learning) algorithms for average reward problems, a novel incremental algorithm, called R( λ ) learning, was proposed. Results and Conclusion The proposed algorithm is a natural extension of the Q( λ) learning, the multi step discounted reward reinforcement learning algorithm, to the average reward cases. Simulation results show that the R( λ ) learning with intermediate λ values makes significant performance improvement over the simple R learning.
出处 《Journal of Beijing Institute of Technology》 EI CAS 1999年第3期245-250,共6页 北京理工大学学报(英文版)
基金 国家自然科学基金
关键词 强化学习 平均报酬 R学习 MARKOV决策过程 即时差分学习 reinforcement learning average reward R learning Markov decision processes temporal difference learning
  • 相关文献

参考文献1

  • 1Jing Peng,Ronald J. Williams. Incremental multi-step Q-learning[J] 1996,Machine Learning(1-3):283~290

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部