期刊文献+

无限阶段部分可观察马尔可夫决策规划 被引量:1

PARTIALLY OBSERVABLE MARKOV DECISION PROGRAMMING OVER THE INFINITE HORIZON
下载PDF
导出
摘要 本文对[1,2]所考虑的无限阶段折扣费用部分可观察马尔可夫决策规划作了进一步的讨论,澄清了其中的一些模糊概念,补充或纠正了其中的疏漏和错误,特别地,在保持费用函数分片线性的原则下扩大了有限瞬时策略类,最后给出了几个新的结论,并对[1]中的策略迭代算法给出了修正及收敛估计。 In this paper, we have a further discussion on the infinite horizon partially observable Markov decision programming with discount costs, which has been considered by Sondik and Sawaki. We clarify some fuzzy concepts in [1,2] and correct some mistakes in [2]. Under the condition in which the cost function is piecewise linear, we extend the class of finitely transient policy. Finally, some new conclusions and an estimation of convergence on the policy iteration algorithm are given.
出处 《高校应用数学学报(A辑)》 CSCD 北大核心 1993年第2期210-221,共12页 Applied Mathematics A Journal of Chinese Universities(Ser.A)
基金 国家青年科学基金
关键词 瞬时策略 马氏决策规划 迭代法 Markov Decision Programming, Transient Policy, Piecewise-linear, Iteration Algorithm, Estimation of Convergence.
  • 相关文献

参考文献1

  • 1刘迪芬,系统科学与数学,1993年,13卷,2期,158页

同被引文献3

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部