期刊文献+

随机折扣部分可观察马尔可夫决策规划 被引量:1

PARTIALLY OBSERVABLE MARKOV DECISION PROGRAMMING WITH STOCHASTIC DISCOUNT FACTORS
原文传递
导出
摘要 一、引言考虑一个部分可观察马尔可夫决策规划模型(简记为 POMDP),并引文[1]中所用的定义、记号(只将δ_N 换成∏,(?)换成 A)和有关结论.于是信息向量 π(t)与 π(t+1) The paper discusses an optimal problem for partially observable Markov decision pro-gramming with stochastic variable discount factor over a fintie hirizon.It is shown that theoptimal return function is piecewise-linear and convex and,furthermore,is total-convex.Itis also shown that there exist optimal decision functions that are piecewise-constant.Basedon these results,the “one pass”[1] can be used that only need a few revision.The algorithmis simple and efficient.
出处 《系统科学与数学》 CSCD 北大核心 1993年第2期152-159,共8页 Journal of Systems Science and Mathematical Sciences
基金 国家自然科学基金资助课题
  • 相关文献

参考文献1

  • 1董泽清,马尔科夫决策规划引论,1983年

同被引文献3

  • 1刘迪芬,高校应用数学学报,1993年,8卷,2期,210页
  • 2刘迪芬,系统工程,1991年,增刊21期
  • 3杨向阳,硕士学位论文

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部