期刊文献+

离散时间MDP矩最优模型——折扣依赖于历史的情形

MOMENT OPTIMAL MODELS FOR DISCRETE TIME MARKOV DECISION PROCESSES WITH DISCOUNT DEPENDING ON HISTORIES
下载PDF
导出
摘要 本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。 Moment optimal models for discrete-time MDP with discount depending on histories, with countable state and aetion spaces are established. Some general form ulas of the k-th moment of discounted total return are given under various policy clases. The structure and some properties of moment optimal polioies are disoussed. It is shown that there exists a unique bounded solution for the momont optimal functional equation under some condi-tions.
机构地区 清华大学
出处 《应用概率统计》 CSCD 北大核心 1992年第1期27-34,共8页 Chinese Journal of Applied Probability and Statistics
基金 清华大学理学院基金
  • 相关文献

参考文献7

  • 1林元烈,应用数学学报,1991年
  • 2林建星,1987年
  • 3阎蔚明,1987年
  • 4Dong Zeging,Sci Chin A,1986年,29卷,337页
  • 5林元烈,清华大学学报,1985年,25卷,76页
  • 6林元烈,数学学报
  • 7林元烈

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部