期刊文献+

报酬无界的连续时间折扣马氏决策规划 被引量:2

Continuous Time Markov Decision Processes with Unbounded Rewards under the Discounted Criterion
下载PDF
导出
摘要 本文讨论报酬函数无界,转移速率族一致有界,状态空间和行动集均可数的连续时间折扣马氏决策规划(CTMDP).文中引入了一类新的无界报酬函数,并在一新的马氏策略类中,证明了有界报酬下成立的所有结果;讨论了最优策略的结构,得到了该模型策略为最优的一个充要条件. This paper investigates the continuous time Markov decision processes with discounted criterion.Here, the state spacc and the action set are countable, the reward functions are unbounded,and the transition rates are uniformly bounded. A new condition about the unbounded rewards ispresented. In a new set of Markov policies, what is true under bounded rewards has been provedis eaually ture under unbounded rewards. Through the study of the intrinsic structures of optimalplicies, a condition necessary and sulflicient for optinal policies is first worked out.
出处 《应用概率统计》 CSCD 北大核心 1997年第1期1-10,共10页 Chinese Journal of Applied Probability and Statistics
基金 云南省应用基础研究基金
  • 相关文献

参考文献8

  • 1侯振挺,数理统计与应用概率,1990年,3卷,318页
  • 2胡齐英,科学通报,1989年,34卷,408页
  • 3宋京生,科学通报,1987年,32卷,1201页
  • 4宋京生,中国科学.A,1987年,12卷,1258页
  • 5陈木法,跳过程与粒子系统,1986年
  • 6林元烈,清华大学学报,1985年,25卷,76页
  • 7侯波,硕士学位论文,1984年
  • 8胡迪鹤,可数状态的马尔柯夫过程论,1983年

同被引文献15

  • 1宋京生 董泽清.连续时间总报酬马氏决策规划[J].科学通报,1987,32(16):1201-1205.
  • 2董泽清 宋京生.无界报酬半马氏折扣模型的初等方法[J].科学通报,1987,32(11):809-812.
  • 3伍从斌.报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划[J].应用数学学报,1997,20(2):196-208. 被引量:2
  • 4胡奇英,数理统计与应用概率,1998年,13卷,3期,251页
  • 5Shin K G,IEEE Trans Software Eng,1989年,15卷,10期,1188页
  • 6董泽清,科学通报,1987年,32卷,11期,809页
  • 7宋京生,科学通报,1987年,32卷,16期,1201页
  • 8Kakumanu P. Continuously Discounted Markov Decision Model with Countable State and Action Space. Ann. Math. Stat., 1971, 42:919-926
  • 9Kakumanu P. Continuous Time Markovian Decision Processes Average Return Criterion. J. Math.Anal. Appl., 1975, 52:173-188
  • 10Lippman S A. Countable-state, Continuous-time Dynamic Programming with Structure. Oper. Res.,1976, 24:477-490

引证文献2

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部