期刊文献+

连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形 被引量:1

原文传递
导出
摘要 本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP^(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义.
作者 林元烈
出处 《数学学报(中文版)》 SCIE CSCD 北大核心 1992年第1期8-19,共12页 Acta Mathematica Sinica:Chinese Series
  • 相关文献

参考文献9

  • 1林元烈,清华大学学报,1985年,25卷,3期,76页
  • 2林元烈,数学学报,1985年,28卷,6期,825页
  • 3宋京生,1984年
  • 4胡迪鹤,可数状态的马尔可夫过程论,1983年
  • 5董泽清,马尔科夫决策规划引论,1981年
  • 6董泽清,数学学报,1978年,25卷,135页
  • 7侯振挺,齐次可列马尔可夫过程,1977年
  • 8匿名著者,高等分析近似方法.上,1966年
  • 9Chung K L,Markov Chains With Stationary Transiton Probability,1960年

同被引文献6

  • 1宋京生,科学通报,1987年,32卷,16期,1201页
  • 2宋京生,中国科学.A,1987年,12卷,1258页
  • 3侯波,硕士学位论文,1986年
  • 4林元烈,清华大学学报,1985年,25卷,3期,76页
  • 5胡迪鹤,可数状态的马尔柯夫过程论,1983年
  • 6胡奇英.连续时间MDP及其与离散时间MDP的关系[J].科学通报,1989,34(6):408-411. 被引量:4

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部