连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形被引量：1

导出

摘要本文是首次在转移率矩阵族为一般 Q 矩阵族(未必保守亦未必一致有界)的条件下,研究状态空间与决策集均为可数集的连续时间折扣矩最优模型(M_k-CTMDP);提出离散时间折扣依赖于状态与决策的拟折扣矩最优模型(β_k-GTMDP);并揭示二者之间的关系;给出在 f~∞下折扣总报酬 k 阶矩向量 μ_k(f)满足:kαμ_k(f)=kr(f)(?)μ_(k-1)(f)+Q(f)μ_k(f)及μ_k(f)=kP^(min)(kα,f)(r(f)(?)μ_(k-1)(f))的简洁表达式;给出报酬矩最优是矩最优方程组唯一有界解的一个很弱的充分条件与解法;给出矩最优策略存在的充要条件与若干性质.本文结果对 MDP 理论的发展与应用有重要意义,而且对跳跃型马氏过程的一类积分型泛函的研究与应用也颇有意义.

作者林元烈

机构地区清华大学应用数学系

出处《数学学报（中文版）》 SCIE CSCD 北大核心 1992年第1期8-19,共12页 Acta Mathematica Sinica：Chinese Series

关键词矩最优模型折扣 Q矩阵族 MDP模型

分类号 O221 [理学—运筹学与控制论]

引文网络
相关文献

参考文献9

1林元烈，清华大学学报，1985年，25卷，3期，76页
2林元烈，数学学报，1985年，28卷，6期，825页
3宋京生，1984年
4胡迪鹤，可数状态的马尔可夫过程论，1983年
5董泽清，马尔科夫决策规划引论，1981年
6董泽清，数学学报，1978年，25卷，135页
7侯振挺，齐次可列马尔可夫过程，1977年
8匿名著者，高等分析近似方法.上，1966年
9Chung K L，Markov Chains With Stationary Transiton Probability，1960年

同被引文献6

1宋京生，科学通报，1987年，32卷，16期，1201页
2宋京生，中国科学.A，1987年，12卷，1258页
3侯波，硕士学位论文，1986年
4林元烈，清华大学学报，1985年，25卷，3期，76页
5胡迪鹤，可数状态的马尔柯夫过程论，1983年
6胡奇英.连续时间MDP及其与离散时间MDP的关系[J].科学通报,1989,34(6):408-411. 被引量：4

引证文献1

1伍从斌.报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划[J].应用数学学报,1997,20(2):196-208. 被引量：2

二级引证文献2

1刘建庸,胡奇英,王军明.连续时间马氏决策过程的基本假设[J].应用数学学报,2004,27(4):756-759.
2郭先平,戴永隆.连续时间马尔可夫决策过程的折扣模型[J].数学学报（中文版）,2002,45(1):171-182.

1林元烈,林建星.离散时间MDP矩最优模型——折扣依赖于历史的情形[J].应用概率统计,1992,8(1):27-34.
2邱德华.半马氏MDP平均模型[J].衡阳师专学报,1998,19(3):1-7.
3刘建庸,王军明.具有摄动的两类马氏决策规则[J].应用数学学报,2001,24(2):302-305.
4伍从斌.报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划[J].应用数学学报,1997,20(2):196-208. 被引量：2
5伍从斌,张继红.报酬无界的连续时间折扣马氏决策规划[J].应用概率统计,1997,13(1):1-10. 被引量：2
6张继红,谭兴华,王跃宏.MDP 中非时齐折扣模型向时齐折扣模型的转化问题[J].昆明工学院学报,1997,22(6):30-36.
7郭先平.一般MDP最优策略的唯一性[J].应用概率统计,1998,14(3):258-265. 被引量：1

数学学报（中文版）

1992年第1期

浏览历史

内容加载中请稍等...

连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形被引量：1

参考文献9

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形 被引量：1

参考文献9

同被引文献6

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形被引量：1