离散时间MDP矩最优模型——折扣依赖于历史的情形

MOMENT OPTIMAL MODELS FOR DISCRETE TIME MARKOV DECISION PROCESSES WITH DISCOUNT DEPENDING ON HISTORIES

下载PDF

导出

摘要本文在S、A(i)(i∈S)均匀可列集情形下,建立了折扣依赖于历史的矩最优模型。给出了折扣总报酬k阶矩在各类策略下的统一表达式;讨论了矩最优策略的结构与性质;证明了矩最优方程在给定条件下,存在唯一的有界解。 Moment optimal models for discrete-time MDP with discount depending on histories, with countable state and aetion spaces are established. Some general form ulas of the k-th moment of discounted total return are given under various policy clases. The structure and some properties of moment optimal polioies are disoussed. It is shown that there exists a unique bounded solution for the momont optimal functional equation under some condi-tions.

作者林元烈林建星

机构地区清华大学

出处《应用概率统计》 CSCD 北大核心 1992年第1期27-34,共8页 Chinese Journal of Applied Probability and Statistics

基金清华大学理学院基金

关键词离散时间矩最优模型折扣 MDP模型

分类号 O221 [理学—运筹学与控制论]

引文网络
相关文献

参考文献7

1林元烈，应用数学学报，1991年
2林建星，1987年
3阎蔚明，1987年
4Dong Zeging，Sci Chin A，1986年，29卷，337页
5林元烈，清华大学学报，1985年，25卷，76页
6林元烈，数学学报
7林元烈

1邱德华.半马氏MDP平均模型[J].衡阳师专学报,1998,19(3):1-7.
2胡奇英.连续时间MDP及其与离散时间MDP的关系[J].科学通报,1989,34(6):408-411. 被引量：4
3林元烈.连续时间折扣矩最优模型及其与离散时间拟折扣矩最优模型的关系——Q 矩阵族未必保守的情形[J].数学学报（中文版）,1992,35(1):8-19. 被引量：1
4张继红,谭兴华,王跃宏.MDP 中非时齐折扣模型向时齐折扣模型的转化问题[J].昆明工学院学报,1997,22(6):30-36.
5胡奇英.MDP中模型的转换——平均模型[J].西安电子科技大学学报,1991,18(1):63-71.
6郭先平.一般MDP最优策略的唯一性[J].应用概率统计,1998,14(3):258-265. 被引量：1

应用概率统计

1992年第1期

浏览历史

内容加载中请稍等...

离散时间MDP矩最优模型——折扣依赖于历史的情形

参考文献7

相关作者

相关机构

相关主题

浏览历史