报酬无界的连续时间折扣马氏决策规划被引量：2

Continuous Time Markov Decision Processes with Unbounded Rewards under the Discounted Criterion

下载PDF

导出

摘要本文讨论报酬函数无界，转移速率族一致有界，状态空间和行动集均可数的连续时间折扣马氏决策规划（CTMDP）．文中引入了一类新的无界报酬函数，并在一新的马氏策略类中，证明了有界报酬下成立的所有结果；讨论了最优策略的结构，得到了该模型策略为最优的一个充要条件． This paper investigates the continuous time Markov decision processes with discounted criterion.Here, the state spacc and the action set are countable, the reward functions are unbounded,and the transition rates are uniformly bounded. A new condition about the unbounded rewards ispresented. In a new set of Markov policies, what is true under bounded rewards has been provedis eaually ture under unbounded rewards. Through the study of the intrinsic structures of optimalplicies, a condition necessary and sulflicient for optinal policies is first worked out.

作者伍从斌张继红

机构地区云南大学昆明工学院

出处《应用概率统计》 CSCD 北大核心 1997年第1期1-10,共10页 Chinese Journal of Applied Probability and Statistics

基金云南省应用基础研究基金

关键词马氏决策规划无界报酬折扣准则 CTMDP

分类号 O211.62 [理学—概率论与数理统计]

引文网络
相关文献

参考文献8

1侯振挺，数理统计与应用概率，1990年，3卷，318页
2胡齐英，科学通报，1989年，34卷，408页
3宋京生，科学通报，1987年，32卷，1201页
4宋京生，中国科学.A，1987年，12卷，1258页
5陈木法，跳过程与粒子系统，1986年
6林元烈，清华大学学报，1985年，25卷，76页
7侯波，硕士学位论文，1984年
8胡迪鹤，可数状态的马尔柯夫过程论，1983年

同被引文献15

1宋京生董泽清.连续时间总报酬马氏决策规划[J].科学通报,1987,32(16):1201-1205.
2董泽清宋京生.无界报酬半马氏折扣模型的初等方法[J].科学通报,1987,32(11):809-812.
3伍从斌.报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划[J].应用数学学报,1997,20(2):196-208. 被引量：2
4胡奇英，数理统计与应用概率，1998年，13卷，3期，251页
5Shin K G，IEEE Trans Software Eng，1989年，15卷，10期，1188页
6董泽清，科学通报，1987年，32卷，11期，809页
7宋京生，科学通报，1987年，32卷，16期，1201页
8Kakumanu P. Continuously Discounted Markov Decision Model with Countable State and Action Space. Ann. Math. Stat., 1971, 42:919-926
9Kakumanu P. Continuous Time Markovian Decision Processes Average Return Criterion. J. Math.Anal. Appl., 1975, 52:173-188
10Lippman S A. Countable-state, Continuous-time Dynamic Programming with Structure. Oper. Res.,1976, 24:477-490

引证文献2

1刘建庸,胡奇英,王军明.连续时间马氏决策过程的基本假设[J].应用数学学报,2004,27(4):756-759.
2李江洪,韩正之.马尔可夫决策过程自适应决策的进展[J].控制与决策,2001,16(1):7-11. 被引量：6

二级引证文献6

1程升,汤兵勇.基于供应链管理的一种采购算法研究[J].物流技术,2005,24(10):3-5.
2刘虹.基于MDP自适应决策的库存控制[J].河北建筑科技学院学报,2006,23(3):109-112.
3于乃功,阮晓钢.基于细胞自动机模型的青霉素发酵过程优化控制策略[J].北京工业大学学报,2007,33(2):150-154. 被引量：1
4王芝泉,刘晋浩.物流服务供应链任务分配问题研究[J].森林工程,2011,27(4):78-81. 被引量：6
5胡健.基于Q学习的无线传感器网络路由协议[J].计算机与现代化,2013(3):131-134.
6李岩,曹琳,孙雷,刘景泰.竞争型网络机器人体系结构研究[J].机器人,2013,35(4):462-469. 被引量：3

1伍从斌.报酬函数及转移速率族均非一致有界的连续时间折扣马氏决策规划[J].应用数学学报,1997,20(2):196-208. 被引量：2
2胡奇英.状态部分可观察的无界报酬马氏决策规划[J].数理统计与应用概率,1998,13(3):79-86. 被引量：3
3胡奇英.非时齐无界报酬马氏决策规划[J].西安电子科技大学学报,1992,19(1):72-83.
4胡奇英.离散型冲击折扣半马氏决策过程[J].Journal of Mathematical Research and Exposition,1995,15(1):119-122.
5刘建庸,胡奇英,王军明.连续时间马氏决策过程的基本假设[J].应用数学学报,2004,27(4):756-759.
6胡奇英.无界报酬折扣马氏决策规划中的逐次逼近法[J].数理统计与应用概率,1995,10(2):31-37.
7伍从斌.无界报酬折扣半马氏决策模型矩最优策略的结构[J].云南大学学报（自然科学版）,1990,12(4):299-306. 被引量：1
8伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.
9张升,张继红.无界报酬向量值折扣马氏决策规划──最优平稳策略及算法[J].云南大学学报（自然科学版）,1994,16(4):299-305.
10魏文元.Π_m^d上有界报酬折扣马氏决策模型最优策略的几个等价条件[J].天津师大学报（自然科学版）,1990(1):22-26.

应用概率统计

1997年第1期

浏览历史

内容加载中请稍等...

报酬无界的连续时间折扣马氏决策规划被引量：2

参考文献8

同被引文献15

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

报酬无界的连续时间折扣马氏决策规划 被引量：2

参考文献8

同被引文献15

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

报酬无界的连续时间折扣马氏决策规划被引量：2