非平稳MDP平均模型—状态空间可数情形

NO-STATIONARY MDP MODEL WITH THE AVERAGE CRITERION—THE DENUMERABLE STATE SPACE CASE

下载PDF

导出

摘要本文利用扩充的不动点定理,建立了相应于非平稳MDP平均模型的最优方程,据此给出了最优策略和ε-最优策略存在的充分条件.许多有关平稳MDP平均模型的结果,尤其是Ross(1983)的结果,均可由本文给出. In this paper,using the generalization of the fixed point theorem for cont-ractions,we set up the optimal equation for non-stationary MDP with the aver-age criterion and supply the sufficent conditions under which either the optimalor ε-optimal polices exists.Many results for stationary MDP model with theaverage criterion,especially the results obtained by Ross(1983),can be taken asthe typical example of this paper.

作者郭先平

机构地区湖南师范大学数学系

出处《湖南师范大学自然科学学报》 CAS 1991年第4期302-308,324,共8页 Journal of Natural Science of Hunan Normal University

关键词马氏决策规划非平稳平均目标 MDP model no-stationary average criterion

分类号 O221 [理学—运筹学与控制论]

引文网络
相关文献

1郭先平.不完全信息的非平稳MDP平均模型[J].数理统计与应用概率,1995,10(2):14-21.
2郭先平,刘建庸,刘克.非平稳MDP平均模型及其滚动式算法[J].系统科学与数学,1999,19(4):439-446. 被引量：1
3魏力仁,郭先平.非平稳MDP的平均模型——一般状态空间的情形[J].科学通报,1991,36(10):728-730. 被引量：2
4郭先平.非平稳MDP平均模型的ε(≥O)-最优策略存在的充分条件[J].湖南师范大学自然科学学报,1992,15(4):300-304.
5徐晨,甘小冰.半马氏环境连续时间马氏决策过程:平均准则[J].数学研究,1998,31(3):312-318.
6郭先平.MDP平均模型的强最优性[J].湖南师范大学自然科学学报,1996,19(1):21-24.
7郭先平.非平稳MDP平均模型── 一致最优(G,B)-生成策略的存在性[J].数学学报（中文版）,2000,43(2):269-274.
8郭先平.非平稳MDP平均模型及其算法[J].应用数学与计算数学学报,1995,9(2):53-59. 被引量：1
9郭先平,刘武旺.非平稳MDP平均模型ε_n－最优策略的结构[J].湖南师范大学自然科学学报,1994,17(3):1-7.
10朱成熹,魏文元.马尔柯夫决策规划的强最优准则[J].数学年刊（A辑）,1993,1(1):118-127. 被引量：3

湖南师范大学自然科学学报

1991年第4期

浏览历史

内容加载中请稍等...

非平稳MDP平均模型—状态空间可数情形

相关作者

相关机构

相关主题

浏览历史