非平稳MDP的期望平均准则

THE EXPECTED AVERAGE CRITERION FOR NONSTATIONARY MDP

导出

摘要本文考虑的是非平稳MDP的期望平均准则，在弱遍历条件下，用概率及鞅论的方法证明了。∈（0）－最优马氏策略的存在性，作为特例，较好地解决了Feinberg和Park在1994年提及的开问题． In this paper, we consider the expected average criterion for nonstationary MDP.By probability and martingale method, we prove the existence of ∈( 0)-optimal Markov policies under weakly ergodic conditions. As a typical example of this paper, we solve the open problem posed by Feinberg and Park again.

作者郭先平侯振挺

机构地区中山大学数学系长沙铁道学院科研所

出处《系统科学与数学》 CSCD 北大核心 1999年第1期123-128,共6页 Journal of Systems Science and Mathematical Sciences

基金国家自然科学基金广东省博士后基金

关键词马氏决策过程期望平均准则非平稳过程 Markov decision processes, expected average criterion, optimal equation,optimal policy

分类号 O211.62 [理学—概率论与数理统计]

引文网络
相关文献

1郭先平.非平稳MDP—平均样本轨道最优[J].数学物理学报（A辑）,2000,20(1):31-35.
2郭先平.Borel状态空间非平稳MDP的平均方差准则[J].数学学报（中文版）,2001,44(2):333-342.
3郭先平,肖果能.期望平均准则的半马氏MDP[J].长沙铁道学院学报,1995,13(3):71-78.
4郭先平,刘建庸,刘克.非平稳MDP平均模型及其滚动式算法[J].系统科学与数学,1999,19(4):439-446. 被引量：1
5魏力仁,郭先平.非平稳MDP的平均模型——一般状态空间的情形[J].科学通报,1991,36(10):728-730. 被引量：2
6周云华.ROBUST WEAK ERGODICITY AND STABLE ERGODICITY[J].Acta Mathematica Scientia,2013,33(5):1375-1381.
7刘素芳.非齐次马尔可夫链的Gesaro-极限定理[J].数学理论与应用,2000,20(1):119-123.
8朱春鹏.批量到达、服务台可修的M^X/G/1重试排队系统[J].重庆科技学院学报（自然科学版）,2016,0(6):104-107.
9金阳.非线性自回归序列的矩的存在性的注记[J].统计与决策,2010,26(14):152-153.
10赵青,王金亭.有不成功启动和反馈的离散时间重试排队[J].北京交通大学学报,2007,31(3):72-76.

系统科学与数学

1999年第1期

浏览历史

内容加载中请稍等...

非平稳MDP的期望平均准则

相关作者

相关机构

相关主题

浏览历史