摘要
本文考虑的是非平稳MDP的期望平均准则,在弱遍历条件下,用概率及鞅论的方法证明了。∈(0)-最优马氏策略的存在性,作为特例,较好地解决了Feinberg和Park在1994年提及的开问题.
In this paper, we consider the expected average criterion for nonstationary MDP.By probability and martingale method, we prove the existence of ∈( 0)-optimal Markov policies under weakly ergodic conditions. As a typical example of this paper, we solve the open problem posed by Feinberg and Park again.
出处
《系统科学与数学》
CSCD
北大核心
1999年第1期123-128,共6页
Journal of Systems Science and Mathematical Sciences
基金
国家自然科学基金
广东省博士后基金
关键词
马氏决策过程
期望平均准则
非平稳过程
Markov decision processes, expected average criterion, optimal equation,optimal policy