期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
CONTINUOUS TIME MARKOV DECISION PROGRAMMING WITH AVERAGE REWARD CRITERION AND UNBOUNDED REWARD RATE
1
作者 郑少慧 《Acta Mathematicae Applicatae Sinica》 SCIE CSCD 1991年第1期6-16,共11页
This paper deals with the continuous time Markov decision programming (briefly CTMDP) withunbounded reward rate.The economic criterion is the long-run average reward. To the models withcountable state space,and compac... This paper deals with the continuous time Markov decision programming (briefly CTMDP) withunbounded reward rate.The economic criterion is the long-run average reward. To the models withcountable state space,and compact metric action sets,we present a set of sufficient conditions to ensurethe existence of the stationary optimal policies. 展开更多
关键词 CONTINUOUS TIME MARKOV decision programming WITH average REWARD criterion AND UNBOUNDED REWARD RATE CTMDP
原文传递
非平稳MDP平均模型ε_n-最优策略的结构
2
作者 郭先平 刘武旺 《湖南师范大学自然科学学报》 CAS 1994年第3期1-7,共7页
本文考虑的是状态空间和行动空间均为一般集的非平稳MDP平均模型εn-最优策略的结构和性质,通过相应的一般决策模型的建立及εn-最优行动集Aεn的引入,讨论了εn-最优策略的凸组合,凸分解等若干性质。
关键词 平均模型 马氏决策规划 最优策略
下载PDF
非平稳MDP—平均样本轨道最优
3
作者 郭先平 《数学物理学报(A辑)》 CSCD 北大核心 2000年第1期31-35,共5页
作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要... 作者考虑的是任意状态空间,任意行动空间非平稳MDP的平均样本轨道目标.在弱遍历条件下,用鞅的极限理论,证明了最优马氏策略的存在性,推广了A.Arapostathis,V.Borkar,E.F.Gaucherand,M.Ghosh,S.Marcus[1](1993)的主要结果. 展开更多
关键词 马氏决策规划 平均样本轨道目标 非平衡 MDP
下载PDF
期望平均准则的半马氏MDP
4
作者 郭先平 肖果能 《长沙铁道学院学报》 CSCD 1995年第3期71-78,共8页
本文讨论的是由可数状态空间,任意行动空间及半马氏决策矩阵所确定的半马氏决策过程的期望平均准则,在半马氏决策矩阵和报酬函数满足一定的条件下.用概率论中的稳定性定理,证明了ε(≥0)-强最优平稳策略的存在性.
关键词 马尔柯夫 决策规划 半马氏决策矩阵 平均准则
下载PDF
半马氏MDP平均模型
5
作者 邱德华 《衡阳师专学报》 1998年第3期1-7,共7页
研究了半马氏MDP平均模型,提出了新的较弱的假设条件,证明了半马氏MDP平均模型最优方程解的存在性,然后从最优方程出发,证明了存在ε(≥0)-最优平稳策略。
关键词 最优方程 最优平稳策略 半马氏MDP模型
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部