无界报酬折扣半马氏决策模型矩最优策略的结构被引量：1

The Structure of A Moment Optimal Policy in Discounted Semi-Markov Decision Model with Unbounded Rewards

导出

摘要本文研究具有可数状态空间和任意行动空间的Lippman型无界报酬折扣半马氏决策模型(DSMDM)矩最优策略的结构.证明了:若策略π,σ是(K)矩最优的.则π~nσ及π的任一自组合策略也是(K)矩最优的,且存在与π等价的(K)矩最优策略π^(?),使~nπ^(*hn)为(K)矩最优的;存在(K)矩最优策略的充要条件是(K)矩最优行动集A_K(i)非空;策略π为(K)矩最优当且仅当π_n(A_K(i)|H_n,i)=1,α.e.P_(πn);π为(K)矩最优策略的又一充要条件是它可分解为若干个确定性(K)矩最优策略的一个凸组合.这样,该模型矩最优策略的结构就得到了较完满的解决. The structure of a moment optimal policy is considered in discounted semi-Markov decision model with countable state space, arbitrary action space and unbounded rewards. If policies n, a are ( k) moment optimal, then also πσ and any self-combination policy of π are (k) moment optimal, and there exists a (k) moment optimal policy π* which is equivalent to π such that 'π*kn is a ( k) moment optimal policy. There exists a ( k) moment optimal policy if and only if (k) moment optimal action sets are nonempty for each state. Finally, a few necessary and sufficient conditions for a policy to be (k) moment optimal are obtained, and it is shown that the problem of constructing a (k) moment optimal policy has been solved completely.

作者伍从斌

机构地区云南大学计算机科学系

出处《云南大学学报（自然科学版）》 CAS CSCD 1990年第4期299-306,共8页 Journal of Yunnan University(Natural Sciences Edition)

关键词折扣模型无界报酬矩最优策略 discounted model, unbounded rewards, moments, optimal policy

分类号 O221 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1郭世贞.折扣马氏决策规划的方差最小最优策略问题[J]应用数学学报,1987(02).

同被引文献2

1郭世贞.折扣马氏决策规划的方差最小最优策略问题[J]应用数学学报,1987(02).
2董泽清.马氏决策规划的加速逼近算法与最小方差问题[J]数学学报,1978(02).

引证文献1

1伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.

1伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.
2贾让成.字典序下的折扣多目标半马氏决策模型[J].西安电子科技大学学报,1989,16(2):55-63.
3胡奇英.非时齐无界报酬马氏决策规划[J].西安电子科技大学学报,1992,19(1):72-83.
4胡奇英.无界报酬折扣马氏决策规划中的逐次逼近法[J].数理统计与应用概率,1995,10(2):31-37.
5贾让成.折扣半马氏决策模型的矩最优问题[J].工程数学学报,1989,6(3):108-111.
6张升,张继红.无界报酬向量值折扣马氏决策规划[J].云南大学学报（自然科学版）,1993,15(3):200-207. 被引量：2
7胡奇英.状态部分可观察的无界报酬马氏决策规划[J].数理统计与应用概率,1998,13(3):79-86. 被引量：3
8邱德华.无界报酬非时齐折扣马氏决策模型[J].衡阳师专学报,1997,18(6):16-22.
9胡奇英.报酬无界的平均准则马氏决策过程(英文)[J].运筹学学报,2002,6(1):1-8.
10张昇,郭世贞.无界报酬非时齐折扣马氏决策模型[J].应用数学学报,1990,13(3):314-323. 被引量：2

云南大学学报（自然科学版）

1990年第4期

浏览历史

内容加载中请稍等...

无界报酬折扣半马氏决策模型矩最优策略的结构被引量：1

参考文献1

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

无界报酬折扣半马氏决策模型矩最优策略的结构 被引量：1

参考文献1

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

无界报酬折扣半马氏决策模型矩最优策略的结构被引量：1