平稳策略类上DMOMDP的求解法

An Algorithm for DMOMDP on Stationary Strategy Set

下载PDF

导出

摘要本文运用策略改进迭代法,给出了折扣因子可以不同的平稳策略类上DMOMDP的求解方法,并证明了一个策略是最优策略的充要条件是策略为最优方程的有效不动点。 An algorithm is presented in this paper to solve DMOMDP with different discounted facts on the stationary strategy set by employing the iterative method of strategy improvement. It is proved that a strategy is an optimal strategy if and only if it is an effective fixed point of the optimal equation.

作者曾庆宁

机构地区桂林电子工业学院基础部

出处《桂林电子工业学院学报》 1989年第2期84-89,共6页 Journal of Guilin Institute of Electronic Technology

关键词最优策略最优方程不动点 optimal strategy optimal equation fixed point

分类号 O224 [理学—运筹学与控制论]

引文网络
相关文献

1曾庆宁.DMOMDP及其П_m^d与П_S^d优势[J].桂林电子工业学院学报,1989,9(1):18-23.
2刘克,刘建庸.向量值半Markov决策规划[J].科学通报,1990,35(18):1364-1367. 被引量：5
3郑少慧.具有平均准则的离散马氏规划——最优平稳策略存在的较弱条件[J].山东矿业学院学报,1989,8(4):95-100.
4曾庆宁.平均多目标马氏决策规划[J].系统工程,1989,7(1):25-32.
5张道智.依赖于历史的折扣半马氏决策规划[J].清华大学学报（自然科学版）,1989,29(3):30-39.
6郭先平.MDP平均模型的强最优性[J].湖南师范大学自然科学学报,1996,19(1):21-24.
7颜铁成.多阶段随机规划中的一类可行策略[J].系统工程学报,1995,10(2):41-47. 被引量：4
8Masahiko SAKAGUCHI,Yoshio OHTSUBO.Markov decision processes associated with two threshold probability criteria[J].控制理论与应用（英文版）,2013,11(4):548-557.
9许青松.观察过程状态数为可数的POMDP的算法[J].湖南大学学报（自然科学版）,1996,23(1):25-32.
10许青松.部分可观的马尔可夫决策规划折扣模型的解法[J].湖南大学学报（自然科学版）,1995,22(5):16-20.

桂林电子工业学院学报

1989年第2期

浏览历史

内容加载中请稍等...

平稳策略类上DMOMDP的求解法

相关作者

相关机构

相关主题

浏览历史