向量值半Markov决策规划被引量：5

导出

摘要关于向量值Markov决策规划,文献[1]研究了有限阶段与无限阶段模型之间的关系。文献[2,3]将标量模型的策略迭代算法推广到向量模型,给出了求最优策略的算法。其算法大致叙述如下:从任一平稳策略出发,在平稳策略类中不断进行策略迭代改进,求得不动点及其周围的可疑点,然后从可疑点开始迭代改进。上述过程反复进行,直到考察完所有平稳策略为止。最后在求出的不动点集合Γ中用穷举法求出全部最优策略。

作者刘克刘建庸

机构地区中国科学院应用数学研究所

出处《科学通报》 EI CAS CSCD 北大核心 1990年第18期1364-1367,共4页 Chinese Science Bulletin

基金国家自然科学基金

关键词马氏决策规划最优策略平稳策略

分类号 O221.5 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1Dong Zeging，Sci Chin A，1986年，29卷，337页

同被引文献4

1章芸,郭世贞.具无界递归报酬函数的非时齐马尔科夫决策规划[J].昆明工学院学报,1993,18(2):73-81. 被引量：1
2董泽清,刘克.折扣模型最优策略的结构[J]数学研究与评论,1986(03).
3郭世贞.折扣目标马氏决策的最优策略问题[J]经济数学,1984(00).
4胡奇英.一般化马氏决策规划的现状与展望[J].运筹学杂志,1992,11(2):21-29. 被引量：7

引证文献5

1曾庆宁.向量值半Markov决策规划的线性加权解法[J].应用数学,2001,14(S1):77-80.
2张升,张继红.无界报酬向量值折扣马氏决策规划[J].云南大学学报（自然科学版）,1993,15(3):200-207. 被引量：2
3贾让成.向量值有限平均MDP[J].西北师范大学学报（自然科学版）,1994,30(3):16-19.
4章芸,郭世贞.具无界递归向量值报酬函数的非时齐马尔科夫决策规划[J].昆明工学院学报,1995,20(2):42-48.
5曾庆宁.向量值马氏决策规划的线性加权解法[J].应用数学学报,2001,24(4):630-632.

二级引证文献2

1张升,张继红.无界报酬向量值折扣马氏决策规划──最优平稳策略及算法[J].云南大学学报（自然科学版）,1994,16(4):299-305.
2秦叔明.时齐向量值马氏决策模型[J].数理统计与应用概率,1998,13(4):20-26.

1曾庆宁.DMOMDP及其П_m^d与П_S^d优势[J].桂林电子工业学院学报,1989,9(1):18-23.
2曾庆宁.平稳策略类上DMOMDP的求解法[J].桂林电子工业学院学报,1989,9(2):84-89.
3郑少慧.具有平均准则的离散马氏规划——最优平稳策略存在的较弱条件[J].山东矿业学院学报,1989,8(4):95-100.
4曾庆宁.平均多目标马氏决策规划[J].系统工程,1989,7(1):25-32.
5杨春巍.马尔科夫质量控制模型[J].重庆建筑大学学报,1997,19(1):108-113.
6张道智.依赖于历史的折扣半马氏决策规划[J].清华大学学报（自然科学版）,1989,29(3):30-39.
7郭先平.MDP平均模型的强最优性[J].湖南师范大学自然科学学报,1996,19(1):21-24.
8颜铁成.多阶段随机规划中的一类可行策略[J].系统工程学报,1995,10(2):41-47. 被引量：4
9曾庆宁.向量值半Markov决策规划的线性加权解法[J].应用数学,2001,14(S1):77-80.
10陈峥.二步马氏折扣模型的最优策略[J].青岛海洋大学学报（自然科学版）,1993,23(1):130-134. 被引量：1

科学通报

1990年第18期

浏览历史

内容加载中请稍等...

向量值半Markov决策规划被引量：5

参考文献1

同被引文献4

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

向量值半Markov决策规划 被引量：5

参考文献1

同被引文献4

引证文献5

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

向量值半Markov决策规划被引量：5