部分可观的马尔可夫决策规划折扣模型的解法

Algorithm of Discounted Model of Partially Observable Markov Decision Programming

下载PDF

导出

摘要本文将策略迭代－逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中，得到一个新的逐次逼近算法。算法保证能求出一个ε－最优的平稳策略。 This paper treats of the discounted cost model for Markov decisonprogramming with incomplete state information and developes a Howard-like policy iteration to compute ε-optimal policies for the infinite horizon POMDP.

作者许青松

机构地区湖南大学应用数学系

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 1995年第5期16-20,共5页 Journal of Hunan University:Natural Sciences

关键词迭代收敛 ε-最优策略马氏决策规划折扣模型 iteration, covergence,ε-optimal policies

分类号 O225 [理学—运筹学与控制论] O211.62 [理学—概率论与数理统计]

引文网络
相关文献

1许青松.观察过程状态数为可数的POMDP的算法[J].湖南大学学报（自然科学版）,1996,23(1):25-32.
2马昌凤.非线性互补问题非精确逐次逼近法的全局收敛性(英文)[J].数学杂志,2001,21(3):285-289.
3马昌凤,梁国平.混合互补问题的逐次逼近算法[J].数学的实践与认识,2002,32(5):769-773.
4曾庆宁.DMOMDP及其П_m^d与П_S^d优势[J].桂林电子工业学院学报,1989,9(1):18-23.
5曾庆宁.平稳策略类上DMOMDP的求解法[J].桂林电子工业学院学报,1989,9(2):84-89.
6陈峥.二步马氏折扣模型的最优策略[J].青岛海洋大学学报（自然科学版）,1993,23(1):130-134. 被引量：1
7贾让成.字典序下的折扣多目标半马氏决策模型[J].西安电子科技大学学报,1989,16(2):55-63.
8伍从斌.无界报酬折扣半马氏决策模型矩最优策略的结构[J].云南大学学报（自然科学版）,1990,12(4):299-306. 被引量：1
9伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.
10李伟鹏.基于矩阵的求最短路的逐次逼近算法及MATLAB实现[J].牡丹江大学学报,2014,23(9):160-162.

湖南大学学报（自然科学版）

1995年第5期

浏览历史

内容加载中请稍等...

部分可观的马尔可夫决策规划折扣模型的解法

相关作者

相关机构

相关主题

浏览历史