观察过程状态数为可数的POMDP的算法

Algorithm of Discounted Model of POMDP with Denumerable States in Observation Process

下载PDF

导出

摘要给出了观察过程状态数为可数时，部分可观的马尔可夫决策规划（ＰＯＭＤＰ）折扣模型的逼近法和算法．算法保证了能求到ε－最优的平稳策略和ε－最优的期望费用函数． The iteration method for the POMDP with denumerable states in observation process was studied. It developed an operator nH and a policy iteration to compute ε-optimal policies.

作者许青松

机构地区湖南大学应用数学系

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 1996年第1期25-32,共8页 Journal of Hunan University:Natural Sciences

基金省经委基金

关键词 ε-最优策略马氏决策规划折扣模型算法 nH operator iteration covergence ε-optimal policies

分类号 O225 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1许青松，湖南大学学报，1995年，22卷，5期，16页

1许青松.部分可观的马尔可夫决策规划折扣模型的解法[J].湖南大学学报（自然科学版）,1995,22(5):16-20.
2郭树春.关于体积与容积的教学反思[J].新课程学习（中）,2013(6):120-120.
3陈学.如何在小学数学教学中培养学生的数学语言[J].软件（教学）,2015,0(7):128-128.
4曾庆宁.DMOMDP及其П_m^d与П_S^d优势[J].桂林电子工业学院学报,1989,9(1):18-23.
5曾庆宁.平稳策略类上DMOMDP的求解法[J].桂林电子工业学院学报,1989,9(2):84-89.
6陈峥.二步马氏折扣模型的最优策略[J].青岛海洋大学学报（自然科学版）,1993,23(1):130-134. 被引量：1
7贾让成.字典序下的折扣多目标半马氏决策模型[J].西安电子科技大学学报,1989,16(2):55-63.
8伍从斌.无界报酬折扣半马氏决策模型矩最优策略的结构[J].云南大学学报（自然科学版）,1990,12(4):299-306. 被引量：1
9伍从斌.无界报酬折扣半马氏决策模型矩最优策略的存在性[J].云南大学学报（自然科学版）,1991,13(3):199-206.
10刘克,刘建庸.向量值半Markov决策规划[J].科学通报,1990,35(18):1364-1367. 被引量：5

湖南大学学报（自然科学版）

1996年第1期

浏览历史

内容加载中请稍等...

观察过程状态数为可数的POMDP的算法

参考文献1

相关作者

相关机构

相关主题

浏览历史