随机折扣部分可观察马尔可夫决策规划被引量：1

PARTIALLY OBSERVABLE MARKOV DECISION PROGRAMMING WITH STOCHASTIC DISCOUNT FACTORS

导出

摘要一、引言考虑一个部分可观察马尔可夫决策规划模型(简记为 POMDP),并引文[1]中所用的定义、记号(只将δ_N 换成∏,(?)换成 A)和有关结论.于是信息向量 π(t)与 π(t+1) The paper discusses an optimal problem for partially observable Markov decision pro-gramming with stochastic variable discount factor over a fintie hirizon.It is shown that theoptimal return function is piecewise-linear and convex and,furthermore,is total-convex.Itis also shown that there exist optimal decision functions that are piecewise-constant.Basedon these results,the “one pass”[1] can be used that only need a few revision.The algorithmis simple and efficient.

作者刘迪芬刘克刘建庸

机构地区湖南师范大学数学系中国科学院应用数学研究所

出处《系统科学与数学》 CSCD 北大核心 1993年第2期152-159,共8页 Journal of Systems Science and Mathematical Sciences

基金国家自然科学基金资助课题

关键词马氏决策规划折扣因子随机变量

分类号 O221 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1董泽清，马尔科夫决策规划引论，1983年

同被引文献3

1刘迪芬，高校应用数学学报，1993年，8卷，2期，210页
2刘迪芬，系统工程，1991年，增刊21期
3杨向阳，硕士学位论文

引证文献1

1刘迪芬,刘建庸,刘克.部分可观察马尔可夫决策规划──首达目标模型[J].应用数学学报,1994,17(1):44-58.

1罗成新.关于问题1‖∑W_j(1—e^(-rC_j))的一点注记[J].沈阳师范大学学报（自然科学版）,1998,20(4):1-3.
2刘迪芬,刘建庸,刘克.部分可观察马尔可夫决策规划──首达目标模型[J].应用数学学报,1994,17(1):44-58.
3朱益民.连续时间马氏决策过程——最优策略对折扣因子的灵敏度分析[J].浙江工业大学学报,1999,27(2):155-159. 被引量：1
4刘迪芬,刘克,刘建庸.无限阶段部分可观察马尔可夫决策规划[J].高校应用数学学报（A辑）,1993,8(2):210-221. 被引量：1
5陈孝新.广义加权算术平均组合预测技术进一步研究[J].南昌大学学报（工科版）,2001,23(1):101-104. 被引量：1
6胡奇英.状态部分可观察的无界报酬马氏决策规划[J].数理统计与应用概率,1998,13(3):79-86. 被引量：3
7肖勇,唐恒永.带有折扣因子的树型约束排序问题的最优算法[J].系统工程理论方法应用,2003,12(3):257-261. 被引量：3
8王定成,苏淳,曾勇.随机权和最大值的一致估计及其在保险风险理论中的应用[J].中国科学（A辑）,2005,35(9):1044-1059.
9成龙,刘小冬,杨斌鑫.单机排序1|sp-graph|∑w_j(1-e^(-rC_j))的最优算法[J].系统工程,2004,22(2):92-96. 被引量：4
10刘建庸,刘克.关于有限阶段部分可观察DP的注记[J].应用概率统计,1993,9(3):278-282.

系统科学与数学

1993年第2期

浏览历史

内容加载中请稍等...

随机折扣部分可观察马尔可夫决策规划被引量：1

参考文献1

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

随机折扣部分可观察马尔可夫决策规划 被引量：1

参考文献1

同被引文献3

引证文献1

相关作者

相关机构

相关主题

浏览历史

随机折扣部分可观察马尔可夫决策规划被引量：1