期刊文献+

部分可观的马尔可夫决策规划折扣模型的解法

Algorithm of Discounted Model of Partially Observable Markov Decision Programming
下载PDF
导出
摘要 本文将策略迭代-逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中,得到一个新的逐次逼近算法。算法保证能求出一个ε-最优的平稳策略。 This paper treats of the discounted cost model for Markov decisonprogramming with incomplete state information and developes a Howard-like policy iteration to compute ε-optimal policies for the infinite horizon POMDP.
作者 许青松
出处 《湖南大学学报(自然科学版)》 EI CAS CSCD 1995年第5期16-20,共5页 Journal of Hunan University:Natural Sciences
关键词 迭代 收敛 ε-最优策略 马氏决策规划 折扣模型 iteration, covergence,ε-optimal policies
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部