期刊文献+

观察过程状态数为可数的POMDP的算法

Algorithm of Discounted Model of POMDP with Denumerable States in Observation Process
下载PDF
导出
摘要 给出了观察过程状态数为可数时,部分可观的马尔可夫决策规划(POMDP)折扣模型的逼近法和算法.算法保证了能求到ε-最优的平稳策略和ε-最优的期望费用函数. The iteration method for the POMDP with denumerable states in observation process was studied. It developed an operator nH and a policy iteration to compute ε-optimal policies.
作者 许青松
出处 《湖南大学学报(自然科学版)》 EI CAS CSCD 1996年第1期25-32,共8页 Journal of Hunan University:Natural Sciences
基金 省经委基金
关键词 ε-最优策略 马氏决策规划 折扣模型 算法 nH operator iteration covergence ε-optimal policies
  • 相关文献

参考文献1

  • 1许青松,湖南大学学报,1995年,22卷,5期,16页

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部