期刊文献+

依赖于历史的折扣半马氏决策规划

Semi-Markov Decision Process with Discount Factors Depend on History
原文传递
导出
摘要 研究无界报酬折扣半马氏决策规划问题.证明了: 策略π·=(π1·,π2·,…πn·,π·n+1,…)是最优策略,则π1·(∞)及(π1·,π2·,…,πn·)(∞)对同一折扣因子函数也是最优的,对任给的整数n≥1,在一定的条件下,πn·(∞)也是最优的;证明了若最优策略存在,必存在最优平稳策略;证明了ε最优平稳策略的存在性。 This paper discusses the semi-markov decision processes with discount factors depend on history. We show: If the strategy π*= (π·1, π2·, ...,πn·,...) is optimal, then π1·(∞)and (π1·, π2·,...,πn·)(∞) are optimal for any n≥1. Under certain conditions, if π·= (π1,π2,..., πn, ...) is optimal, then π·n(∞) is optimal for any n≥1. There are ε-optimal stationary strategies.
作者 张道智
机构地区 应用数学系
出处 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 1989年第3期30-39,共10页 Journal of Tsinghua University(Science and Technology)
关键词 折扣因子函数 最优策略 平稳策略 discount factors, optimal strategies, optimal stationary strategies
  • 相关文献

参考文献2

  • 1董泽清,中国科学.A,1985年,11期,975页
  • 2董泽清,1981年

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部