摘要
研究无界报酬折扣半马氏决策规划问题.证明了: 策略π·=(π1·,π2·,…πn·,π·n+1,…)是最优策略,则π1·(∞)及(π1·,π2·,…,πn·)(∞)对同一折扣因子函数也是最优的,对任给的整数n≥1,在一定的条件下,πn·(∞)也是最优的;证明了若最优策略存在,必存在最优平稳策略;证明了ε最优平稳策略的存在性。
This paper discusses the semi-markov decision processes with discount factors depend on history. We show: If the strategy π*= (π·1, π2·, ...,πn·,...) is optimal, then π1·(∞)and (π1·, π2·,...,πn·)(∞) are optimal for any n≥1. Under certain conditions, if π·= (π1,π2,..., πn, ...) is optimal, then π·n(∞) is optimal for any n≥1. There are ε-optimal stationary strategies.
出处
《清华大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
1989年第3期30-39,共10页
Journal of Tsinghua University(Science and Technology)
关键词
折扣因子函数
最优策略
平稳策略
discount factors, optimal strategies, optimal stationary strategies