摘要
给出了观察过程状态数为可数时,部分可观的马尔可夫决策规划(POMDP)折扣模型的逼近法和算法.算法保证了能求到ε-最优的平稳策略和ε-最优的期望费用函数.
The iteration method for the POMDP with denumerable states in observation process was studied. It developed an operator nH and a policy iteration to compute ε-optimal policies.
出处
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
1996年第1期25-32,共8页
Journal of Hunan University:Natural Sciences
基金
省经委基金