摘要
本文将策略迭代-逐次逼近法改进以后直接应用到部分可观的马尔可夫决策规划问题中,得到一个新的逐次逼近算法。算法保证能求出一个ε-最优的平稳策略。
This paper treats of the discounted cost model for Markov decisonprogramming with incomplete state information and developes a Howard-like policy iteration to compute ε-optimal policies for the infinite horizon POMDP.
出处
《湖南大学学报(自然科学版)》
EI
CAS
CSCD
1995年第5期16-20,共5页
Journal of Hunan University:Natural Sciences