摘要
在一种新的概率阈值准则下讨论马尔可夫决策的最优解的算法问题.采用基于增益的过去累积值的方法,求解马尔可夫最优策略.
The arithmetic problems of the Markov optimum solution are discussed under the new principle. The markov optimum policy is gained bared on the previous accumulation value.
出处
《山东理工大学学报(自然科学版)》
CAS
2004年第1期62-65,共4页
Journal of Shandong University of Technology:Natural Science Edition