期刊文献+

向量值半Markov决策规划 被引量:5

原文传递
导出
摘要 关于向量值Markov决策规划,文献[1]研究了有限阶段与无限阶段模型之间的关系。文献[2,3]将标量模型的策略迭代算法推广到向量模型,给出了求最优策略的算法。其算法大致叙述如下:从任一平稳策略出发,在平稳策略类中不断进行策略迭代改进,求得不动点及其周围的可疑点,然后从可疑点开始迭代改进。上述过程反复进行,直到考察完所有平稳策略为止。最后在求出的不动点集合Γ中用穷举法求出全部最优策略。
作者 刘克 刘建庸
出处 《科学通报》 EI CAS CSCD 北大核心 1990年第18期1364-1367,共4页 Chinese Science Bulletin
基金 国家自然科学基金
  • 相关文献

参考文献1

  • 1Dong Zeging,Sci Chin A,1986年,29卷,337页

同被引文献4

引证文献5

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部