期刊文献+

基于Span压缩的相对值迭代算法(英文)

Relative Value Iteration Algorithm Based on Contraction Span Semi-Norm
下载PDF
导出
摘要 本文研究平均报酬马氏决策过程(MDP)的相对值迭代算法.给出了span半范数压缩因子的一个表达式,证明了该因子小于1时本文绘出的相对值迭代算法及小步长相对值迭代算法均收敛到其最优解. In this paper, the relative value iteration algorithm for average reward Markov decision processes (MDP)is investigated. A formulation of contraction factor of span seminorm is given, the convergence of relative value iteration (RVI) algorithm and the smallstep RVI algorithm are proved under a condition of the contraction span semi-norm.
出处 《运筹学学报》 CSCD 1999年第2期1-9,共9页 Operations Research Transactions
关键词 马氏决策过程 Span压缩 相对值迭代算法 Markov decision processes contraction mappings dynamic programming average reward
  • 相关文献

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部