基于Span压缩的相对值迭代算法(英文)

Relative Value Iteration Algorithm Based on Contraction Span Semi-Norm

下载PDF

导出

摘要本文研究平均报酬马氏决策过程（MDP）的相对值迭代算法．给出了span半范数压缩因子的一个表达式，证明了该因子小于1时本文绘出的相对值迭代算法及小步长相对值迭代算法均收敛到其最优解． In this paper, the relative value iteration algorithm for average reward Markov decision processes (MDP)is investigated. A formulation of contraction factor of span seminorm is given, the convergence of relative value iteration (RVI) algorithm and the smallstep RVI algorithm are proved under a condition of the contraction span semi-norm.

作者胡光华吴沧浦

机构地区北京理工大学自动控制系

出处《运筹学学报》 CSCD 1999年第2期1-9,共9页 Operations Research Transactions

关键词马氏决策过程 Span压缩相对值迭代算法 Markov decision processes contraction mappings dynamic programming average reward

分类号 O211.62 [理学—概率论与数理统计] O221.5 [理学—运筹学与控制论]

引文网络
相关文献

1胡光华,吴沧浦,乔治.瑟彬珂.基于状态软集结的相对值迭代算法(英文)[J].控制理论与应用,2000,17(3):415-418.
2胡光华,刘英敏,吴沧浦.基于状态集结的值函数逼近[J].北京理工大学学报,2000,20(3):304-308.
3胡光华.参数Markov决策过程的随机逼近算法[J].云南大学学报（自然科学版）,2003,25(5):377-380. 被引量：1
4胡光华,吴沧浦.Incremental Multi Step R Learning[J].Journal of Beijing Institute of Technology,1999,8(3):245-250.
5胡奇英.MDP中模型的转换——平均模型[J].西安电子科技大学学报,1991,18(1):63-71.
6柳长春,沈志江,于海斌.可重入生产系统的平均报酬型强化学习调度[J].信息与控制,2004,33(2):145-150. 被引量：5
7张元林.An Optimal Replacement Policy for Repai?[J].中央民族大学学报（自然科学版）,1996,5(1).
8ZHU Quanxin,GUO Xianping.STRONG N-DISCOUNT AND FINITE-HORIZON OPTIMALITY FOR CONTINUOUS-TIME MARKOV DECISION PROCESSES[J].Journal of Systems Science & Complexity,2014,27(5):1045-1063. 被引量：1
9周晶,盛昭瀚,何建敏,杨海,王长君.适于估计OD矩阵的交通检测点的最优分布[J].自动化学报,2000,26(3):303-309. 被引量：7
10张智聪,郑力,翁小华.基于增强学习的平行机调度研究[J].计算机集成制造系统,2007,13(1):110-116. 被引量：3

运筹学学报

1999年第2期

浏览历史

内容加载中请稍等...

基于Span压缩的相对值迭代算法(英文)

相关作者

相关机构

相关主题

浏览历史