基于状态软集结的相对值迭代算法(英文)

Relative Value Iteration Algorithm with Soft State Aggregation

下载PDF

导出

摘要在大规模随机控制问题中 ,值函数逼近是一种克服维数灾的方法 .考虑平均模型马氏决策规划 (MDP)的状态软集结相对值迭代算法 ,在Span压缩的条件下 ,证明了该算法的收敛性 ,同时还给出了其误差估计 . A straightforward way to dispel the curse of dimensionality in large stochastic control problems is to replace the lookup table with a generalized function approximator such as state aggregation. The relative value iteration algorithm for average reward Markov decision processes (MDP) with soft state aggregation is investigated. Under a condition of the contraction with span semi norm, the convergence of the proposed algorithm is proved and an error bound of the approximation is also given.

作者胡光华吴沧浦乔治.瑟彬珂

机构地区北京理工大学自动控制系达特茅斯学院工学院

出处《控制理论与应用》 EI CAS CSCD 北大核心 2000年第3期415-418,共4页 Control Theory & Applications

基金 Foundationitem :supportedbytheNationalNaturalScienceFoundationofChina (696740 0 5) .

关键词随机控制状态软集结相对值迭代算法 dynamic programming Markov decision processes compact representation state aggregation average reward

分类号 TP13 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1Hua Huguang，OR Transection，1999年，3卷，2期，1页

1胡光华,吴沧浦.基于Span压缩的相对值迭代算法(英文)[J].运筹学学报,1999,3(2):1-9.
2胡光华,刘英敏,吴沧浦.基于状态集结的值函数逼近[J].北京理工大学学报,2000,20(3):304-308.
3Tai-Wen HSU,Chin-Yen TSAI.RANS Modeling of Solitary Wave Propagation over A Submerged Rectangular Breakwater[J].China Ocean Engineering,2009,23(3):473-488. 被引量：1
4郭先平.非平稳MDP平均模型的ε(≥O)-最优策略存在的充分条件[J].湖南师范大学自然科学学报,1992,15(4):300-304.
5刘江华,陈佳品,程君实.基于支持向量机的非线性系统辨识[J].测控技术,2002,21(11):54-56. 被引量：4
6胡奇英.MDP中模型的转换——平均模型[J].西安电子科技大学学报,1991,18(1):63-71.
7郭先平.可数状态MDP的平均模型[J].数学年刊（A辑）,1996,1(5):539-546. 被引量：1
8郭先平.不完全信息的非平稳MDP平均模型[J].数理统计与应用概率,1995,10(2):14-21.
9魏力仁,郭先平.非平稳MDP的平均模型——一般状态空间的情形[J].科学通报,1991,36(10):728-730. 被引量：2
10乔建忠,雷为民,李本忍,滕弘飞.混合遗传算法研究及其应用[J].小型微型计算机系统,1998,19(12):14-19. 被引量：6

控制理论与应用

2000年第3期

浏览历史

内容加载中请稍等...

基于状态软集结的相对值迭代算法(英文)

参考文献1

相关作者

相关机构

相关主题

浏览历史