基于状态集结的值函数逼近

Value Function Approximation with State Aggregation

下载PDF

导出

摘要用更为紧凑的方法表示和存贮值函数 ,以求解大规模平均模型 Markov决策规划(MDP)问题 .通过状态集结相对值迭代算法逼近值函数 ,用 Span半范数和压缩映射原理分析算法的收敛性 .给出了状态集结后的 Bellman最优方程 .在 Span压缩条件下证明了该算法的收敛性。 To represent and store cost to go functions with more compact representations than lookup tables in scaling up average reward Markov decision processes, the state aggregation with relative value iteration algorithm was used to approximate the value function, the Span semi norm and the contraction mapping law were used to analyse the convergence of the algorithm. The Bellman equation for the state aggregation model was given. The convergence result was proved and an error bound for the proposed algorithm was presented under the condition of contraction with Span semi norm.

作者胡光华刘英敏吴沧浦

机构地区北京理工大学自动控制系

出处《北京理工大学学报》 EI CAS CSCD 2000年第3期304-308,共5页 Transactions of Beijing Institute of Technology

基金国家自然科学基金资助项目! (6 96 740 0 5 )

关键词动态规划状态集结随机控制值函数逼近 dynamic programming Markov decision processes compact repre sentation state aggregation average reward

分类号 TP273 [自动化与计算机技术—检测技术与自动化装置] O221.3 [理学—运筹学与控制论]

引文网络
相关文献

参考文献1

1Hu Guanghua，OR Transaction，1999年，3卷，2期，1页

1胡光华,吴沧浦,乔治.瑟彬珂.基于状态软集结的相对值迭代算法(英文)[J].控制理论与应用,2000,17(3):415-418.
2吴沧浦,刘念泉.基于最小最大逼近强化学习的误差分析[J].控制与决策,2000,15(2):193-196.
3王红.用几何方法表示产生算符与消没算符[J].新疆大学学报（自然科学版）,1993,10(4):5-10.
4徐昕,贺汉根.神经网络增强学习的梯度算法研究[J].计算机学报,2003,26(2):227-233. 被引量：21
5厉广伟,曹爱增,尹建芹.基于视觉的足球机器人决策规划研究进展[J].济南大学学报（自然科学版）,2006,20(2):155-159. 被引量：2
6李春贵,刘永信.一种状态集结因子化SARSA(λ)强化学习算法[J].内蒙古大学学报（自然科学版）,2001,32(6):675-678. 被引量：1
7胡光华,吴沧浦.基于Span压缩的相对值迭代算法(英文)[J].运筹学学报,1999,3(2):1-9.
8陈圣磊,谷瑞军,陈耿,薛晖.基于TD(λ)的自然梯度强化学习算法[J].计算机科学,2010,37(12):186-189. 被引量：2
9杨春巍.马尔科夫质量控制模型[J].重庆建筑大学学报,1997,19(1):108-113.
10沈玲,夏银水,叶益迭.基于指数平均模型的无线传感器网络动态功耗管理[J].传感技术学报,2014,27(11):1551-1556. 被引量：2

北京理工大学学报

2000年第3期

浏览历史

内容加载中请稍等...

基于状态集结的值函数逼近

参考文献1

相关作者

相关机构

相关主题

浏览历史