几种经典的策略梯度算法性能对比被引量：1

The Comparison of Policy Gradient Algorithms in Reinforcement Learning

下载PDF

导出

摘要策略梯度函数是基于直接策略搜索的方法。它把策略参数化,并且估算优化指标相对于策略参数的梯度,然后利用该梯度来调整这些参数,最后可以获得局部最优或者局部最优策略。所以这样得到的策略可以是随机性策略也可是确定性策略。通过自主开发的Gridworld策略梯度实验平台,对经典GPOMDP、NAC和基于TD(λ)的策略梯度算法的收敛性能进行了对比分析。 The classical gradient policy function is based on direct policy searching method, in which the policy is approximated with respect to the optimization of policy gradient parameters to get a local optimal strategy. GPOMDP, NAC and TD( λ) experiments are simulated with Gridworld simulation platform. The converge benchmark shows the performance of TD( λ) algorithm by help of value functions is superior to the others.

作者王辉于婧

机构地区苏州大学计算机科学与技术学院

出处《电脑知识与技术（过刊）》 2014年第10X期6937-6941,6944,共6页 Computer Knowledge and Technology

关键词强化学习策略梯度收敛性仿真实验 reinforcement learning policy gradient convergence simulation experiments

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1Jan Peters,Stefan Schaal.Natural Actor-Critic[J].Neurocomputing.2008(7)
2王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
3Ronald J. Williams.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine Learning (-).1992(3-4)
4Richard S. Sutton.Learning to predict by the methods of temporal differences[J].Machine Learning.1988(1)

二级参考文献36

1[2]SUTTON R,BARTO A.Reinforcement learning,an introduetion[M].MIT Press,1998.
2[3]SINGH S P.Learning to solve Markovian decision processes[D].University of Massachusetts,1994.
3[4]ROY B V.Learning and value function approximation in complex decision processes[M].MIT Press,1998.
4[5]WATKINS C.Learning from delayed rewards[D].Cambrideg:University of Cambridge,1989.
5[6]HUMPHRYS M.Action selection methods using reinforcement learning[D].Cambrideg:University of Cambridge,1996.
6[7]BERTSEKAS D P,TSITSIKLIS J N.Neuro-dynamic programming[M].Athena Scientific,Belmont,Mass.,1996.
7[8]SUTTON R S,MCALLESTER D,SINGH S,et al.Policy gradient methods for reinforcement learning with function approximation[A].In:Advafices in Neural Information Processing Systems[C].Denver,USA,2000.
8[9]BAIRD L C.Residual algorithms:reinforcement learning with function approximation[A].In:Proc.Of the 12#Int.Conf.on Machine Learning[C].San Francisco,1995.
9[10]TSITSIKLIS J N,ROY V B.Feature-based methods for large scale dynamic programming[J].Machine Learning,1996(22):59-94.
10[12]BAXTER J,BARTLETT P L.Infinite-horizon policygradient estimation[J].Journal of Artificial Intelligence Research,2001(15):319-350.

共引文献8

1肖力,束雄英,查亚兵.基于支持样本的快速增强学习算法[J].微计算机信息,2009,25(24):136-138.
2陈圣磊,谷瑞军,陈耿,薛晖.基于TD(λ)的自然梯度强化学习算法[J].计算机科学,2010,37(12):186-189. 被引量：2
3程玉虎,冯涣婷,王雪松.基于参数探索的期望最大化策略搜索[J].自动化学报,2012,38(1):38-45. 被引量：4
4郝钏钏,方舟,李平.采用经验复用的高效强化学习控制方法[J].华南理工大学学报（自然科学版）,2012,40(6):70-75. 被引量：1
5郝钏钏,方舟,李平.基于参考模型的输出反馈强化学习控制[J].浙江大学学报（工学版）,2013,47(3):409-414. 被引量：1
6姜晖,肖迪.Ncut聚类与增量支持向量机的SMB智能建模[J].计算机工程与设计,2015,36(7):1891-1895. 被引量：2
7刘志荣,姜树海,袁雯雯,史晨辉.基于深度Q学习的移动机器人路径规划[J].测控技术,2019,38(7):24-28. 被引量：23
8易兰新,杨小君.强化学习模型对学生学习与决策的启示[J].教育观察,2015,4(16):20-22.

同被引文献1

1常亮,邓小明,周明全,武仲科,袁野,杨硕,王宏安.图像理解中的卷积神经网络[J].自动化学报,2016,42(9):1300-1312. 被引量：419

引证文献1

1李佳芳,冯秀芳.基于深度卷积网络的绝缘子破损智能识别算法的研究[J].科学与信息化,2018,0(29):10-11. 被引量：2

二级引证文献2

1何晓云,许江淳,史鹏坤,陈文绪.基于注意力机制的视频人脸表情识别[J].信息技术,2020,44(2):103-107. 被引量：4
2唐冬来,廖强,李科峰,龚奕宇,聂潇.基于正样本学习的变电站避雷器破损识别方法[J].电子设计工程,2023,31(11):6-9.

1王学宁,陈伟,张锰,徐昕,贺汉根.增强学习中的直接策略搜索方法综述[J].智能系统学报,2007,2(1):16-24. 被引量：8
2林福寿,殷保群,黄静,巫旭敏.基于MDP支持弹性服务质量的接入控制[J].网络新媒体技术,2012,1(2):16-21. 被引量：1
3张润梅,王浩,张佑生,姚宏亮,方长胜.基于内部结构MPoMDP模型的策略梯度学习算法[J].计算机工程与应用,2009,45(7):20-23. 被引量：1
4王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
5赵京东,叶传秀.8连通和4连通边缘跟踪中的梯度函数[J].计算机工程与应用,2008,44(33):181-183. 被引量：5
6董春利,王莉.基于粒子滤波的直接策略搜索强化学习算法研究[J].江苏科技信息,2017,34(7):71-73.
7朱文文,金玉净,伏玉琛,宋绪文.连续空间的递归最小二乘行动者—评论家算法[J].计算机应用研究,2014,31(7):1994-1997. 被引量：2
8严晓明,郑之.BP神经网络梯度函数的分析研究[J].福建教育学院学报,2011,12(1):120-122. 被引量：3
9程振波,邓志东.优化策略模型下的匹配律算法[J].东南大学学报（自然科学版）,2009,39(S1):146-151.
10陈俊,强俊.基于粒子群算法的PID控制研究[J].自动化与仪器仪表,2009(3):7-8. 被引量：2

电脑知识与技术（过刊）

2014年第10X期

浏览历史

内容加载中请稍等...

几种经典的策略梯度算法性能对比被引量：1

参考文献4

二级参考文献36

共引文献8

同被引文献1

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

几种经典的策略梯度算法性能对比 被引量：1

参考文献4

二级参考文献36

共引文献8

同被引文献1

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

几种经典的策略梯度算法性能对比被引量：1