基于启发函数改进的SARSA(λ)算法被引量：2

SARSA(λ) Algorithm Based on Heuristic Function

下载PDF

导出

摘要强化学习是一种重要的机器学习方法,在机器人路径规划,智能控制等许多决策问题中取得了成功的应用,已经成为机器学习研究的一个重要分支。针对强化学习存在着的收敛慢,学习知识慢,探索与利用平衡等问题,论文对SARSA(λ)算法提出了一种改进,改进的方法借助经验知识从环境特征中提出一个用于策略择优和优化回报函数的启发函数,以此来加速算法的收敛速度。通过仿真对比,论文提出改进算法具有比SARSA(λ)更快的奖赏反馈,表明了该算法在知识学习方面的有效性。 Reinforcement learning is an important method of machine learning research.The success in robot path planning,intelligent control and many other successful application in decision making problems make it become an important component of machine learning.But it is also has the problem of slow convergence,slow learning,exploration and utilization of balance.In this paper,an improved algorithm is proposed based on SARSA（λ）,which can extract features form the environment and get the heuristic function for strategy and reward function to accelerate the convergence speed.Through simulation comparison,this improved algorithm has faster reward feedback than SARSA（λ）,it is showed that the effectiveness of the algorithm in the learning of knowledge.

作者马朋委潘地林

机构地区安徽理工大学计算机科学与工程学院

出处《计算机与数字工程》 2016年第5期825-828,共4页 Computer & Digital Engineering

关键词强化学习 SARSA(λ) 启发函数评估学习 reinforcement learning SARSA（λ） heuristic function assessment learning

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1MitchellTM.机器学习.曾华军,译.北京:机械工业出版社,2008:23-27.
2L. P. Kael bling, M. L. Litt man, A. W. Moore. Reinforcement Learning: A Survey[R]. Arxiv preprint cs/9605103,1996 : 237-285.
3L. Tang,]3. An, D. Cheng. An agent reinforcement learning model based on neural networks[C//Bio-In- spired Computational Intelligence and Applications, 2007:117-127.
4Jinsong, Leng, Lakhmi Jain, Colin Fyfe. Convergence Analysis on Approximate Reinforcement Learning [C//Z. Zhang and Siekmann (Eds): KSEM 2007, LNAI 4798, pp. 85-91.
5Rummery, G A, Niranjan, M. On-line Q_learning u- sing connectionist systemED]. London: Cambridge U- niversity, 1994.
6SUTTONRS, BARTO AG. Reinforcement learning: an introduction[M]. Cambridge: MIT, 1998:150-185.
7Singh S P, Sutton R S. Reinforcement learning with replacing eligibility traces[J]. Machine Learning,1996, (22) : 123-158.
8Bianchi R A C, Ribeiro C H C, Costa A H R. Accel- erating autonomous learning by using heuristic selec- tion of actions[J]. Journal of Heuristics, 2008,14(2) .- 135-168.

同被引文献35

1张颖,吴成东,原宝龙.机器人路径规划方法综述[J].控制工程,2003,10(z1):152-155. 被引量：66
2李一波,张庆涛.室内未知环境遍历路径规划算法综述[J].计算机科学,2012,39(S3):334-338. 被引量：7
3戴博,肖晓明,蔡自兴.移动机器人路径规划技术的研究现状与展望[J].控制工程,2005,12(3):198-202. 被引量：75
4刘义,张宇.基于改进人工势场法的移动机器人局部路径规划的研究[J].现代机械,2006(6):48-49. 被引量：18
5刘玲,王耀南,况菲,张辉.基于神经网络和遗传算法的移动机器人路径规划[J].计算机应用研究,2007,24(2):264-265. 被引量：23
6鲍庆勇,李舜酩,沈峘,门秀花.自主移动机器人局部路径规划综述[J].传感器与微系统,2009,28(9):1-4. 被引量：54
7陈晓娥,苏理.一种基于环境栅格地图的多机器人路径规划方法[J].机械科学与技术,2009,28(10):1335-1339. 被引量：9
8朱大奇,颜明重.移动机器人路径规划技术综述[J].控制与决策,2010,25(7):961-967. 被引量：334
9于振中,闫继宏,赵杰,陈志峰,朱延河.改进人工势场法的移动机器人路径规划[J].哈尔滨工业大学学报,2011,43(1):50-55. 被引量：121
10顾幸方,陈晋音.移动机器人未知环境避障研究[J].传感器与微系统,2011,30(5):16-20. 被引量：11

引证文献2

1王春颖,刘平,秦洪政.移动机器人的智能路径规划算法综述[J].传感器与微系统,2018,37(8):5-8. 被引量：74
2龚铭凡,徐海祥,冯辉,薛学华.基于改进蚁群算法的智能船舶路径规划[J].武汉理工大学学报（交通科学与工程版）,2020,44(6):1072-1076. 被引量：19

二级引证文献93

1李建林.混合式红外焦平面阵列互连铟凸点几何尺寸的优化设计[J].红外技术,2000,22(3):35-38.
2吴信才,白玉琪,郭玲玲.地理信息系统(GIS)发展现状及展望[J].计算机工程与应用,2000,36(4):8-9. 被引量：110
3张希闻,肖本贤.改进D~*算法的移动机器人路径规划[J].传感器与微系统,2018,37(12):52-54. 被引量：14
4邢银龙,朱永波.一种应用于模具修复领域的路径规划算法研究[J].科技创新导报,2018,15(24):57-57.
5陈庆胜.基于改进遗传算法的机器人轨迹跟踪[J].智能机器人,2018,0(5):58-61. 被引量：4
6房纳森.智能移动机器人及发展趋势展望[J].科学与信息化,2018,0(36):46-46.
7袁师召,李军.无人驾驶汽车路径规划研究综述[J].汽车工程师,2019(5):11-13. 被引量：17
8朱泽凡,曾碧.基于多线激光雷达的无人车路径规划算法[J].机电工程技术,2019,48(5):11-14. 被引量：4
9付久鹏,曾国辉,黄勃,方志军.基于双向快速探索随机树的狭窄通道路径规划[J].计算机应用,2019,39(10):2865-2869. 被引量：10
10孙艺彬,杨慧珍.基于定向约束的脉冲耦合神经网络路径规划[J].计算机科学,2019,46(S11):28-32. 被引量：4

1李新磊.基于依赖型任务和Sarsa(λ)算法的云计算任务调度[J].计算机测量与控制,2015,23(8):2809-2812. 被引量：1
2陈焕文,谢丽娟.折扣与无折扣MDPs:一个基于SARSA(λ)算法的实例分析[J].计算机工程与应用,2002,38(9):86-88.
3肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
4童亮,陆际联,龚建伟.一种快速强化学习方法研究[J].北京理工大学学报,2005,25(4):328-331. 被引量：4
5刘全,李瑾,傅启明,崔志明,伏玉琛.一种最大集合期望损失的多目标Sarsa(λ)算法[J].电子学报,2013,41(8):1469-1473. 被引量：3
6周勇,王苹.基于SARSA在线规划的软件体系结构自适应[J].计算机应用研究,2012,29(5):1756-1760.
7王军红,江虹,黄玉清,伍晓利.基于RPkNN-Sarsa(λ)强化学习的机器人路径规划方法[J].计算机应用研究,2013,30(1):199-201. 被引量：4
8李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3
9林正红,江虹,张娟,徐冠军.基于POMDP的跨层机会频谱接入优化设计[J].计算机工程,2014,40(2):114-118. 被引量：1
10余涛,张水平.基于5要素试错更新算法SARSA(λ)的自动发电控制[J].控制理论与应用,2013,30(10):1246-1251. 被引量：2

计算机与数字工程

2016年第5期

浏览历史

内容加载中请稍等...

基于启发函数改进的SARSA(λ)算法被引量：2

参考文献8

同被引文献35

引证文献2

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于启发函数改进的SARSA(λ)算法 被引量：2

参考文献8

同被引文献35

引证文献2

二级引证文献93

相关作者

相关机构

相关主题

浏览历史

基于启发函数改进的SARSA(λ)算法被引量：2