多步截断SARSA强化学习算法被引量：5

An algorithm of reinforcement learning for a truncated multi-step SARSA

下载PDF

导出

摘要提出了一种新的 on- policy强化学习算法 ,其基本思想是按照一定学习策略 ,利用 k(k >1)步的信息来估计 TD (λ)回报值 ,从而加快对行动最优值估计的更新。更新速度比 SARSA (0 )算法快 ,但不象 SARSA (λ) In this paper, we propose a new on policy reinforcement learning algorithm The main principle of the algorithm is based on a policy That is, using the information of k(k>1) estimates the return value of TD(λ), leading to a faster renewal of estimating the optimal value of actions The renewal speed is faster than the algorithm of SARSA(0) but less calculation than SARSA(λ)

作者李春贵林海涛刘永信

机构地区广西工学院计算机系内蒙古大学自动化系

出处《广西工学院学报》 CAS 2002年第1期1-4,共4页 Journal of Guangxi University of Technology

关键词强化学习 MARKOV决策过程 Q学习 SQRSA学习机器学习多步截断SARSA强化学习算法 reinforcement learning MDPs Q learning SARSA learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献6

1[1]Watkins C.J. C. H. Learning from delayed rewards [D] . Cambridge Univ. , England. 1989.
2[2]Sutton R.S.Learning to predict by the method of temporal difference [J] .Machine Learning , 1988, (3): 9-44.
3[3]Peng J.& Williams R.Incremental multi-step Q-learning [J] .Machine Learning, 1996, (22): 283-290.
4[4]Rummery G.A & Niranjan M.On-line Q-learning using connectionist systems [R] .CUED/F-INFENG/TR 166,Cambridge University, UK.1994.
5[5]Bertsekas D.P.Dynamic programming: deterministic and stochastic models [M] .Prentice Hall, USA.1987.
6[6]Sutton R.S.& Barto A.G.An introduction to reinforcement learning [M] .The MIT Press, USA.1998.

同被引文献42

1杨威,李俊山,张媛莉.基于HLA的雷达对抗训练仿真系统研究[J].微计算机信息,2006,22(01S):240-242. 被引量：19
2承向军,常歆识,杨肇夏.基于Q-学习的交通信号控制方法[J].系统工程理论与实践,2006,26(8):136-140. 被引量：14
3赵晓华,李振龙,陈阳舟.基于Q学习的城市交通信号灯混杂控制(英文)[J].系统仿真学报,2006,18(10):2889-2894. 被引量：4
4陈洪,陈森发.单路口交通实时模糊控制的一种方法[J].信息与控制,1997,26(3):227-233. 被引量：61
5Piao Songhao, Hang Bingrong. Fast Reinforcement earning Appro-ach to Cooperative Behavior Acquisition in Multi-agent System.Proceedings of the 2002 IEEE/RSJ Intl. Conference on IntelligentRobots and Systems, Lausanne, Switzerland. 2002-10:871- 875
6洪炳镕.机器人足球技术的发展战略[A].中国人工智能学会第9届全国学术年会论文集[C].2001.
7STONE P , VELOSO M. Muhi2agent systems : a survey from a machine learning perspective [ R] . CMU CS technical re2 port , No. CMU - CS - 97 - 193.Server. Proc. of IROS Workshop on Robocup, 1996
8Nobuo S, Akira H. A Muhiagent Reinforcement Learning Algorithm Using Extended Optimal Response. Proc. of the First International Joint Conference on Autonomous Agents & Multiagent Systems,Bologna, Italy, 2002-07:370- 377
9Hu Junling, Michael W P. Muhiagent Reinforcement Learning: Theoretical Framework and an Algorithm. Proc.15th International Conf. on Machine Learning 1998:242- 250
10Caroline C, Craig B. The Dynamics of Reinforcement Learning in Cooperative Muhiagent Systems. In Proc. Workshop on Multi-agent Learning, 1997:602- 608

引证文献5

1李春贵,刘永信,陈波.多步截断行动—评价强化学习算法[J].内蒙古大学学报（自然科学版）,2005,36(2):210-213. 被引量：1
2李春贵.多步截断优先扫描强化学习算法[J].计算机工程,2005,31(11):13-15.
3李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3
4邢宇明,白振兴.分层强化学习在足球机器人中的应用[J].微计算机信息,2008,24(32):231-233. 被引量：2
5李春贵,刘永信.一种有限时段Markov决策过程的强化学习算法[J].广西工学院学报,2003,14(1):1-4. 被引量：4

二级引证文献10

1李随成,尹洪英.基于Q学习的供应链分销系统最优订货策略研究[J].控制与决策,2005,20(12):1404-1407. 被引量：2
2党兴华,权小锋,尹洪英.强化学习算法在分阶段组合投资决策中的应用[J].科技管理研究,2006,26(3):241-243. 被引量：1
3权小锋,尹洪英.基于互惠合作的供应链合作关系稳定机制研究[J].物流技术,2007,26(8):158-163. 被引量：6
4权小锋,尹洪英.供应链分销系统奖金优化与仿真分析[J].物流技术,2007,26(9):86-89.
5李春贵,刘永信,王萌.集成规划的行动-自适应评价强化学习算法[J].内蒙古大学学报（自然科学版）,2008,39(3):346-350.
6申迅,刘国栋.基于CA-CMAC的Q学习截球算法[J].科学技术与工程,2011,11(7):1580-1582.
7李春贵,周坚和,孙自广,王萌,张增芳.基于多智能体团队强化学习的交通信号控制[J].广西工学院学报,2011,22(2):1-5. 被引量：2
8黄颖,陈玮.RoboCup 2D仿真球员射门技能中智能算法的应用综述[J].电子世界,2012(5):80-83.
9马庆禄,斯海林,郭建伟.物联网环境下城市交通区域联动的云控制策略[J].计算机应用研究,2013,30(9):2711-2714. 被引量：8
10王祉祈,赵顗,马健霄,吴林.基于Q-learning算法的单点信号控制研究[J].物流工程与管理,2021,43(4):93-95. 被引量：1

1周勇,王苹.基于SARSA在线规划的软件体系结构自适应[J].计算机应用研究,2012,29(5):1756-1760.
2马朋委,潘地林.基于启发函数改进的SARSA(λ)算法[J].计算机与数字工程,2016,44(5):825-828. 被引量：2
3刘飞,陈焕文,陈鹏慧,蔡琼.强化学习在RoboCup带球任务中的应用[J].微计算机信息,2012(9):471-472.
4陈志刚,张德宇,陈龙.Delay optimization for planar wireless sensor network with N-policy[J].Journal of Central South University,2014,21(12):4537-4543. 被引量：1
5张秋云,江虹.基于SARSA学习算法的USB块传输研究[J].中山大学学报（自然科学版）,2014,53(5):73-78.
6王帅.动态不确定环境下一种移动机器人路径规划方法[J].电气技术,2010,11(1):18-21. 被引量：3
7李新磊.基于依赖型任务和Sarsa(λ)算法的云计算任务调度[J].计算机测量与控制,2015,23(8):2809-2812. 被引量：1
8肖飞,刘全,傅启明,孙洪坤,高龙.基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法[J].通信学报,2013,34(1):77-88. 被引量：6
9陈焕文,谢建平,谢丽娟.一个因素化SARSA(λ)激励学习算法[J].计算机研究与发展,2001,38(1):88-92. 被引量：8
10Rubo Zhang,Pingpeng Tang,Yumin Su,Xueyao Li,Ge Yang,Changting Shi.An Adaptive Obstacle Avoidance Algorithm for Unmanned Surface Vehicle in Complicated Marine Environments[J].IEEE/CAA Journal of Automatica Sinica,2014,1(4):385-396. 被引量：10

广西工学院学报

2002年第1期

浏览历史

内容加载中请稍等...

多步截断SARSA强化学习算法被引量：5

参考文献6

同被引文献42

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

多步截断SARSA强化学习算法 被引量：5

参考文献6

同被引文献42

引证文献5

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

多步截断SARSA强化学习算法被引量：5