基于神经网络的Sarsa强化学习算法被引量：4

Sarsa Reinforcement Learning Algorithm Based on Neural Networks

下载PDF

导出

摘要标准的Sarsa算法对状态空间的要求是离散的且空间较小,而实际问题中很多的系统的状态空间是连续的或尽管是离散的但空间较大,这就要求有很大的空间来存储状态动作对(State-Action-Pair)。对此文中提出用BP网络队列保存SAPs,实验验证可以解决由于空间过大而带来的Q值表示问题。 The standard Sarsa algorithm requires that the state space is discrete and small. However, in real environment it does not satisfy that due to the fact that it may be continuous or discrete but has big space state, so it needs too memory to keep State - Action - pair （SAPs）. This paper proposes to use BP queue to store SAPs. The experiment shows it can resolve the problem that how to represent Q values in case of big state space.

作者林联明王浩王一雄

机构地区合肥工业大学计算机与信息学院

出处《计算机技术与发展》 2006年第1期30-32,共3页 Computer Technology and Development

关键词强化学习智能主体马尔可夫决策过程误差后向传播网络状态动作对 reinforcement learning agent MDP （ Markov decision process ） BP （ back propagation ） SAP （ state - action - pair）

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1Astom K J. Optimal control of Markov derision processes with incomplete state estimation[J ]. Math'Anal Appl, 1998,10:174 - 205.
2Tsitsiklis J N, Roy B V. An Analysis of Temporal-Difference Learning with Function Approximation[J]. IEEE Transactions on Automatic Control, 1997,42 (5) : 674 - 690.
3Tesauro G J. TD-gammon, a self- teaching backgammon program[J]. Neural Computation, 1994, 6(2) :215 - 2192.
4Suton R S, Learning to predict by the methods of temporal diferences[J]. Machine Learning, 1988(3): 9 - 44.
5Suton R S,Barto A G. Reinforcement Learning: Introduction[M].Cambridge,MA:MIT Press,1998.

同被引文献45

1乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
2王帅.动态不确定环境下一种移动机器人路径规划方法[J].电气技术,2010,11(1):18-21. 被引量：3
3钟淑瑛,李陶深.基于MATLAB的BP-LVQ神经网络组合分类模型[J].计算机技术与发展,2006,16(2):114-116. 被引量：8
4张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7
5杜华英,赵跃龙.人工神经网络典型模型的比较研究[J].计算机技术与发展,2006,16(5):97-99. 被引量：23
6段勇,徐心和.基于模糊神经网络的强化学习及其在机器人导航中的应用[J].控制与决策,2007,22(5):525-529. 被引量：13
7Sutton R S,Barto A G.Reinforcement learning[M].MA:The MIT Press,1998.
8Kaelbling L P, Littman M L, Moore A W. Reinforcement leaming:A survey[J].Journal of Artificial Intelligence Research, 1996,4(2):237-285.
9Sutton R S.Learning to predit by the method of temporal differences[J].Machine Learing, 1988(3):9-44.
10Watkins CJCH,Dayan P.Q-learning[J].Machine Learning,1992 (8):279-292.

引证文献4

1殷苌茗,付超红,薛丽华,李立云.基于组合神经网络的Sarsa(λ)学习算法[J].计算机工程与设计,2008,29(22):5817-5819.
2刘燕燕,张少白.关于DIVA模型中语速对语音生成影响的研究[J].计算机技术与发展,2011,21(12):33-35.
3尤树华,周谊成,王辉.基于神经网络的强化学习研究概述[J].电脑知识与技术,2012,8(10):6782-6786. 被引量：4
4刘思嘉,童向荣.基于强化学习的城市交通路径规划[J].计算机应用,2021,41(1):185-190. 被引量：8

二级引证文献12

1王磊,王汝凉,曲洪峰,玄扬.BP神经网络算法改进及应用[J].软件导刊,2016,15(5):38-40. 被引量：25
2王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
3韩宇.基于强化学习的网络学习的搜索[J].电子制作,2019,0(24):57-58.
4贺娇,谭代伦.基于视野范围和遗传算法的三维地形路径规划[J].计算机工程与应用,2021,57(15):279-285. 被引量：4
5杜康豪,宋睿卓,魏庆来.强化学习在机器博弈上的应用综述[J].控制工程,2021,28(10):1998-2004. 被引量：3
6罗飞,白梦伟.基于强化学习的交通情景问题决策优化[J].计算机应用,2022,42(8):2361-2368. 被引量：1
7聂梓润,徐野,哈乐.基于强化学习虚拟链路驾驶行为仿真环境研究[J].工业控制计算机,2022,35(11):128-130.
8孙洋洋,姚俊萍,李晓军,范守祥,王自维.面向单记录的混合负载下物化视图异步增量维护任务生成[J].计算机应用,2022,42(12):3763-3768.
9卢海军,于宁.基于邻近数据查询算法的街区路网规划仿真[J].计算机仿真,2024,41(3):119-122.
10Yang CHEN,Dianxi SHI,Huanhuan YANG,Tongyue LI,Zhen WANG.An anti-collision algorithm for robotic search-and-rescue tasks in unknown dynamic environments[J].Frontiers of Information Technology & Electronic Engineering,2024,25(4):569-584.

1殷苌茗,付超红,薛丽华,李立云.基于组合神经网络的Sarsa(λ)学习算法[J].计算机工程与设计,2008,29(22):5817-5819.
2周勇,王苹.基于SARSA在线规划的软件体系结构自适应[J].计算机应用研究,2012,29(5):1756-1760.
3柴旭清,孙丽娜.基于量子粒子群和SARSA算法的蜂窝网络信道分配[J].计算机测量与控制,2015,23(10):3555-3557. 被引量：4
4胡煦杰.tc流量管理如何实现[J].商情,2012(46):251-251.
5陈运.BP网络用于信息加密存在的问题[J].信息安全与通信保密,1994,16(4):12-14.
6徐明亮,柴志雷,须文波.移动机器人模糊Q-学习沿墙导航[J].电机与控制学报,2010,14(6):83-88. 被引量：7
7刘萍,海本斋.1种移动自组织网络队列延时的计算方法[J].河南师范大学学报（自然科学版）,2013,41(5):170-172. 被引量：1
8谢俊洁,罗鹏程,穆富岭,王骏,丁帅.ABMS中基于Q学习算法的空战目标分配方法[J].系统工程与电子技术,2017,39(3):557-561. 被引量：6
9傅启明,刘全,尤树华,黄蔚,章晓芳.一种新的基于值函数迁移的快速Sarsa算法[J].电子学报,2014,42(11):2157-2161. 被引量：3
10李春贵,阳树洪,王萌,张增芳.基于SARSA(λ)算法的单路口交通信号学习控制[J].广西工学院学报,2008,19(2):10-14. 被引量：3

计算机技术与发展

2006年第1期

浏览历史

内容加载中请稍等...

基于神经网络的Sarsa强化学习算法被引量：4

参考文献5

同被引文献45

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于神经网络的Sarsa强化学习算法 被引量：4

参考文献5

同被引文献45

引证文献4

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

基于神经网络的Sarsa强化学习算法被引量：4