基于神经网络的强化学习算法研究被引量：16

RESEARCH ON A REINFORCEMENT LEARNING ALGORITHM BASED ON NEURAL NETWORK

下载PDF

导出

摘要 BP神经网络在非线性控制系统中被广泛运用 ,但作为有导师监督的学习算法 ,要求批量提供输入输出对对神经网络训练 ,而在一些并不知道最优策略的系统中 ,这样的输入输出对事先并无法得到 ;另一方面 ,强化学习从实际系统学习经验来调整策略 ,并且是一个逐渐逼近最优策略的过程 ,学习过程中并不需要导师的监督 .提出了将强化学习与 BP神经网络结合的学习算法—— RBP模型 .该模型的基本思想是通过强化学习控制策略 ,经过一定周期的学习后再用学到的知识训练神经网络 ,以使网络逐步收敛到最优状态 . BP neural network has been used in nonlinear system controller widely. But as a supervised training algorithm, it requires the input-output pairs to be trained. But in some systems such input-output pairs cannot be received under the optimal control policy. On the other hand, reinforcement learning (RL) learns behavior through trial-and-error interaction with a dynamic environment. It is unsupervised and on-line. This paper provides the RBP model which adapts the BP network to be used in RL. The main idea of RBP is: RL learns optimal policy from the environment and stores the policy into the network. Instead of updating weights instantly, network weights are updated in batch mode periodically. A simple example is used to illustrate the validity of the algorithm.

作者陆鑫高阳李宁陈世福

机构地区南京大学计算机软件新技术国家重点实验室

出处《计算机研究与发展》 EI CSCD 北大核心 2002年第8期981-985,共5页 Journal of Computer Research and Development

基金国家自然科学基金资助 ( 6 990 5 0 0 1)

关键词神经网络强化学习算法 RBP模型 reinforcement learning, BP neural network, reinforcement back-propagation model

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1李宁,高阳,陆鑫,陈世福.一种基于强化学习的学习Agent[J].计算机研究与发展,2001,38(9):1051-1056. 被引量：26
2何佳洲,周志华,高阳,陈世福.基于新型神经网络分类器的故障诊断模型[J].计算机研究与发展,2001,38(1):93-97. 被引量：5

二级参考文献7

1Zhou Z，Int J Knowledge Information Systems，2000年，2卷，1期，115页
2Lee J，SPIE.Proc Applications Artificial Neural Networks，1992年，436页
3张东摩,陈世福.AODE中智能体心智状态的表示与处理[J].软件学报,1997,8(A00):357-364. 被引量：2
4骆斌,周志华,陈兆乾,陈世福.一个增量式判定树学习算法INDUCE[J].计算机研究与发展,1999,36(5):518-522. 被引量：6
5张汝波,杨广铭,顾国昌,张国印.Q-学习及其在智能机器人局部路径规划中的应用研究[J].计算机研究与发展,1999,36(12):1430-1436. 被引量：17
6蔡庆生,张波.一种基于Agent团队的强化学习模型与应用研究[J].计算机研究与发展,2000,37(9):1087-1093. 被引量：31
7刘海涛,周志华,陆新泉,陈兆乾,郑仁辉.快速神经网络分类学习算法的研究及其应用[J].计算机研究与发展,2000,37(11):1306-1310. 被引量：6

共引文献29

1杨红颖,王向阳,赵红.一种基于多Agent的远程教学模型框架[J].现代远距离教育,2005(2):53-57. 被引量：19
2宋梅萍,顾国昌,张汝波.移动机器人的自适应式行为融合方法[J].哈尔滨工程大学学报,2005,26(5):586-590. 被引量：5
3李志强,胡晓峰,张斌,董忠林.基于强化学习的指挥控制Agent适应性仿真研究[J].系统仿真学报,2005,17(11):2801-2804. 被引量：8
4杨红颖,王向阳,赵红.基于多Agent的智能网络教学系统模型研究[J].现代教育技术,2005,15(6):55-59. 被引量：9
5齐跃斗.基于Agent技术的Web-Based Training应用研究[J].微计算机信息,2006(05Z):295-297. 被引量：3
6杨克巍,张少丁,岑凯辉,谭跃进.基于半自治agent的profit-sharing增强学习方法研究[J].计算机工程与应用,2007,43(15):72-75. 被引量：3
7付强,陈焕文.中国象棋人机对弈的自学习方法研究[J].计算机技术与发展,2007,17(12):76-79. 被引量：2
8郭晓文,赵波,朱亮,高阳.基于细胞图像肺癌诊断系统的设计与实现[J].江南大学学报（自然科学版）,2007,6(6):739-743.
9付强,陈焕文.基于RL算法的自学习博弈程序设计及实现[J].长沙理工大学学报（自然科学版）,2007,4(4):73-78. 被引量：1
10林芬,石川,罗杰文,史忠植.基于偏向信息学习的双层强化学习算法[J].计算机研究与发展,2008,45(9):1455-1462. 被引量：9

同被引文献118

1吴连喜,吴连喜,严泰来,张玮.基于多层感知器神经网络对遥感融合图像和TM影像进行土地覆盖分类的研究[J].土壤通报,2001,32(z1):33-36. 被引量：9
2乔俊飞,侯占军,阮晓钢.基于神经网络的强化学习在避障中的应用[J].清华大学学报（自然科学版）,2008,48(S2):1747-1750. 被引量：27
3肖雄军,蔡自兴.服务机器人的发展[J].自动化博览,2004,21(6):10-13. 被引量：30
4陈建阳.高速公路可变限速标志的作用及控制[J].同济大学学报（自然科学版）,1993,21(3):387-391. 被引量：9
5王学宁,徐昕,吴涛,贺汉根.策略梯度强化学习中的最优回报基线[J].计算机学报,2005,28(6):1021-1026. 被引量：6
6王继成,吕维雪.一种神经网络学习过程的数学描述[J].计算机研究与发展,1995,32(8):56-61. 被引量：2
7杜春侠,高云,张文.多智能体系统中具有先验知识的Q学习算法[J].清华大学学报（自然科学版）,2005,45(7):981-984. 被引量：21
8张铃,吴福朝,张钹,韩玫.多层前馈神经网络的学习和综合算法[J].软件学报,1995,6(7):440-448. 被引量：33
9沈晶,顾国昌,刘海波.分层强化学习研究综述[J].模式识别与人工智能,2005,18(5):574-581. 被引量：7
10宋红,林家瑞.用于医学辅助诊断的神经网络方法的应用研究[J].生物医学工程学杂志,1996,13(2):141-144. 被引量：16

引证文献16

1闫友彪,陈元琰.机器学习的主要策略综述[J].计算机应用研究,2004,21(7):4-10. 被引量：56
2叶德谦,杨樱,金大兵.基于神经网络集成的强化学习算法系统设计[J].计算机工程与应用,2006,42(12):97-99. 被引量：2
3苏浩铭,王浩.一种基于模型的强化学习算法[J].合肥工业大学学报（自然科学版）,2008,31(9):1447-1450.
4陈圣磊,李卫红,姚娟.基于最小二乘的Q(λ)强化学习算法[J].计算机工程与应用,2008,44(34):47-50.
5林敏.基于机器学习的网络攻击检测综述[J].数字技术与应用,2010,28(10):88-89. 被引量：2
6赵文斐,周风余,台述鹏,王小龙.基于改进T-S型模糊神经网络的护士机器人行为控制研究[J].北京联合大学学报,2013,27(3):26-30.
7程鹏,谢小年.基于BP神经网络的Q-学习可变限速控制对拥堵路段交通流的优化[J].山东交通学院学报,2017,25(3):38-43. 被引量：2
8陈冬火,刘全,朱斐,金海东.基于凸多面体抽象域的自适应强化学习技术研究[J].计算机学报,2018,41(1):112-131. 被引量：5
9张峰,柳炳祥,张月.一种基于BP神经网络算法的旅游人数预测方法[J].信息与电脑,2019,31(3):60-62. 被引量：6
10李若天航.基于强化学习的智能浇灌系统[J].现代化农业,2019,0(11):15-18.

二级引证文献90

1曾智刚.基于强化学习的神经网络在船模速度控制中的应用[J].计算机时代,2009(4):24-25. 被引量：1
2孙桦.企业团队及其管理要点[J].人才资源开发,2005(10):86-87. 被引量：1
3徐冠,夏克文,徐乃勋.基于LM算法的神经网络在冠心病诊断中的应用[J].微电子学与计算机,2006,23(2):189-192. 被引量：11
4韦玉科,汪仁煌,黎敬波.一种亚健康诊断推理的新方法[J].计算机应用研究,2006,23(3):70-72. 被引量：13
5韦玉科,汪仁煌,陈群,李江平.基于竞争神经网络的中医智能诊断推理新方法[J].计算机工程与应用,2006,42(7):224-226. 被引量：8
6王雪松,程玉虎,易建强,王炜强.基于Elman网络的非线性系统增强式学习控制[J].中国矿业大学学报,2006,35(5):653-657. 被引量：8
7邵平.机器学习与人脸识别方法概述[J].玉林师范学院学报,2006,27(3):164-167. 被引量：2
8刘志芳,骆志刚,杨泽凡,郭华源,肖国荣.基于智能Agent的个性化生物信息检索系统的设计[J].计算机应用与软件,2007,24(6):71-72.
9朱浩冰,郭东辉.声纹识别系统原理及其关键技术[J].计算机安全,2007(9):14-17. 被引量：15
10谷建光,张为华,王中伟,解红雨.一种基于划分聚类和模糊神经网络的机器学习方法[J].系统仿真学报,2007,19(23):5581-5586. 被引量：4

1叶德谦,杨樱,金大兵.基于神经网络集成的强化学习算法系统设计[J].计算机工程与应用,2006,42(12):97-99. 被引量：2
2叶德谦,金大兵,杨樱.基于强化学习的股票预测系统的研究与设计[J].微计算机信息,2006,22(02X):149-151. 被引量：4
3苏耀峰.基于B/S结构的网络运维知识训练考核系统设计[J].软件导刊,2016,15(6):75-77. 被引量：2
4李飞彬,曹铁勇,宋智军,查绎,王文.利用稀疏协同模型的目标跟踪算法[J].计算机辅助设计与图形学学报,2016,28(12):2175-2185. 被引量：2
5李海龙.基于信息模块整合的高中英语单元复习课堂[J].中学生英语,2016,0(4):83-83.
6《圆》《图形与变换》知识训练[J].初中数学辅导（初中版）,2012(12):36-38.
7姜益强,姚杨,马最良.空气源热泵冷热水机组的故障珍断[J].制冷学报,2002,23(3):57-57. 被引量：8
8罗凤娥,刘安.基于VB的签派专业知识训练系统的设计[J].电子设计工程,2016,24(7):33-36. 被引量：3
9黄志成.基于隐马尔可夫模型的学习行为评估[J].计算机应用与软件,2014,31(6):59-62. 被引量：4
10杜静,叶剑,史红周,何哲,朱珍民.基于贝叶斯网络的多Agent服务推荐机制研究[J].计算机科学,2010,37(4):208-211. 被引量：3

计算机研究与发展

2002年第8期

浏览历史

内容加载中请稍等...

基于神经网络的强化学习算法研究被引量：16

参考文献2

二级参考文献7

共引文献29

同被引文献118

引证文献16

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

基于神经网络的强化学习算法研究 被引量：16

参考文献2

二级参考文献7

共引文献29

同被引文献118

引证文献16

二级引证文献90

相关作者

相关机构

相关主题

浏览历史

基于神经网络的强化学习算法研究被引量：16