基于神经网络的强化学习研究概述被引量：4

Research on Reinforcement Learning Based on Neural Network：A Summary

下载PDF

导出

摘要随着强化学习的日益发展,研究越来越深入,将神经网络引入强化学习的研究中已经成为热点课题之一。本文首先介绍强化学习的定义、原理及一般结构,接着简单表述神经网络的基本内容和马尔科夫决策过程模型;然后将强化学习和神经网络融合,重点介绍了两种常见的学习算法,算法都是改进过并且融合了神经网络的特性;最后,简单介绍该方式的强化学习在人工智能,控制系统,游戏以及优化调度等领域的应用情况。 Along with the development of intensive study and study more and more thorough,the neural network into the study of Reinforcement Learning has become one of the hot topics.In this paper,we firstly survey the definition,principle and struc ture of reinforcement learning,then simply express the basic content of neural network and Markov decision process model;In addition,we focus on the three common learning algorithm based on the integration of reinforcement learning and neural net work.,which are improved and combined with the characteristics of the neural network.Last,we introduce the application of re inforcement learning in artificial intelligence,controlling system,games and optimization scheduling and so on.

作者尤树华周谊成王辉 YOU Shu-hua,ZHOU Yi-cheng,WANG Hui（College of Computer Science and Technology,Soochow University,Suzhou 215006,China）

机构地区苏州大学计算机科学与技术学院

出处《电脑知识与技术》 2012年第10期6782-6786,共5页 Computer Knowledge and Technology

关键词强化学习神经网络马尔科夫决策过程算法应用 reinforcement learning neural network Markov decision process model algorithm application

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1高阳,陈世福,陆鑫.强化学习研究综述[J].自动化学报,2004,30(1):86-100. 被引量：266
2张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7
3林联明,王浩,王一雄.基于神经网络的Sarsa强化学习算法[J].计算机技术与发展,2006,16(1):30-32. 被引量：4
4段勇,徐心和.基于模糊神经网络的强化学习及其在机器人导航中的应用[J].控制与决策,2007,22(5):525-529. 被引量：13
5刘忠,李海红,刘全.强化学习算法研究[J].计算机工程与设计,2008,29(22):5805-5809. 被引量：10
6Sutton R S.Learning to predict by the methods of temporal differences.Machine Learning,1988,3:9-44.
7Watkins P.Dayan.Q-Learning.Machine Learning,1992,8(3):279-292.
8Rummery G,Niranjan M. On-line Q-Learning using connectionist systems. Technical Report CUED/F-INFENG/TR 166,Cambridge University Engineering Department,1994.
9Sutton R S,Barto A G, Williams R. Reinforcement Learning is direct adaptive optional control.IEEE Control Systems Manazine, 1991,12(2): 19-22.
10Sutton R S, Barto A G. Reinforcement Learning: An introduction[M].Cambridge:MIT Press ,1998.

二级参考文献42

1Astom K J. Optimal control of Markov derision processes with incomplete state estimation[J ]. Math'Anal Appl, 1998,10:174 - 205.
2Tsitsiklis J N, Roy B V. An Analysis of Temporal-Difference Learning with Function Approximation[J]. IEEE Transactions on Automatic Control, 1997,42 (5) : 674 - 690.
3Tesauro G J. TD-gammon, a self- teaching backgammon program[J]. Neural Computation, 1994, 6(2) :215 - 2192.
4Suton R S, Learning to predict by the methods of temporal diferences[J]. Machine Learning, 1988(3): 9 - 44.
5Suton R S,Barto A G. Reinforcement Learning: Introduction[M].Cambridge,MA:MIT Press,1998.
6Tom M Mitchell.Machine learning[M].Beijing, China:Machine Press,2004:263-280.
7Dayan P.The convergence of TD (λ) for general λ[J].Machine Learning, 1992(8):341-362.
8Kaelbling L P, Littman M L,Moore A W.Reinforcement learning: A survey[J].Joumal of Artificial Intelligence Research, 1996(4): 237-285.
9Watins P Dyna. Q_leaming [J]. Machine Learning, 1992,8 (3): 279-292.
10Moor A W, Atkeson C G.Prioritized sweeping: Reinforcement learning with less data and less real time[J].Machine Learning, 1993,13:103-130.

共引文献291

1项宇,秦进,袁琳琳.结合向前状态预测和隐空间约束的强化学习表示算法[J].计算机系统应用,2022,31(11):148-156. 被引量：4
2安萌萌,樊秀梅,蔡含宇.基于雾计算和强化学习的交通灯智能协同控制研究[J].计算机应用研究,2020,37(2):465-469. 被引量：8
3丁志梁,潘毅群(指导),谢建彤,王尉同,黄治钟.强化学习算法在空调系统运行优化中的应用研究[J].建筑节能,2020(7):14-20. 被引量：7
4王彦朋,郭佳佳,王晓君.基于Q-Learning的青霉素发酵过程控制方法[J].信息化研究,2023,49(3):31-35.
5马庆刘,喻鹏,吴佳慧,熊翱,颜拥.基于深度强化学习的综合能源业务通道优化机制[J].北京邮电大学学报,2020,43(2):87-93. 被引量：1
6赵元,张合新.基于目标状态距离简化Q-learning算法的迷宫路径规划[J].火箭军工程大学学报,2019(4):79-84.
7曾智刚.基于强化学习的神经网络在船模速度控制中的应用[J].计算机时代,2009(4):24-25. 被引量：1
8周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
9卓睿,陈宗海,陈春林.基于强化学习和模糊逻辑的移动机器人导航[J].计算机仿真,2005,22(8):157-162. 被引量：5
10魏英姿 ,赵明扬 .一种基于强化学习的作业车间动态调度方法[J].自动化学报,2005,31(5):765-771. 被引量：19

同被引文献24

1王益群,唐勇,姜万录,王宏艳.神经网络软测量模型中全共轭梯度算法[J].机械工程学报,2005,41(6):97-101. 被引量：9
2刘载文,王正祥,王小艺,杨斌,程志强.过程神经元网络学习算法及软测量方法的研究[J].系统仿真学报,2007,19(7):1456-1459. 被引量：13
3WANG YIQUN, et al. Appraising and improving on the training algorithm of neural network in the so{t measurement system of dy namic flow[C]. ICFP. HangZhou, China, 2005 : 102-108.
4HUANG GUANG-BIN, CHEN LEI,CHEE-KHEONG SIEW. U- niversal approximation using incremental constructive feedforward net works with random hidden nodes[J]. IEEE Transactions on Neural Networks,2006,17(4) :879-892.
5刘毅娟.人工神经网络概述[D].唐山:华北理工大学,2015.
6武美先.BP神经网络及其改进[D].太原:太原科技大学,2005.
7Pezzella F ,Morganti G ,Ciaschetti G. A genetic algorithm for theFlexible job-shop Scheduling Problem [J]. Computers and OperationsResearch,2007(10) :3202 -3212.
8刘忠,李海红,刘全.强化学习算法研究[J].计算机工程与设计,2008,29(22):5805-5809. 被引量：10
9朱群雄,孙锋.RNN神经网络的应用研究[J].北京化工大学学报（自然科学版）,1998,25(1):86-90. 被引量：17
10樊振宇.BP神经网络模型与学习算法[J].软件导刊,2011,10(7):66-68. 被引量：107

引证文献4

1王磊,王汝凉,曲洪峰,玄扬.BP神经网络算法改进及应用[J].软件导刊,2016,15(5):38-40. 被引量：25
2王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
3韩宇.基于强化学习的网络学习的搜索[J].电子制作,2019,0(24):57-58.
4杜康豪,宋睿卓,魏庆来.强化学习在机器博弈上的应用综述[J].控制工程,2021,28(10):1998-2004. 被引量：3

二级引证文献28

1梁华刚,庞丽琴,高冬梅.基于ANN的公路隧道火灾临界风速预测研究[J].自动化与仪表,2019,34(1):93-98. 被引量：1
2刘蕊蕊,于合谣,冀鹏飞.基于遗传算法改进的BP神经网络算法[J].德州学院学报,2017,33(4):38-41. 被引量：8
3余发山,高勇.基于AGA优化BP神经网络的矿井通风机故障诊断[J].软件导刊,2017,16(9):154-157. 被引量：3
4陈智军,李洋莹.神经网络BP算法改进及其性能分析[J].软件导刊,2017,16(10):39-41. 被引量：12
5李宇昊,宋耀莲,杨美菊,杜庆治,赵继东.基于GA-BP网络的洱海水质预测研究[J].软件导刊,2017,16(11):189-192. 被引量：3
6闫瑞姣,尹四清.选择性神经网络集成的微博用户信用评估模型[J].计算机工程与设计,2018,39(5):1478-1483. 被引量：6
7李沛原,丁京,张田甜.基于改进BP神经网络算法的云环境异常检测技术研究[J].河南科技,2018,0(4):18-20.
8徐雪,张艺,余开朝.基于BP神经网络的智能制造能力评价研究[J].软件,2018,39(8):162-166. 被引量：9
9臧嘉璐.基于BP神经网络的Android能耗模型[J].通讯世界,2018,25(12):11-13.
10陈磊士,赵俊三,董智文,朱褀夫.基于深度学习的滇中城市多光谱影像建设用地信息提取[J].软件导刊,2018,17(11):177-180. 被引量：5

1刘晓平,杜琳,石慧.基于Q学习的任务调度问题的改进研究[J].图学学报,2012,33(3):11-16. 被引量：3
2耿少峰,王永恒,李仁发,张佳.主动式复杂事件处理方法的研究[J].通信学报,2016,37(9):111-120. 被引量：1
3张红霞,邹华,林荣恒,杨放春.基于马尔科夫决策过程的可适变业务流程建模及分析[J].电子与信息学报,2013,35(7):1760-1765. 被引量：3
4赵晨,王潇,张思宇,宋媛媛,曲芳.基于设备状态的维护策略研究[J].山东工业技术,2016(23):211-211.
5李瑛,毕义明.作战仿真中指挥Agent的实现[J].火力与指挥控制,2010,35(4):164-166. 被引量：5
6刘云,萧蕴诗,严隽薇.办公自动化环境下的GDSS模式研究[J].决策与决策支持系统,1996(1):34-41. 被引量：1
7李策.陆军合同作战指挥决策过程建模[J].计算机仿真,2007,24(7):1-4. 被引量：4
8朱仲英,翁小雄,杨剑波.智能决策支持系统结构设计方法探讨[J].微型电脑应用,1989(4):66-72.
9夏春蕊,王瑞,李晓娟,关永,张杰,魏洪兴.动态环境下基于概率模型检测的路径规划方法[J].计算机工程与应用,2016,52(12):5-11. 被引量：6
10戴伟辉,叶佳佳,李悝.基于MAS的高层管理团队决策过程分析[J].科学学研究,2006,24(4):575-580. 被引量：10

电脑知识与技术

2012年第10期

浏览历史

内容加载中请稍等...

基于神经网络的强化学习研究概述被引量：4

参考文献15

二级参考文献42

共引文献291

同被引文献24

引证文献4

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于神经网络的强化学习研究概述 被引量：4

参考文献15

二级参考文献42

共引文献291

同被引文献24

引证文献4

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于神经网络的强化学习研究概述被引量：4