基于神经网络的强化学习算法实现倒立摆控制被引量：7

Balance of an Inverted Pendulum Using Neural Network and Q-Learning

下载PDF

导出

摘要运用强化学习的方法来对连续的倒立摆系统实现平衡控制是一直以来有待解决的问题。该文将Q学习与神经网络中的BP网络、S激活函数相结合,利用神经网络的泛化性能,设计出一种新的学习控制策略,通过迭代和学习过程,不但能够解决倒立摆系统连续状态空间的输入问题,还成功解决了输出连续动作空间的问题。将此方法运用于连续倒立摆系统的平衡控制中,经过基于实际控制模型的Matlab软件仿真实验,结果显示了这个方法的可行性。该方法进一步提高了强化学习理论在实际控制系统中的应用价值。 How to balance a continuous inverted pendulum using reinforcement learning has been always a problem to be solved. This paper presents a new method combining Q - learning with BP network and sigmoid activation function, using neural network＇s generalization performance to solve not only the input of a continuous state space but also output as a continuous action space, which has been proved to be applicable by Matlab software simulation with real pendulum system model. This method enhanced the reinforcement learning＇s applicability in real control system.

作者张涛吴汉生

机构地区中国科学技术大学自动化系

出处《计算机仿真》 CSCD 2006年第4期298-300,325,共4页 Computer Simulation

关键词强化学习神经网络激活函数泛化性能连续动作空间 Reinforcement learning Neural network Activation function Generalization performance Continuous action space

分类号 TP273.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1C W Anderson.Learning to control an inverted pendulum using neural networks[J].IEEE Control System Magazine,1989,9(3):31-37.
2A G Barto,R S Sutton,C W Anderson.Neuronlike adaptive elements that can solve difficult learning control problems[J].IEEE Trans.on SMC,1983,13(5):834-846.
3J Peng.Efficient dynamic programming-based learning for control[M].USA:Northeastern University,1993.
4W Charles.Anderson.Q-learning with hidden-unit restarting[M].Advances in Neural Information Processing Systems 5,1992.81-88.
5蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
6C J C H Watkins and P Dayan.Q-learning.Machine learning[J].May 1992,8(3/4):257-277.
7K Doya.Reinforcement learning in continuous time and space[J].Neural Computation,1999,12:243-269.

二级参考文献1

1Peng J，博士学位论文，1993年

共引文献54

1窦春红,黄明键,王中华,王新江.倒立摆系统及其控制策略研究现状[J].中南大学学报（自然科学版）,2003,34(z1):96-99.
2周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
3蔡增威,刘德春,张晓华.一种基于鲁棒性设计的一阶倒立摆双闭环控制方法[J].自动化技术与应用,2004,23(4):11-15. 被引量：4
4王瑞霞,孙亮,阮晓刚.基于内部回归神经网络的强化学习[J].控制工程,2005,12(2):138-140. 被引量：4
5张玉梅,阮晓钢.一种生长型神经网络的倒立摆控制方案[J].微计算机信息,2005,21(11S):91-93. 被引量：1
6徐学军,伍铁斌,李文.基于混沌PID的倒立摆控制[J].湘潭师范学院学报（自然科学版）,2006,28(1):15-19. 被引量：1
7王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3
8刘丽,何华灿.倒立摆系统稳定控制之研究[J].计算机科学,2006,33(5):214-219. 被引量：12
9张玉梅,阮晓钢.基于一种生长型神经网络的倒立摆控制[J].计算机仿真,2006,23(5):288-292. 被引量：1
10王雪松,程玉虎,易建强,王炜强.基于Elman网络的非线性系统增强式学习控制[J].中国矿业大学学报,2006,35(5):653-657. 被引量：8

同被引文献45

1牛建军,吴伟,陈国定.基于神经网络自整定PID控制策略及其仿真[J].系统仿真学报,2005,17(6):1425-1427. 被引量：43
2林联明,王浩,王一雄.基于神经网络的Sarsa强化学习算法[J].计算机技术与发展,2006,16(1):30-32. 被引量：4
3王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3
4叶德谦,杨樱,金大兵.基于神经网络集成的强化学习算法系统设计[J].计算机工程与应用,2006,42(12):97-99. 被引量：2
5谢宗安,张滔.进化神经网络在倒立摆控制中的应用[J].计算机仿真,2006,23(5):297-299. 被引量：6
6Bin ZHOU Guangren DUAN.An explicit solution to polynomial matrix right coprime factorization with application in eigenstructure assignment[J].控制理论与应用（英文版）,2006,4(2):147-154. 被引量：2
7马力佳,高岩.基于Takagi-Sugeno的再励学习模糊神经网络控制[J].微计算机信息,2006(06S):7-9. 被引量：3
8湛力,孙鹏,陈雯柏.倒立摆系统的自摆起和稳定控制[J].计算机仿真,2006,23(8):289-292. 被引量：17
9陈辉,李坚强,裴海龙,廖俊.基于梯形图语言的软PLC技术研究与实现[J].微计算机信息,2006(09S):266-268. 被引量：14
10黄炳强,曹广益,王占全.强化学习原理、算法及应用[J].河北工业大学学报,2006,35(6):34-38. 被引量：19

引证文献7

1曾智刚.基于强化学习的神经网络在船模速度控制中的应用[J].计算机时代,2009(4):24-25. 被引量：1
2郑宇,罗四维,吕子昂.倒立摆系统中强化学习的极限环问题[J].计算机工程与应用,2008,44(10):16-19. 被引量：1
3李坚强,裴海龙.基于强化学习方法的悬浮车停车混合控制设计[J].微计算机信息,2008,24(22):287-288.
4谢慕君,杨海蓉.DRNN在倒立摆摆起控制中的研究[J].计算机工程与应用,2009,45(26):223-225. 被引量：1
5柳铭,杨海蓉,崔保记.基于RBF的倒立摆摆起角度控制研究[J].电脑知识与技术,2010,6(1):176-178.
6刘艳,李银伢,戚国庆.基于特征结构配置的倒立摆控制系统设计[J].计算机仿真,2011,28(7):395-400. 被引量：2
7尤树华,周谊成,王辉.基于神经网络的强化学习研究概述[J].电脑知识与技术,2012,8(10):6782-6786. 被引量：4

二级引证文献9

1陈健,张持健.三级倒立摆的LQR方法优化参数控制[J].计算机工程与应用,2009,45(29):245-248. 被引量：3
2桂敬玲,姜兵,李建平,龚峰.基于EA方法的飞行控制律设计与仿真[J].计算机仿真,2013,30(6):72-76. 被引量：1
3王磊,王汝凉,曲洪峰,玄扬.BP神经网络算法改进及应用[J].软件导刊,2016,15(5):38-40. 被引量：25
4王卫民,储美玉,王晓进.基于强化学习的话务调度新模型[J].信息技术,2016,40(9):130-133.
5闭业宾,陈伟,曾军.基于PD扭曲滑模CPS阻尼力自适应非线性控制[J].控制工程,2017,24(4):781-786. 被引量：1
6方小菊.基于强化学习的采摘机器人采摘臂避碰设计[J].农机化研究,2017,39(11):198-202. 被引量：4
7郭一军.基于非奇异终端滑模的单级倒立摆摆角控制[J].南通大学学报（自然科学版）,2018,17(2):1-5.
8韩宇.基于强化学习的网络学习的搜索[J].电子制作,2019,0(24):57-58.
9杜康豪,宋睿卓,魏庆来.强化学习在机器博弈上的应用综述[J].控制工程,2021,28(10):1998-2004. 被引量：2

1陈兴国,高阳,范顺国,俞亚君.基于核方法的连续动作Actor-Critic学习[J].模式识别与人工智能,2014,27(2):103-110. 被引量：8
2程玉虎,易建强,王雪松,赵冬斌.一类连续状态与动作空间下的加权Q学习[J].电机与控制学报,2005,9(6):570-574. 被引量：1
3段勇,刘兴刚,徐心和.基于强化学习的机器人模糊控制系统设计[J].系统仿真学报,2006,18(6):1597-1600. 被引量：4
4朱斐,刘全,傅启明,伏玉琛.一种用于连续动作空间的最小二乘行动者-评论家方法[J].计算机研究与发展,2014,51(3):548-558. 被引量：9
5张文志,吕恬生.强化学习理论在机器人应用中的几个关键问题探讨[J].计算机工程与应用,2004,40(4):69-71. 被引量：2
6陈卫东,关永贞,朱奇光,赵成龙.移动机器人模糊Sarsa(λ)学习导航研究[J].小型微型计算机系统,2013,34(11):2599-2602.
7程玉虎,王雪松,易建强,孙伟.基于自组织模糊RBF网络的连续空间Q学习[J].信息与控制,2008,37(1):1-8. 被引量：3
8程玉虎,高阳,王雪松.基于概率型支持向量分类机的Q学习[J].中国矿业大学学报,2010,39(3):408-413. 被引量：1
9韦巍,蒋静坪.基于多神经网络的机器人轨迹学习控制研究[J].浙江大学学报（自然科学版）,1997,31(4):505-511.
10王雪松,张依阳,程玉虎.基于高斯过程分类器的连续空间强化学习[J].电子学报,2009,37(6):1153-1158. 被引量：11

计算机仿真

2006年第4期

浏览历史

内容加载中请稍等...

基于神经网络的强化学习算法实现倒立摆控制被引量：7

参考文献7

二级参考文献1

共引文献54

同被引文献45

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于神经网络的强化学习算法实现倒立摆控制 被引量：7

参考文献7

二级参考文献1

共引文献54

同被引文献45

引证文献7

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于神经网络的强化学习算法实现倒立摆控制被引量：7