基于多个并行CMAC神经网络的强化学习方法被引量：2

Reinforcement Learning Based on Many Parallel CMAC Neural Networks

下载PDF

导出

摘要为解决标准Q学习算法收敛速度慢的问题,提出一种基于多个并行小脑模型(Cerebellar Model Articulation Controller:CMAC)神经网络的强化学习方法。该方法通过对输入状态变量进行分割,在不改变状态分辨率的前提下,降低每个状态变量的量化级数,有效减少CMAC的存储空间,将之与Q学习方法相结合,其输出用于逼近状态变量的Q值,从而提高了Q学习方法的学习速度和控制精度,并实现了连续状态的泛化。将该方法用于直线倒立摆的平衡控制中,仿真结果表明了其正确性和有效性。 To solve the problem of the slow convergent rate of standard Q-learning, a reinforcement learning algorithm based on many parallel Cerebellar Model Articulation Controller （CMAC） neural networks was proposed. The input state variables were divided to decrease the grades of quantization without changing the resolution. Therefore, the storage spaces of CMAC were reduced effectively, and the outputs of CMAC with lower storage spaces were used to approximate the Q-functions of the corresponding input state variables by integrating CMAC with Q-learning method. So, the learning rate and control precision of Q-algorithm were improved simultaneity, and the generalization of continuous state variables was realized. The method was applied to control the balance of inverted pendulum, and the simulation results show its correctness and efficiency.

作者李明爱焦利芳郝冬梅乔俊飞

机构地区北京工业大学电子信息与控制工程学院

出处《系统仿真学报》 EI CAS CSCD 北大核心 2008年第24期6683-6685,6690,共4页 Journal of System Simulation

基金国家自然科学基金(60674066 3067054) 科博启动基金(52002011200702)

关键词强化学习小脑模型神经网络收敛性倒立摆 reinforcement learning CMAC neural network convergence inverted pendulum

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Barto A G, Suton S, Anderson C W. Neuron like adaptive elements that can solve difficult learning control problems [J]. IEEE Trans on Systems Man and Cybernetics (ISBN: 0-262-01097-6), 1983, 13(5): 834-846.
2Anderson C W. Learning to control an inverted pendulum using neural networks [J]. IEEE Control System Magazine (S0272-1708), 1989, 9(4): 31-35.
3J C H Watkins. Learning from Delayed Rewards PHD [D]. England: University of Cambridge, 1989.
4蒋国飞,吴沧浦.基于Q学习算法和BP神经网络的倒立摆控制[J].自动化学报,1998,24(5):662-666. 被引量：55
5Si J N, Wang Y T. On-line learning control by association and reinforcement [J]. IEEE Transactions on Neural Net-works ($1045- 9227), 2001, 12(2): 264-276.
6Lin C T, Lee C S G. Reinforcement structure / parameter learning for neural network-based fuzzy logic control systems [J]. IEEE Transaction on Fuzzy systems (S1063-6706), 1994, 2(1): 46-63.

二级参考文献1

1Peng J，博士学位论文，1993年

共引文献54

1窦春红,黄明键,王中华,王新江.倒立摆系统及其控制策略研究现状[J].中南大学学报（自然科学版）,2003,34(z1):96-99.
2周济,陈锋.基于强化神经网络的区域协调控制研究[J].电子技术（上海）,2010(9):20-22.
3蔡增威,刘德春,张晓华.一种基于鲁棒性设计的一阶倒立摆双闭环控制方法[J].自动化技术与应用,2004,23(4):11-15. 被引量：4
4王瑞霞,孙亮,阮晓刚.基于内部回归神经网络的强化学习[J].控制工程,2005,12(2):138-140. 被引量：4
5张玉梅,阮晓钢.一种生长型神经网络的倒立摆控制方案[J].微计算机信息,2005,21(11S):91-93. 被引量：1
6徐学军,伍铁斌,李文.基于混沌PID的倒立摆控制[J].湘潭师范学院学报（自然科学版）,2006,28(1):15-19. 被引量：1
7张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7
8王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3
9刘丽,何华灿.倒立摆系统稳定控制之研究[J].计算机科学,2006,33(5):214-219. 被引量：13
10张玉梅,阮晓钢.基于一种生长型神经网络的倒立摆控制[J].计算机仿真,2006,23(5):288-292. 被引量：1

同被引文献12

1曹从军,周明全,徐锦林.L~*a~*b~*到CMY色彩空间转换的研究(英文)[J].仪器仪表学报,2004,25(z2):129-132. 被引量：2
2王强.空间信息色彩变换方法的探讨[J].测绘通报,2006(10):20-23. 被引量：5
3高阳,胡景凯,王本年,王冬黎.基于CMAC网络强化学习的电梯群控调度[J].电子学报,2007,35(2):362-365. 被引量：13
4SUTTON S R, BARTO A G. Reinforcement learning [M]. Cambridge, MA : MIT Press, 1998 : 24-26.
5BAKKER B. Reinforcement learning with long short-term memory[C]//Advances in Neural Information Processing System 14. Cambridge ,MA :MIT Press ,2002 : 987-990.
6PHILIPP W K,SHIE M,DOINA P. Automatic basis function construction for approximate dynamic programming and reinforcement learning[C]//Proceedings of the 23rd International Conference on Machine learning. Cambridge:MIT Press,2006 : 1103-1115.
7STONE P,SUTTON R S,KUHLMANN G. Reinforcement learning for RoboCup-soceer keepaway[J]. Adaptive Behavior ,2005,13(3) : 165-188.
8ATIL S,TOLEDO C B. A new perspective to the keepaway soccer:the takers (ShortPaper)[C]//ISCEN A,EROGUL U. Proc of 7th Int Conf on Autonomous Agents and Multiagent Systems (AAMAS 2008). Estoril,Portugal: Springer Press, 2008 : 566-569.
9盖丽英,成刚虎.探析ICC标准格式[J].广东印刷,2008(4):21-23. 被引量：2
10史晓娟.基于CMAC的位置伺服系统神经元离散滑模控制[J].系统仿真学报,2009,21(4):1118-1120. 被引量：4

引证文献2

1程显毅,朱倩.一种改进的强化学习方法在RoboCup中应用研究[J].广西师范大学学报（自然科学版）,2010,28(3):99-103. 被引量：2
2智川,李志健,冷彩凤,石毅.CMAC辨识的CMYK到CIE L*a*b颜色空间转换模型的研究[J].北京理工大学学报,2014,34(9):950-954. 被引量：4

二级引证文献6

1李学俊,陈士洋,张以文,李龙澍.Keepaway抢球任务中基于策略重用的迁移学习算法[J].计算机科学,2015,42(4):190-193. 被引量：1
2洪亮,楚高利,邓倩,王娜.广义回归神经网络在显示器颜色空间转换中的应用[J].包装工程,2015,36(15):145-148. 被引量：7
3李学俊,陈士洋,张以文,李龙澍.基于强化学习的RoboCup Keepaway高层抢球策略[J].计算机应用与软件,2015,32(10):101-104. 被引量：1
4吴建华,刘婧,吴志瑰,裴建国,刘德鸿,付小梅.颜色量化及其在中药中的应用研究进展[J].江西中医药大学学报,2016,28(5):114-115. 被引量：11
5朱明,焦会敏,赵兴运,杨晶琨.一种基于图像细节保持的空间色域映射算法框架[J].北京理工大学学报,2020,40(3):290-297. 被引量：3
6曹慧,潘琦,唐家伟,谢锐,韦秀飞,张光付.基于色彩空间转换模型高仿真纸币识别研究[J].安阳工学院学报,2022,21(6):73-78.

1朱善安,黎云汉.改进Hough变换在虹膜定位中的应用研究[J].沈阳建筑大学学报（自然科学版）,2007,23(5):877-880. 被引量：1
2王博,罗超.基于改进的BP神经网络的入侵检测研究[J].井冈山大学学报（自然科学版）,2011,32(4):66-70. 被引量：4
3姜峰,段锁林.基于CMAC的PID控制在电液伺服系统中的应用[J].计算机仿真,2011,28(4):152-155. 被引量：3
4林旭梅,梅涛.一种基于自适应遗传算法的CMAC的学习率优化方法[J].系统仿真学报,2005,17(12):3081-3084. 被引量：8
5陈利霞,宋国乡,丁宣浩,王旭东.改进的总变分去噪算法[J].光子学报,2009,38(4):1001-1004. 被引量：13
6张爱伟,李金新.一种改进的粒子群优化算法[J].杭州电子科技大学学报（自然科学版）,2016,36(6):10-14. 被引量：1
7吕太之,周武,夏平平.一种改进的粒子群优化算法[J].计算机应用研究,2014,31(8):2303-2306. 被引量：2
8谷晓琳,黄明,梁旭.混沌变异算子的改进遗传算法及其应用[J].计算机应用,2007,27(10):2490-2492. 被引量：4
9姜忠山,宋超,王昉,王晶.基于遗传算法的无刷直流电机转速控制系统优化设计[J].兵工自动化,2008,27(11):70-72. 被引量：2
10孔敏,朱大奇.一种快速收敛的核CMAC神经网络模型[J].系统仿真学报,2006,18(7):1938-1941. 被引量：1

系统仿真学报

2008年第24期

浏览历史

内容加载中请稍等...

基于多个并行CMAC神经网络的强化学习方法被引量：2

参考文献6

二级参考文献1

共引文献54

同被引文献12

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多个并行CMAC神经网络的强化学习方法 被引量：2

参考文献6

二级参考文献1

共引文献54

同被引文献12

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多个并行CMAC神经网络的强化学习方法被引量：2