一种自适应强化学习算法在状态空间构建中的应用被引量：3

Application of Adaptive Reinforcement Learning for State Space Construction

下载PDF

导出

摘要针对模型未知以及具有连续状态的系统控制问题,提出一种基于强化学习的自适应控制策略。在Actor-Critic框架下,建立归一化径向基网络的自适应调节机制,实现未知系统状态空间的动态创建。有效克服了状态空间分割所带来的维度灾难,而且能够使得系统的结构总保持在最佳状态。通过对倒立摆控制的仿真研究验证了方法的有效性。 In order to solve the control problem for unknown model system with continuous state, an adaptive control strategy based on reinforcement learning was proposed. Under the Actor-Critic architecture, the adaptive adjustment mechanism for normalized radial basis function network was established to realize the state space construction dynamically. This approach could overcome the curse of dimensionality caused by state space division effectively and make the system structure always stay the optimal status. Simulation research for inverted pendulum control demonstrates the validity of the proposed method.

作者程玉虎王雪松孙伟

机构地区中国矿业大学信息与电气工程学院

出处《系统仿真学报》 EI CAS CSCD 北大核心 2006年第1期188-191,共4页 Journal of System Simulation

基金中国矿业大学青年科研基金(OC4466) 校优秀创新团队"复杂系统与控制"资助

关键词归一化径向基网络 Actor-Critic学习状态空间构建倒立摆 normalized RBF network Actor-Critic learning state space construction inverted pendulum

分类号 TP391.9 [自动化与计算机技术—计算机应用技术] TP273.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献6

1Barto A G,Sutton R S,Anderson C W.Neurolike adaptive elements that can solve difficult learning control problems[J].IEEE Transactions on System,Man and Cybernetics,1983,13(5):834-846.
2Lin C T,Lee C G.Reinforcement structure/parameter learning for neural-network-based fuzzy logic control systems[J].IEEE Transactions on Fuzzy Systems,1994,2(1):41-63.
3Samejima K,Omori T.Adaptive internal state space construction method for reinforcement learning of a real-world agent[J].Neural Network,1999,12(7-8):1143-1155.
4Moody J,Darken C.Fast learning in networks of locally-tuned processing units[J].Neural Computation,1989,(1):281-294.
5Kaebling L P,Littman M L,Moore A W.Reinforcement learning:a survey[J].Journal of Artificial Intelligence Research,1996,4:237-285.
6Platt J C.A resource-allocating network for function interpolation[J].Neural Computation,1991,(1):213-225.

同被引文献33

1孙汝儒,肖迪.基于PSO算法的ARMA模型长江化工污染水质预测[J].化工自动化及仪表,2012,39(9):1173-1176. 被引量：1
2胡正平,吴燕,张晔.基于支持向量学习的多目标并行区域增长图像分割算法研究[J].系统仿真学报,2005,17(11):2610-2612. 被引量：3
3薄翠梅,张湜,王执铨,李俊.基于滑动时间窗的支持向量机软测量建模研究[J].自动化仪表,2006,27(1):45-48. 被引量：14
4文锋,陈宗海,卓睿,周光明.连续状态自适应离散化基于K-均值聚类的强化学习方法[J].控制与决策,2006,21(2):143-147. 被引量：7
5叶光,郭晨.基于模拟退火-强化学习算法的船舶运动控制[J].系统仿真学报,2006,18(5):1278-1282. 被引量：2
6荣海娜,张葛祥,金炜东.系统辨识中支持向量机核函数及其参数的研究[J].系统仿真学报,2006,18(11):3204-3208. 被引量：79
7Takagi T,Sugeno M.Fuzzy Identification of System and its Application to Modeling and Control[J].IEEE Transactions on Systems,Man and Cybernetics (S0018-9472),1985,15(1):116-132.
8Moody J,Darken C.Fast Learning in Networks of Locally-tuned Processing Units[J].Neural Computation (S0899-7667),1989,1(2):281-294.
9Wang L X,Mendel J M.Fuzzy Basis Functions,Universal Approximation,and Orthogonal Least Squares[J].IEEE Transactions on Neural Networks (S1045-9227),1992,3(5):807-814.
10Wilson C,Blue J,Omidvar O.Training Dynamic and Neural Network Performance[J].Neural Networks (S0893-6080),1997,10(5):907-923.

引证文献3

1程玉虎,王雪松,孙伟.自适应T-S型模糊径向基函数网络[J].系统仿真学报,2007,19(19):4440-4444. 被引量：2
2王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
3朱长江,洪大华,张雷,徐聪.基于ADHDP的ARMA模型及其在矿石价格预测中的应用[J].自动化应用,2017(3):16-21.

二级引证文献5

1于军琪,王佳.基于RS—LS-SVM的建筑物室内空气品质评价研究[J].计算机工程与应用,2009,45(16):235-237.
2徐奉友,张小刚.Levenberg-Marquardt算法在T-S型模糊RBF神经网络训练中的应用[J].计算机系统应用,2010,19(12):155-159. 被引量：2
3侯艳丽.基于最小二乘支持向量机的移动机器人导航[J].电子设计工程,2011,19(23):11-12. 被引量：1
4王国志,付虹,邓斌,于兰英,吴文海.基于LS-SVM和Q(λ)学习的铁路绝缘子水冲洗定位研究[J].电瓷避雷器,2019(2):192-196. 被引量：2
5冯宏伟,刘媛媛,温子腾,谭勇.基于改进型T-S模糊RBF神经网络的红外火焰探测器识别算法[J].红外技术,2021,43(1):37-43. 被引量：2

1王雪松,程玉虎,易建强.一种自适应模糊Actor-Critic学习[J].控制与决策,2006,21(9):1068-1072. 被引量：3
2陈兴国,高阳,范顺国,俞亚君.基于核方法的连续动作Actor-Critic学习[J].模式识别与人工智能,2014,27(2):103-110. 被引量：8
3徐昌彪,王连枝,文雅琳.基于FREM的自适应AFREM算法[J].邮电设计技术,2010(2):41-47.
4金玉净,朱文文,伏玉琛,刘全.基于Tile Coding编码和模型学习的Actor-Critic算法[J].计算机科学,2014,41(6):239-242. 被引量：3
5陶慕柳,吴产乐,邢建兵,张沪寅,吴黎兵.基于性能监控的网格应用自适应调节机制[J].计算机研究与发展,2004,41(12):2175-2180. 被引量：4
6张里,汪波,曾雯,杨小会.基于自适应调节机制的网络虚拟实验平台[J].实验科学与技术,2016,14(4):94-97. 被引量：1
7李振,孙新利,姬国勋,刘好杰,刘志勇.基于无效状态空间的多状态网络可靠性评估[J].计算机工程,2012,38(23):95-100.
8张春元,朱清新.基于对称扰动采样的Actor-critic算法[J].控制与决策,2015,30(12):2161-2167. 被引量：1
9张毅,郭超,乔国梁.配送中心选址蚁群算法的求解性能优化[J].科技通报,2015,31(7):163-166. 被引量：2
10徐强,孙乐昌,张旻,刘海涛.Kademlia协议中的路由表自适应调节机制[J].应用科学学报,2011,29(1):66-72. 被引量：2

系统仿真学报

2006年第1期

浏览历史

内容加载中请稍等...

一种自适应强化学习算法在状态空间构建中的应用被引量：3

参考文献6

同被引文献33

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种自适应强化学习算法在状态空间构建中的应用 被引量：3

参考文献6

同被引文献33

引证文献3

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种自适应强化学习算法在状态空间构建中的应用被引量：3