竞争式Takagi-Sugeno模糊再励学习被引量：5

COMPETITIVE TAKAGI-SUGENO FUZZY REINFORCEMENT LEARNING

下载PDF

导出

摘要针对连续空间的复杂学习任务 ,提出了一种竞争式 Takagi- Sugeno模糊再励学习网络(CTSFRLN) ,该网络结构集成了 Takagi- Sugeno模糊推理系统和基于动作的评价值函数的再励学习方法 .文中相应提出了两种学习算法 ,即竞争式 Takagi- Sugeno模糊 Q-学习算法和竞争式 Takagi- Sugeno模糊优胜学习算法 ,其把 CTSFRLN训练成为一种所谓的 Takagi- Sugeno模糊变结构控制器 .以二级倒立摆控制系统为例 ,仿真研究表明所提出的学习算法在性能上优于其它的再励学习算法 . This paper proposes a competitive Takagi-Sugeno fuzzy reinforcement learning network (CTSFRLN) for solving complicated learning tasks of continuous domains. The proposed CTSFRLN is constructed by combining Takagi-Sugeno type fuzzy inference systems with action-value-based reinforcement learning methods. Two competitive learning algorithms are derived, including the competitive Takagi-Sugeno fuzzy Q-learning and the competitive Takagi-Sugeno fuzzy advantage learning. These learning methods lead to so called Takagi-Sugeno fuzzy variable structure controllers. Simulation experiments on the double inverted pendulum system demonstrate the superiority of these learning methods.

作者晏雄伟邓志东孙增圻

机构地区清华大学计算机科学与技术系智能技术与系统国家重点实验室

出处《自动化学报》 EI CSCD 北大核心 2002年第6期873-880,共8页 Acta Automatica Sinica

基金高等学校优秀青年教师教学科研奖励计划资助

关键词再励学习函数逼近 T-S模糊推理系统机器学习神经网络 Computer simulation Control systems Functions Fuzzy sets Learning algorithms Neural networks Pendulums

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献54

1马勇,杨煜普,许晓鸣,石坚,卓斌,吴远朋.一类再励学习控制器设计及其在倒车模型中的应用[J].上海交通大学学报,2000,34(12):1661-1663. 被引量：1
2张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300. 被引量：7
3王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3
4马力佳,高岩.基于Takagi-Sugeno的再励学习模糊神经网络控制[J].微计算机信息,2006(06S):7-9. 被引量：3
5陈果.用结构自适应神经网络预测航空发动机性能趋势[J].航空学报,2007,28(3):535-539. 被引量：29
6Sutton R S,Barto A G.Reinforcement Learning:An Introduction[M].Cambridge:MIT Press,1998.
7Moore A W,Atkeson C G.The Parti-game Algorithm for Variable Resolution Reinforcement Learning in Multidimensional State-spaces[J].Machine Learning,1995,21(3):199-233.
8Uther W T,Veloso M M.Tree Based Discretizationfor Continuous State Space Reinforcement Learning[A].AAAI'98[C].Madison,1998:769-774
9Smith A J.Applications of the Self-organising Map to Reinforcement Learning[J].Neural Networks,2002,15(8-9):1107-1124.
10Lee I S K,Lau H Y K.Adaptive State Space Partitioning for Reinforcement Learning[J].Engineering Applications of Artificial Intelligence,2004,17(6):577-588.

引证文献5

1王瑞霞,孙亮,阮晓刚.基于内部回归神经网络的强化学习[J].控制工程,2005,12(2):138-140. 被引量：4
2文锋,陈宗海,卓睿,周光明.连续状态自适应离散化基于K-均值聚类的强化学习方法[J].控制与决策,2006,21(2):143-147. 被引量：7
3王瑞霞,孙亮,阮晓钢.基于强化学习的二级倒立摆控制[J].计算机仿真,2006,23(4):305-308. 被引量：3
4郑宇,罗四维,吕子昂.倒立摆系统中强化学习的极限环问题[J].计算机工程与应用,2008,44(10):16-19. 被引量：1
5付旭云,陕振勇,李臻,钟诗胜.时变模糊神经网络及其在航空发动机排气温度预测中的应用[J].计算机集成制造系统,2014,20(4):919-925. 被引量：9

二级引证文献24

1曾智刚.基于强化学习的神经网络在船模速度控制中的应用[J].计算机时代,2009(4):24-25. 被引量：1
2胡敏,孔昭君,张纪海,李萍.一种属性约简方法及其在动员联盟伙伴选择中的应用[J].兵工学报,2009,30(S1):64-69.
3陈宗海,文锋,王智灵.基于自适应评价的非线性系统神经网络控制[J].控制与决策,2007,22(7):765-768. 被引量：3
4常晋义,何春霞.基于三角不等式原理的K-means加速算法[J].计算机工程与设计,2007,28(21):5094-5096. 被引量：4
5郑宇,罗四维,吕子昂.倒立摆系统中强化学习的极限环问题[J].计算机工程与应用,2008,44(10):16-19. 被引量：1
6王雪松,田西兰,程玉虎,马小平.最小二乘支持向量机在强化学习系统中的应用[J].系统仿真学报,2008,20(14):3702-3706. 被引量：3
7李春贵,刘永信,王萌.平均报酬指标多步递推最小二乘即时差分学习[J].内蒙古大学学报（自然科学版）,2008,39(5):560-565.
8陶隽源,孙金玮,李德胜.基于线性平均的强化学习函数估计算法[J].吉林大学学报（工学版）,2008,38(6):1407-1411.
9陈健,张持健.三级倒立摆的LQR方法优化参数控制[J].计算机工程与应用,2009,45(29):245-248. 被引量：3
10任红格,阮晓钢.Skinner操作条件反射的一种仿生学习算法与机器人控制[J].机器人,2010,32(1):132-137. 被引量：3

1马力佳,高岩.基于Takagi-Sugeno的再励学习模糊神经网络控制[J].微计算机信息,2006(06S):7-9. 被引量：3
2晏雄伟,邓志东,孙增圻.面向语言评价的Takagi-Sugeno模糊再励学习[J].清华大学学报（自然科学版）,2002,42(10):1393-1396.
3常玲芳.一类非线性系统的模糊变结构控制[J].自动化与仪表,2004,19(2):51-54.
4王宪,盛巍,宋书林,平雪良.T-S模糊模型变结构的机器臂轨迹跟踪控制[J].计算机系统应用,2012,21(2):59-64. 被引量：2
5王海峰,马磊,王永滨.利用组件结构集成基于Web的应用[J].河北工业大学学报,1999,28(2):78-81. 被引量：1
6刘宁.一种两层结构集成的协同分类算法[J].微型电脑应用,2015,31(5):33-35.
7陈非,敬忠良,姚晓东.一种模糊神经网络的快速参数学习算法[J].控制理论与应用,2002,19(4):583-587. 被引量：21
8唐勇,陈宝峰,张大鹏,陈琛.基于Agent的机器人足球赛中的再励学习算法[J].燕山大学学报,2005,29(4):324-327.
9宋晓娜,徐胜元,沈浩,赵环宇.不确定T-S模糊时变时滞系统的时滞依赖无源输出反馈控制[J].南京理工大学学报,2011,35(1):6-10. 被引量：5
10王殿辉,柴天佑.自适应模糊神经网络控制器设计的线性化方法[J].控制与决策,1995,10(1):21-27. 被引量：7

自动化学报

2002年第6期

浏览历史

内容加载中请稍等...

竞争式Takagi-Sugeno模糊再励学习被引量：5

同被引文献54

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

竞争式Takagi-Sugeno模糊再励学习 被引量：5

同被引文献54

引证文献5

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

竞争式Takagi-Sugeno模糊再励学习被引量：5