面向语言评价的Takagi-Sugeno模糊再励学习

Linguistic reward-oriented T-S fuzzy reinforcement learning

导出

摘要综合考虑再励学习的两个重要子问题 :连续空间及语言评价问题 ,提出了一种新的学习方法 ,即面向语言评价的 Takagi-Sugeno(T-S)模糊再励学习。该学习智能体构建在 Q-学习方法和 Takagi-Sugeno模糊推理系统的基础上 ,适于处理连续域的复杂学习任务 ,亦可用于设计 Takagi-Sugeno模糊逻辑控制器。以二级倒立摆控制系统为例。 This paper presents a learning method to simultaneously resolve two significant sub problems in reinforcement learning: continuous space and linguistic rewards. A linguistic reward oriented Takagi Sugeno fuzzy reinforcement learning (LRTSFRL) model was constructed by combining the Q learning method with Takagi Sugeno type fuzzy inference systems. The proposed method is capable of solving complicated learning tasks in continuous domains and can be used to design Takagi Sugeno fuzzy logic controllers. Experiments with the double inverted pendulum system demonstrated the improved performance of the scheme.

作者晏雄伟邓志东孙增圻

机构地区清华大学计算机科学与技术系

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2002年第10期1393-1396,共4页 Journal of Tsinghua University(Science and Technology)

基金国家"九七三"重点基础研究发展规划项目( G19990 32 70 7)

关键词语言评价 Takagi-Sugeno模糊再励学习 T-S模糊推理系统神经-模糊控制函数逼近 Q-学习专家系统 reinforcement learning linguistic rewards Takagi Sugeno fuzzy inference systems neuro fuzzy control function approximations Q learning fuzzy number

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1LIN Chin-Teng,KAN Ming-Chih.Adaptive fuzzy command acquisition with reinforcement learning[].IEEE Transactions on Fuzzy Systems.1998
2LIN Chin-Teng,LU Ya-Ching.A neural fuzzy system with linguistic teaching signals[].IEEE Transactions on Fuzzy Systems.1995
3Takagi T,Sugeno M.Fuzzy identification of systems and its application to modeling and control[].I EEE Trans on SystemsM an and Cybernetics.1985
4Kaufmann A,Gupta M M.Introduction to Fuzzy Arithmetic[]..1985

1晏雄伟,邓志东,孙增圻.竞争式Takagi-Sugeno模糊再励学习[J].自动化学报,2002,28(6):873-880. 被引量：5
2马力佳,高岩.基于Takagi-Sugeno的再励学习模糊神经网络控制[J].微计算机信息,2006(06S):7-9. 被引量：3
3李卫平,易灵芝,王根平.神经—模糊控制软测量研究[J].湘潭大学自然科学学报,2004,26(1):127-128. 被引量：4
4王健民.家用电冰箱神经-模糊控制技术简介[J].家用电器科技,1997(4):5-7.
5吴爱燕,于重重,曾广平,涂序彦.基于自然语言的模糊多属性云决策方法研究[J].计算机科学,2010,37(11):199-202. 被引量：6
6曹起武.学生软件项目质量的模糊评价研究[J].计算机技术与发展,2016,26(2):43-46.
7胡凌云,孙增圻.基于T-S模糊再励学习的稳定双足步态生成算法[J].机器人,2004,26(5):461-466. 被引量：2
8林云威,陈冬青,彭勇,王华忠.基于D-S证据理论的电厂工业控制系统信息安全风险评估[J].华东理工大学学报（自然科学版）,2014,40(4):500-505. 被引量：15
9包芳,潘永惠,须文波.基于神经-模糊控制系统的移动机器人动态路径规划[J].计算机工程与应用,2009,45(10):221-225. 被引量：1
10罗玉军.语言信息集成算子在教学质量评价中的应用[J].电脑知识与技术（过刊）,2009,15(4X):4481-4482.

清华大学学报（自然科学版）

2002年第10期

浏览历史

内容加载中请稍等...

面向语言评价的Takagi-Sugeno模糊再励学习

参考文献4

相关作者

相关机构

相关主题

浏览历史