期刊文献+

基于Q-学习的非线性控制

Non-linear Control Based on Q-learning Algorithms
下载PDF
导出
摘要 给出了一种新的激励学习(RL)方法,它能够有效地解决一个状态与动作空间为连续的非线性控制问题.在实际的应用中,离散的RL方法能把许多非线性控制问题分解成几个局部线性控制作业.提供了一种由简单的线性控制器和Q-学习构成的层次性RL算法.连续状态 动作空间被形象地分成为一些格子,并且每个格子都有它自己的局部线性控制器.状态空间的隔离是处理维数问题的一种相当简单的方法,但是经常会引起非Markov效果,而局部线性控制器能弥补这个缺陷. A novel approach to reinforcement learning is given to solve a nonlinear control problem,in which state spaces are continuous and so action spaces are. In this method, an approach combining discrete RL methods with linear controllers is promising since there are many nonlinear control problems that can be decomposed into several local linear control tasks.
出处 《长沙电力学院学报(自然科学版)》 2003年第1期35-38,共4页 JOurnal of Changsha University of electric Power:Natural Science
基金 国家自然科学基金资助项目(60075019)
关键词 激励学习(RL) 马尔科夫决策过程(MDP) Q-学习 非线性控制 局部线性控制器 reinforcement learning(RL) Markov decision process(MDP) Q-learning non-linear control local linear controller
  • 相关文献

参考文献16

  • 1Sutton S. On the significance of Markov decision processes[A]. Artificial Neural Networks-lCANN'97 [ C ]. USA : Springer, 1997 : 273-282.
  • 2Dean L, Kaebling P, Kirman J, et al. Planning under time constraints in stochastic domains[J]. Artificial Intelligence, 1995,76(1-2) : 35-74.
  • 3Boutilier C, Dearden R, Goldszmidt M. Exploiting structure in policy construction[A]. Proceeding of the Fourteenth International Joint Conference on Artificial Intelligence[C]. USA : Stanford, 1995:273-282.
  • 4Watkins H, Dayan P. Q-learning[J]. Machine Learning, 1992,8(3) :279-292.
  • 5Sutton R S. Learning to predict by the method of temporal difference[J]. Machine Learning, 1988,3( 1 ) :9-44.
  • 6Peng J, Williams R. Incremental multl-step Q-learning[J]. Machine Learning, 1996,22(4) :283-290.
  • 7Watkins H. Learning from delayed rewards[D]. London: University of Cambridge, 1989.
  • 8Sutton R S, Barto A G. Reinforcement learning: An introduction[M].Cambridge:MIT Press,1998.
  • 9Wiering M, Schmidhuber l. Speeding up Q - learning[A], In:Proc of the 10^th European Conf on Machine Learning[C]. Germany: Chemnitz,1998 : 273-282.
  • 10Sutton S. Open theoretical questions in reinforcement learning[A].In: Proc of Euro COLT' 99( Computational Learning Theory ) [ C ]. Cambridge: MIT Press, 1999:11-17.

二级参考文献17

  • 1陈焕文 谢建平 等.在策略激励学习算法的POMDPs实验研究[J].南京大学学报(自然科学版)(计算机专辑),2000,36:219-223.
  • 2Bertsekas D P 李人厚(译).动态规划-确定和随机模型[M].西安:西安交通大学学报,1990..
  • 3Chen Huanwen,南京大学学报,2000年,36卷,219页
  • 4陈焕文,南京大学学报,2000年,36卷,计算机专辑,219页
  • 5Peng J,Machine Learning,1996年,22卷,4期,283页
  • 6杨治良,记忆心理学(第2版),1999年
  • 7张奇,学习理论,1999年
  • 8李月甫(译),人类的学习,1998年
  • 9Zhang W,Proc of the 14th IJCAI,1995年,1114页
  • 10张东摩,李红兵.人工智能研究动态与发展趋势——参加第十五届国际人工智能联合大会总结报告[J].计算机科学,1998,25(2):5-8. 被引量:14

共引文献16

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部