期刊文献+

基于AMDP-Q的自主车辆行驶策略求解

Solving driving policy for autonomous vehicles via AMDP-Q
原文传递
导出
摘要 结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的ε-贪婪策略进行策略选择.实验结果表明:AMDP-Q比MC-POMDP收敛速度更快. 结合增广马尔可夫决策过程(AMDP),蒙特卡罗-部分可观察马尔可夫决策过程(MC-POMDP)以及Q学习,提出了AMDP-Q学习(AMDP-Q)算法.算法的主要思想是:首先用一个低维充分统计量表示原信念状态空间,通常使用最大似然状态和信念状态的信息熵作为充分统计量,其组成的空间称为增广状态空间;然后应用参考状态集离散化该空间,并利用Q学习和Shepard插值得到连续状态的转移函数和回报函数;最后使用具有知识探索性质的ε-贪婪策略进行策略选择.实验结果表明:AMDP-Q比MC-POMDP收敛速度更快.
出处 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第S2期370-373,共4页 Journal of Huazhong University of Science and Technology(Natural Science Edition)
基金 国家自然科学基金资助项目(90820306)
关键词 自主汽车 部分可观察马尔可夫决策过程(POMDP) Q学习 增广马尔可夫决策过程(AMDP) 连续状态空间 autonomous vehicle partially observable Markov decision process(POMDP) Q-learning augmented Markov decision process(AMDP) continuous state space
  • 相关文献

参考文献7

  • 1Roy N,Thrun S.Coastal navigation for mobile robots[].Advances in Neural Information Processing Systems.2000
  • 2Roy N,Thrun S.Approximating POMDPs using Be-lief State Compression. http:∥www.cs.cmu.edu/-rll/guide2001/nickr/html/nickr.html . 2011
  • 3Thrun S,Burgard W,Fox D.Probabilistic Robotics[]..2005
  • 4Cassandra A,Kaelbling L,Littman M.Acting opti-mally in partially observable stochastic domains[].Twelfth National Conference on Artificial Intelli-gence.1994
  • 5Thrun S.Monte Carlo POMDPs[].Advances inNeural Information Processing Systems.2000
  • 6Littman M.Algorithms for sequential decision mak-ing[]..1996
  • 7Sutton RS,Barto AG.Reinforcement Learning: An Introduction[]..1998

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部