-
题名基于Metropolis准则的Q-学习算法研究
被引量:14
- 1
-
-
作者
郭茂祖
王亚东
刘 扬
孙华梅
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学管理学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2002年第6期684-688,共5页
-
基金
本课题得到国家"八六三"高技术研究发展计划(200lAA115550)
国家自然科学基金(70071008)
中国博士后科学基金资助
-
文摘
探索与扩张是Q-学习算法中动作选取的关键问题,一味地扩张将使智能体很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,而过多的探索将影响算法的性能.通过把Q-学习中寻求最优策略表示为组合优化问题中最优解的搜索,将模拟退火算法的Metropolis准则用于Q-学习中探索和扩张之间的折衷处理,提出基于Metropolis准则的Q-学习算法SA-Q-learning.通过实验比较,它具有更快的收敛速度,而且避免了过多探索引起的算法性能下降.
-
关键词
机器学习
METROPOLIS准则
Q-学习算法
-
Keywords
reinforcement learning, Q-learning, Metropolis criterion, exploration, exploitation
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-