期刊文献+

马尔可夫决策问题的关键状态优先学习算法 被引量:1

下载PDF
导出
摘要 针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,CSPL)。最后本文实现了机器人寻径实验,并比较了CSPL算法与Q-Learning算法的实验结果。
作者 白尘
出处 《中国管理信息化》 2016年第7期198-202,共5页 China Management Informationization
  • 相关文献

同被引文献17

引证文献1

二级引证文献26

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部