针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Le...针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,CSPL)。最后本文实现了机器人寻径实验,并比较了CSPL算法与Q-Learning算法的实验结果。展开更多
文摘针对传统强化学习算法的维数灾难问题,首先提出了用于识别关键状态的"决策收益率"概念及其估算方法,然后借鉴学习范围扩展的思想,以经典Q-Learning学习算法为基础,提出了关键状态优先学习算法(Critical States Prioritized Learning,CSPL)。最后本文实现了机器人寻径实验,并比较了CSPL算法与Q-Learning算法的实验结果。