-
题名一种最大置信上界经验采样的深度Q网络方法
被引量:14
- 1
-
-
作者
朱斐
吴文
刘全
伏玉琛
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室(苏州大学)
符号计算与知识工程教育部重点实验室(吉林大学)
常熟理工学院计算机科学与工程学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2018年第8期1694-1705,共12页
-
基金
国家自然科学基金项目(61303108
61373094
+5 种基金
61772355)
江苏省高校自然科学研究项目重大项目(17KJA520004)
符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04)
苏州市应用基础研究计划工业部分(SYG201422)
高校省级重点实验室(苏州大学)项目(KJS1524)
中国国家留学基金项目(201606920013)~~
-
文摘
由深度学习(deep learning,DL)和强化学习(reinforcement learning,RL)结合形成的深度强化学习(deep reinforcement learning,DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.
-
关键词
强化学习
深度强化学习
最大置信上界
经验回放
深度Q网络
-
Keywords
reinforcement learning (RL)
deep reinforcement learning (DRL)
upper confidencebound
experience replay
deep Q- network (DQN)
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-