-
题名基于多重门限机制的异步深度强化学习
被引量:1
- 1
-
-
作者
徐进
刘全
章宗长
梁斌
周倩
-
机构
苏州大学计算机科学与技术学院
软件新技术与产业化协同创新中心
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《计算机学报》
EI
CSCD
北大核心
2019年第3期636-653,共18页
-
基金
国家自然科学基金项目(61272055
61303108
+11 种基金
61373094
61472262
61502323
61502329
61772355)
江苏省自然科学基金(BK2012616)
江苏省高校自然科学研究项目(13KJB520020
16KJB520041)
吉林大学符号计算与知识工程教育部重点实验室基金项目(93K172014K04
93K172017K18)
苏州市应用基础研究计划工业部分(SYG201422
SYG201308)资助~~
-
文摘
近年来,深度强化学习已经成为人工智能领域一个新的研究热点.深度强化学习在如Atari 2600游戏等高维度大状态空间任务中取得了令人瞩目的成功,但仍存在训练时间太长等问题.虽然异步深度强化学习通过利用多线程技术大幅度减少了深度强化学习模型所需的训练时间,但是,基于循环神经网络的异步深度强化学习算法依然需要大量训练时间,原因在于具有记忆能力的循环神经网络无法利用并行化计算加速模型训练过程.为了加速异步深度强化学习模型的训练过程,并且使得网络模型具有记忆能力,该文提出了一种基于多重门限机制的异步优势行动者-评论家算法.该模型主要有三个特点:一是通过使用多重门限机制使前馈神经网络具有记忆能力,使Agent能够通过记忆不同时间步的状态信息做出更优的决策;二是通过利用并行计算进一步加速Agent的训练过程,减少模型所需的训练时间;三是通过采用一种新的跳跃连接方式实现数据向更深的网络层传递,增强模型识别状态特征的能力,从而提升深度强化学习算法的稳定性和学习效果.该文通过Atari 2600游戏平台上的部分战略型游戏以及稀疏奖赏环境型游戏来评估新模型的性能.实验结果表明,与传统的异步深度强化学习算法相比,新模型能够以较少的时间代价来获得更优的学习效果.
-
关键词
深度学习
强化学习
异步深度强化学习
循环神经网络
多重门限机制
跳跃连接
-
Keywords
deep learning
reinforcement learning
asynchronous deep reinforcement learning
recurrent neural network
multiple gating mechanisms
skip connection
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-