期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
1
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
拟双曲动量梯度的对抗深度强化学习研究
被引量:
1
1
作者
马志豪
朱响斌
《计算机工程与应用》
CSCD
北大核心
2021年第24期90-99,共10页
在深度强化学习(Deep Reinforcement Learning,DRL)中,智能体(agent)通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双...
在深度强化学习(Deep Reinforcement Learning,DRL)中,智能体(agent)通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双曲动量梯度算法(QHM)来生成对抗干扰,该方法能够充分利用以前的梯度动量来修正梯度下降方向,因而比采用随机梯度下降方法(SGD)在生成对抗样本上具有更高效率。同时借助这种攻击方法在鲁棒控制框架内训练了DRL鲁棒性。实验效果表明基于QHM训练方法的DRL在进行对抗性训练后,面对攻击和环境参数变化时的鲁棒性显著提高。
展开更多
关键词
深度强化学习
对抗性攻击
拟双曲动量梯度
损失函数
下载PDF
职称材料
题名
拟双曲动量梯度的对抗深度强化学习研究
被引量:
1
1
作者
马志豪
朱响斌
机构
浙江师范大学数学与计算机科学学院
出处
《计算机工程与应用》
CSCD
北大核心
2021年第24期90-99,共10页
文摘
在深度强化学习(Deep Reinforcement Learning,DRL)中,智能体(agent)通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双曲动量梯度算法(QHM)来生成对抗干扰,该方法能够充分利用以前的梯度动量来修正梯度下降方向,因而比采用随机梯度下降方法(SGD)在生成对抗样本上具有更高效率。同时借助这种攻击方法在鲁棒控制框架内训练了DRL鲁棒性。实验效果表明基于QHM训练方法的DRL在进行对抗性训练后,面对攻击和环境参数变化时的鲁棒性显著提高。
关键词
深度强化学习
对抗性攻击
拟双曲动量梯度
损失函数
Keywords
deep reinforcement learning
adversarial attack
quasi-hyperbolic momentum gradient
loss function
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
拟双曲动量梯度的对抗深度强化学习研究
马志豪
朱响斌
《计算机工程与应用》
CSCD
北大核心
2021
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部