期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
拟双曲动量梯度的对抗深度强化学习研究 被引量:1
1
作者 马志豪 朱响斌 《计算机工程与应用》 CSCD 北大核心 2021年第24期90-99,共10页
在深度强化学习(Deep Reinforcement Learning,DRL)中,智能体(agent)通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双... 在深度强化学习(Deep Reinforcement Learning,DRL)中,智能体(agent)通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双曲动量梯度算法(QHM)来生成对抗干扰,该方法能够充分利用以前的梯度动量来修正梯度下降方向,因而比采用随机梯度下降方法(SGD)在生成对抗样本上具有更高效率。同时借助这种攻击方法在鲁棒控制框架内训练了DRL鲁棒性。实验效果表明基于QHM训练方法的DRL在进行对抗性训练后,面对攻击和环境参数变化时的鲁棒性显著提高。 展开更多
关键词 深度强化学习 对抗性攻击 拟双曲动量梯度 损失函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部