拟双曲动量梯度的对抗深度强化学习研究被引量：1

Research on Quasi-hyperbolic Momentum Gradient for Adversarial Deep Reinforcement Learning

下载PDF

导出

摘要在深度强化学习(Deep Reinforcement Learning,DRL)中,智能体(agent)通过观察通道来观察环境状态。该观察可能包含对抗性攻击的干扰,也即对抗样本,使智能体选择了错误动作。生成对抗样本常用方法是采用随机梯度下降方法。提出使用拟双曲动量梯度算法(QHM)来生成对抗干扰,该方法能够充分利用以前的梯度动量来修正梯度下降方向,因而比采用随机梯度下降方法(SGD)在生成对抗样本上具有更高效率。同时借助这种攻击方法在鲁棒控制框架内训练了DRL鲁棒性。实验效果表明基于QHM训练方法的DRL在进行对抗性训练后,面对攻击和环境参数变化时的鲁棒性显著提高。 In Deep Reinforcement Learning(DRL),the agent observes the state of the environment through observation channels.The observation may include the interference of adversarial attacks,making the observation result far away from the real environment state.The engineering loss function with Quasi-Hyperbolic Momentum gradient algorithm(QHM)is used to further improve the attack,which will reduce the performance of the original DRL algorithm(for exam-ple,deep double-Q network,DDQN).Then this attack is used to improve the robustness of DRL within the robust control framework.After the adversarial training of QHM-based DRL,the robustness to the original environmental parameter changes is significantly improved.In addition,several adversarial attacks are compared.Compared with other adversarial attacks,QHM-based DRL has significantly improved attack and defense capabilities.

作者马志豪朱响斌 MA Zhihao;ZHU Xiangbin(College of Mathematics and Computer Science,Zhejiang Normal University,Jinhua,Zhejiang 321004,China)

机构地区浙江师范大学数学与计算机科学学院

出处《计算机工程与应用》 CSCD 北大核心 2021年第24期90-99,共10页 Computer Engineering and Applications

关键词深度强化学习对抗性攻击拟双曲动量梯度损失函数 deep reinforcement learning adversarial attack quasi-hyperbolic momentum gradient loss function

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献14

1何天远,王万仁,吴鲁明,邢亚航,郝如江.基于K-奇异值分解字典学习的振动信号压缩感知方法[J].济南大学学报（自然科学版）,2020,34(1):52-56. 被引量：9
2陈嘉颖,于炯,杨兴耀.一种融合语义分析特征提取的推荐算法[J].计算机研究与发展,2020,57(3):562-575. 被引量：15
3陆航,师智斌,刘忠宝.融合用户兴趣和评分差异的协同过滤推荐算法[J].计算机工程与应用,2020,56(7):24-29. 被引量：28
4高薇,何可期.基于二部图多权重投影的大数据推荐算法[J].计算机应用研究,2020,37(3):712-716. 被引量：5
5阚涛,高哲,杨闯.采用分数阶动量的卷积神经网络随机梯度下降法[J].模式识别与人工智能,2020,33(6):559-567. 被引量：18
6罗新,牛海清,宋廷汉,庄小亮.基于S变换和概率神经网络的局部放电特征提取及放电识别方法[J].南方电网技术,2020,14(7):17-23. 被引量：22
7郭旦怀,张鸣珂,贾楠,王彦棡.融合深度学习技术的用户兴趣点推荐研究综述[J].武汉大学学报（信息科学版）,2020,45(12):1890-1902. 被引量：15
8陶顺,郭傲,刘云博,要海江.基于矩阵束和奇异值分解的间谐波检测算法[J].电力系统保护与控制,2021,49(2):57-64. 被引量：17
9翟丽丽,王笑笑,邢海龙.基于改进VIKOR的大数据联盟数据资源群推荐方法研究[J].情报科学,2021,39(1):120-127. 被引量：5
10刘欢,戴牡红,龙飞.基于评分可信度的大数据线性回归推荐算法[J].计算机应用研究,2021,38(2):382-385. 被引量：5

引证文献1

1李斌,许朝阳,王尚鹏.多访问并行特征提取下大数据准确推荐仿真[J].计算机仿真,2023,40(7):486-490.

1李寒宇,张彦钧.求解大型线性最小二乘问题的贪婪Gauss-Seidel方法[J].同济大学学报（自然科学版）,2021,49(11):1514-1521. 被引量：2
2沈冬梅,杨忠选.求解对称非线性方程组的两种修正MHS无导数型共轭梯度法[J].湖北工程学院学报,2021,41(6):106-111. 被引量：1
3李炳林.基于深度学习的应急装备物资车辆检测跟踪算法研究[J].公路交通科技,2021,38(11):142-149. 被引量：4
4丁锋,刘喜梅.传递函数辨识(23):线性回归系统的变间隔递阶递推参数估计[J].青岛科技大学学报（自然科学版）,2021,42(6):1-20. 被引量：8

计算机工程与应用

2021年第24期

浏览历史

内容加载中请稍等...

拟双曲动量梯度的对抗深度强化学习研究被引量：1

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

拟双曲动量梯度的对抗深度强化学习研究 被引量：1

同被引文献14

引证文献1

相关作者

相关机构

相关主题

浏览历史

拟双曲动量梯度的对抗深度强化学习研究被引量：1