基于梯度的深度强化学习解释方法被引量：1

Gradient-based Deep Reinforcement Learning Interpretation Methods

下载PDF

导出

摘要 DQN等深度强化学习方法的学习过程与工作机制不透明,无法感知其决策依据与决策可靠性,使模型做出的决策饱受质疑,极大限制了深度强化学习的应用场景。为了解释智能体的决策机理,提出一种基于梯度的显著性图生成算法(saliency map generation algorithm based on gradient,SMGG)。使用高层卷积层生成的特征图梯度信息计算不同特征图的重要性,在模型的结构和内部参数已知的情况下,从模型最后一层入手,通过对特征图梯度的计算,生成不同特征图相对于显著性图的权重;对特征重要性进行正向和负向分类,利用有正向影响的权值将特征图中捕获的特征进行加权,构成当前决策的正向解释;利用对其他类别有负向影响的权值将特征图中捕获的特征进行加权,构成当前决策的反向解释。二者共同生成决策的显著性图,得出智能体决策行为的依据,实验证明了该方法的有效性。 The learning process and working mechanism of deep reinforcement learning methods such as DQN are not transparent,and their decision basis and reliability cannot be perceived,which makes the decisions made by the model highly questionable and greatly limits the application scenarios of deep reinforcement learning.To explain the decision-making mechanism of intelligent agents,this paper proposes a gradient based saliency map generation algorithm SMGG.It uses the gradient information of feature maps generated by high-level convolutional layers to calculate the importance of different feature maps.With the known structure and internal parameters of the model,starting from the last layer of the model,the weight of different feature maps relative to the saliency map is generated by calculating the gradient of feature maps;it classifies the importance of features in both positive and negative directions,and uses weights with positive influence to weight the features captured in the feature map,forming a positive interpretation of the current decision;it uses weights that have a negative impact on other categories to weight the features captured in the feature map,forming a reverse interpretation of the current decision.The saliency map of the decision is generated by the two together,and the basis for the intelligent agent's decision-making behavior is obtained.The effectiveness of this method has been demonstrated through experiments.

作者王远徐琳宫小泽张永亮王永利 Wang Yuan;Xu Lin;Gong Xiaoze;Zhang Yongliang;Wang Yongli(School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094,China;Science and Technology on Information Systems Engineering Laboratory,Nanjing 210014,China;PLA 63850 Troops,Baicheng 137001,China;Command and Control Engineering College,Army Engineering University of PLA,Nanjing 210007,China)

机构地区南京理工大学计算机科学与工程学院信息系统工程重点实验室 [ 陆军工程大学指挥控制工程学院

出处《系统仿真学报》 CAS CSCD 北大核心 2024年第5期1130-1140,共11页 Journal of System Simulation

基金国家自然科学基金(61941113) 信息系统工程重点实验室开放基金(05202104)。

关键词深度强化学习显著性图可解释性智能体梯度 DRL saliency map interpretability agent gradient

分类号 TP391.9 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1赵佳琦,张迪,周勇,陈思霖,唐嘉澜,姚睿.基于深度强化学习的遥感图像可解释目标检测方法[J].模式识别与人工智能,2021,34(9):777-786. 被引量：7

二级参考文献5

1张辉,刘万军,吕欢欢.小波核局部Fisher判别分析的高光谱遥感影像特征提取[J].模式识别与人工智能,2019,32(7):624-632. 被引量：6
2王浩,单文静,方宝富.基于多层上下文卷积神经网络的目标检测算法[J].模式识别与人工智能,2020,33(2):113-120. 被引量：10
3张绳昱,董士风,焦林,王琦进,王红强.基于有效感受野的区域推荐网络[J].模式识别与人工智能,2020,33(5):393-400. 被引量：3
4储珺,朱晓阳,冷璐,缪君.引入通道注意力和残差学习的目标检测器[J].模式识别与人工智能,2020,33(10):889-897. 被引量：8
5万里鹏,兰旭光,张翰博,郑南宁.深度强化学习理论及其应用综述[J].模式识别与人工智能,2019,32(1):67-81. 被引量：69

共引文献6

1商俊燕.基于深度学习的遥感图像微小目标检测方法研究[J].计算机测量与控制,2022,30(10):57-62. 被引量：1
2杨鑫,王琼,姚亚洲,唐振民.基于Faster R-CNN改进的光学遥感图像飞机检测[J].激光与光电子学进展,2023,60(12):417-427. 被引量：4
3侯松,瞿嗣澄.基于遥感图像三区光谱特征的水网城市区域规划协调控制方法[J].计算机测量与控制,2023,31(11):167-172. 被引量：1
4李华,李国.无人机可见光遥感影像地物目标提取技术研究[J].计算机测量与控制,2024,32(2):250-255. 被引量：1
5蔡逢煌,张家翔,黄捷.基于图像低维特征融合的航拍小目标检测模型[J].模式识别与人工智能,2024,37(2):162-171. 被引量：1
6周敬轩,包卫东,王吉,张大宇.基于编-解码器结构的无人机群多任务联邦学习[J].西南交通大学学报,2024,59(4):933-941.

同被引文献9

1盛庆杰,苏锐丹,涂仕奎,徐雷.基于Lmser-in-Lmser双向网络的人脸素描图像生成方法[J].模式识别与人工智能,2022,35(7):589-601. 被引量：1
2段亚茹,赵嘉雨,何立明.基于生成对抗网络的文本生成图像算法[J].计算机系统应用,2023,32(1):348-357. 被引量：3
3陶知众,王斌君,崔雨萌,闫尚义.基于Pix2Pix的人脸素描图像生成方法研究[J].智能计算机与应用,2022,12(12):1-7. 被引量：2
4赵家琛,张劲东,李梓瑜.基于深度强化学习的雷达智能决策生成算法[J].现代雷达,2022,44(12):25-33. 被引量：1
5李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑[J].软件学报,2023,34(5):2101-2115. 被引量：4
6翁丽芬,李晨阳,许华荣.基于GAN的分步合成人脸素描生成算法[J].计算机辅助设计与图形学学报,2023,35(9):1363-1373. 被引量：1
7曹旗升,徐裴行,周纯杰.基于强化学习的工控系统渗透测试最优路径生成方法[J].信息安全研究,2023,9(12):1159-1165. 被引量：2
8石敏,王炳祺,李兆歆,朱登明.一种带高光处理的无缝纹理映射方法[J].图学学报,2024,45(1):148-158. 被引量：1
9蒯新晨.基于GAN和Transformer的人脸图像超分辨率重建[J].软件工程与应用,2023,12(3):444-454. 被引量：1

引证文献1

1吕周澍.基于深度强化学习算法的全视角人脸纹理图像生成方法[J].湖南邮电职业技术学院学报,2024,23(2):34-38.

1卢小平,安家琪.基层治理中大数据赋能循证决策的机理及风险探究[J].领导科学,2024(2):121-126. 被引量：1
2赵宏,申宋彦,韩力毅,吴喜川.基于字符和词特征融合的恶意域名检测[J].计算机工程与设计,2024,45(5):1549-1556.
3朱春红.基于梯度下降算法和动量因子的醇基燃料锅炉燃烧温度非线性控制方法[J].工业加热,2024,53(5):24-29.
4裴玉龙,傅博涵,王子奇,张杰.引力理论框架下基于综合竞争力的自动驾驶拟人换道决策模型[J].交通运输系统工程与信息,2024,24(1):66-80.
5夏重阳,张剑书,吴晓富,靳越.面向抗干扰跳频通信的混合改进DQN决策算法[J].电子测量技术,2023,46(20):50-57.
6Sea Ran Cleon Liew,Ngai Fong Law.Use of subword tokenization for domain generation algorithm classification[J].Cybersecurity,2024,7(2):1-12.
7张圣尧,潘旭东,张谧.基于显著图的高隐蔽性模型指纹算法[J].计算机系统应用,2024,33(4):1-12.
8Aohan Mei,Zekun Chen,Jing Zhao,Dequan Yang.A Machine Learning-Based Botnet Malicious Domain Detection Technique for New Business[J].国际计算机前沿大会会议论文集,2023(2):191-201.
9李钰清,杨智鹏,梁婉娜,陈学,杨浩,马艳娥.小车智能行驶系统的设计[J].信息记录材料,2024,25(4):91-93.
10刘东来,靳庆文,刘慧,张天怡.面向预测性分析结果的数据故事化解释中的事件类型及生成方法研究[J].情报理论与实践,2024,47(5):114-122.

系统仿真学报

2024年第5期

浏览历史

内容加载中请稍等...

基于梯度的深度强化学习解释方法被引量：1

参考文献1

二级参考文献5

共引文献6

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于梯度的深度强化学习解释方法 被引量：1

参考文献1

二级参考文献5

共引文献6

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于梯度的深度强化学习解释方法被引量：1