预训练模型辅助的后门样本自过滤防御方法

Self-filtering of Backdoor Samples by Aid of Pre-trained Model

下载PDF

导出

摘要深度神经网络由于其出色的性能,被广泛地部署在各种环境下执行不同的任务,与此同时它的安全性变得越来越重要。近年来,后门攻击作为一种新型的攻击方式,对用户构成严重威胁。在训练阶段,攻击者对少量样本添加特定后门模式并标记为目标类以学习后门模型。后门模型可以以很高的概率将加入后门模式的测试样本识别为目标类,同时不影响正常样本的识别。用户通常无法掌握后门的先验信息,因此很难察觉后门攻击的存在。该文提出一种预训练模型辅助的后门样本自过滤方法,以防御后门攻击,包括目标类检测与后门样本自过滤两个部分。在第一部分,利用预训练模型提取样本特征,采用k近邻算法进行目标类检测;在第二部分,从非目标类样本中学习部分分类模型,之后多次执行“后门样本过滤”与“模型学习”的交替计算,在较好过滤后门样本的同时,也得到了完整的良性模型。 While deep neural networks(DNNs) have been widely deployed in various environments due to their excellent performances, serious security threats emerge accordingly. As a new type of attack in recent years, the backdoor attack composes one of the most serious threats which users are suffered from. The backdoor attack occurs when the attacker changes pixels in a minor amount of training images locally or globally using specific backdoor pattern called ‘trigger’,and also specifies the target label. Tested sample injected the same trigger will be classified into the target label with a high probability regardless of its ground truth, and the benign sample classification performance will not be impacted. Users usually have no prior knowledge about the backdoor attack, thereby the backdoor attack is not easy to be exposed. We propose a backdoor sample self-filtering by the aid of pre-trained model to defend against backdoor attack which contains two components: target class detection and backdoor samples’ self-filtering. At the first component, by using certain pre-trained model, feature representation is extracted for each sample, and then the k-nearest neighbor algorithm(kNN) is used to detect the target class. At the second component, a partial model is learned from the non-target class samples first, and then an iterative and alternative procedure of backdoor sample filtering and benign sample learning is conducted. Finally, not only backdoor samples are filtered out but a complete benign model is obtained as well.

作者刘琦张天行陆小锋吴汉舟毛建华孙广玲 LIU Qi;ZHANG Tian-xing;LU Xiao-feng;WU Han-zhou;MAO Jian-hua;SUN Guang-ling(School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China)

机构地区上海大学通信与信息工程学院

出处《计算机技术与发展》 2023年第1期121-129,共9页 Computer Technology and Development

基金上海市科委科技创新行动计划项目(21511102605) 国家自然科学基金项目(61902235)。

关键词深度神经网络后门攻击预训练模型 K近邻自过滤 deep neural networks backdoor attack pre-trained model kNN self-filtering

分类号 TP309.2 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1卢宏涛,张秦川.深度卷积神经网络在计算机视觉中的应用研究综述[J].数据采集与处理,2016,31(1):1-17. 被引量：551
2张晴晴,刘勇,潘接林,颜永红.基于卷积神经网络的连续语音识别[J].工程科学学报,2015,37(9):1212-1217. 被引量：70
3陈晋音,邹健飞,苏蒙蒙,张龙源.深度学习模型的中毒攻击与防御综述[J].信息安全学报,2020,5(4):14-29. 被引量：9
4田鹏,左大义,高艳春,陈海兵,丁灏.面向实际场景的人工智能脆弱性分析[J].计算机技术与发展,2021,31(11):129-135. 被引量：4
5郝建国,黄健,黄柯棣.HLA联邦数据收集的研究与实现[J].计算机仿真,2002,19(1):38-42. 被引量：7

二级参考文献61

1Jeffrey Richter.Windows 95 Windows NT3．5高级编程技术[M].清华大学出版社,1996..
2Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60 (2) 91 110.
3Dalai N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition (CVPR), IEEE Computer Society Conference on. San Diego, USA: IEEE, 2005, 1 886-893.
4Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786) : 504-507.
5Hubel D H, Wiesel T N. Receptive fields, binocular interaction and functional architecture in the catrs visual cortex[J]. The Journal of Physiology, 1962, 160(1): 106-154.
6Fukushima K, Miyake S. Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in posi- tion[J]. Pattern Recognition, 1982, 15(6): 455-469.
7Ruck D W, Rogers S K, Kabrisky M. Feature selection using a multilayer perceptron[J]. Journal of Neural Network Com- puting, 1990, 2(2): 40-48.
8Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986,3231 533 538.
9LeCun Y, Denker J S, Henderson D, et al. Handwritten digit recognition with a back-propagation network[C]//Advances in Neural Information Processing Systems. Colorado, USA Is. n. ], 1990: 396-404.
10LeCun Y, Cortes C. MNIST handwritten digit database[EB/OL], http//yann, lecun, com/exdb/mnist, 2010.

共引文献634

1周晓,焦晨,朱开瑄.基于卷积神经网络的废旧塑料瓶颜色分拣系统[J].数字制造科学,2021(3):227-232. 被引量：3
2杜佳峰,王景松,杨宝军,薛勇新,郑春华.基于卷积神经网络的船舶水尺字符识别方法研究[J].中国水运（下半月）,2020(3):1-3. 被引量：1
3吴丽娟,任海清,关贵明,梁岱立,黄尧.基于人脸姿态识别的课堂学习状态反馈系统的设计与实现[J].沈阳师范大学学报（自然科学版）,2022,40(2):127-132. 被引量：2
4杨全.关于高校计算机视觉课程教学的思考[J].计算机产品与流通,2020,9(9):172-172.
5傅隆生,宋珍珍,Zhang Xin,李瑞,王东,崔永杰.深度学习方法在农业信息中的研究进展与应用现状[J].中国农业大学学报,2020,25(2):105-120. 被引量：53
6范慧鹏,闪恒杰,房哲续,郭江川.用于故障诊断的深度学习分类模型及方法[J].河南电力,2023(S01):51-55. 被引量：2
7杨耿,张业明,侯金利,刘咏炫,鲁骏,周靖.高速公路图像识别技术应用探析[J].中国交通信息化,2022(S01):294-298. 被引量：1
8邴皓哲,赵健淇.基于机器视觉的飞机蒙皮表面缺陷检测方法综述[J].飞机设计,2024,44(3):62-65.
9白雄文,王红艳,孙宇,周炼赤.基于人工智能的自然语言处理技术分析[J].电子技术（上海）,2021(1):176-177. 被引量：4
10胡远洋.基于深度神经网络的电阻层析成像重建方法[J].电子测量技术,2023,46(5):78-82.

1贾绪云.基于冰山理论构建与优化生物学教学策略的研究[J].中学生物教学,2022(23):30-33. 被引量：1
2成实,李翔宇,张潇涵,汪瑞军.基于植被三维点云数据的小型景观空间微气候分析方法探究——以东南大学梅庵为例[J].中国园林,2022,38(12):98-103.
3于炳虎,蹇诗婕,樊子民.基于可信计算的移动应用静态度量方法[J].网络安全与数据治理,2022,41(12):66-72.
4周超,钟宏伟,陈迎亮,刘东林,丁盛,张筱芃,李楚涵.国外蛙人水下输送平台技术发展综述[J].水下无人系统学报,2022,30(6):680-695.
5陈得鹏,刘肖,崔杰,何道敬.面向机器学习的成员推理攻击综述[J].计算机科学,2023,50(1):302-317.
6江苏省医学会检验学分会,江苏省临床检验中心,赵建华,何军,夏欣一,王琳,杨传坤,杨阳,李世宝.新型冠状病毒核酸全自动PCR检测系统临床应用江苏专家共识[J].临床检验杂志,2022,40(11):801-807. 被引量：2
7陶明亮,唐舒婷,王伶.面向智能调制识别的电磁信号灵巧诱骗方法[J].信号处理,2022,38(12):2496-2506. 被引量：4
8蓝四海.澳大利亚格拉德斯通港简介[J].航海技术,2022(6):19-22.
9焦泽鑫,张琳,刘茜萍.区分时间段的细粒度假位置选择算法[J].南京邮电大学学报（自然科学版）,2022,42(6):106-114. 被引量：2
10孙道宗,刘锦源,丁郑,刘欢,彭家骏,谢家兴,王卫星.基于改进EfficientNetv2模型的多品种南药叶片分类方法[J].华中农业大学学报,2023,42(1):258-267. 被引量：2

计算机技术与发展

2023年第1期

浏览历史

内容加载中请稍等...

预训练模型辅助的后门样本自过滤防御方法

参考文献5

二级参考文献61

共引文献634

相关作者

相关机构

相关主题

浏览历史