基于原型网络的中文分类模型对抗样本生成

Adversarial Sample Generation for Chinese Classification Model Based on Prototypical Network

下载PDF

导出

摘要对抗样本生成通过在原文本中添加不易察觉的扰动使深度学习模型产生错误输出,常用于检测文本分类模型的鲁棒性。现有对抗样本生成方法多数采用黑盒或白盒攻击,在生成对抗样本的过程中需要和受害模型交互,且攻击效果依赖于受害模型的结构和性能,通用性较差。面向中文文本的对抗样本生成方法使用的变换策略过于单一,无法生成多样化的中文对抗样本。针对这些问题,提出一种基于原型网络的对抗样本生成(AEGP)方法。在全面分析汉字结构特点和人类阅读习惯的基础上,设计8种可保持语义一致的中文文本变换策略。将卷积神经网络作为编码器,构建原型网络,利用同一类别下的其他文本辅助发现所需变换的文本片段。针对选择的文本片段应用文本变换策略,生成对抗样本。实验结果表明,AEGP方法具有较好的通用性,能生成多样化的对抗样本,且相比于基线方法,分类模型在AEGP方法生成的对抗样本上的准确率下降了9.21~32.64个百分点。 In adversarial sample generation,the deep learning model is triggered to add imperceptible perturbations to the original text,thereby producing an incorrect output which can subsequently be used to test the robustness of the text classification model against malicious attacks.Existing adversarial sample generation methods must interact with the victim model in launching mostly black-or white-box attacks.The effect of the attack depends on the attributes of the victim model,such as structure and performance,and thus the process is not sufficiently versatile.In addition,the transformation strategy used in the adversarial sample generation method for Chinese text is too simple to generate diverse adversarial examples.To address these issues,in this study,an adversarial sample generation method called AEGP is proposed for a Chinese text classification model.First,based on a comprehensive analysis of the structural characteristics of Chinese characters and human reading habits,eight Chinese text transformation strategies are designed to maintain consistent semantics.Subsequently,using convolutional neural networks as the encoder,a prototypical network is built,whereby other texts in the same category are used to determine the text fragments that need to be transformed.Finally,text transformation strategies are applied to the selected text fragments to generate adversarial samples.The experimental results demonstrate that AEGP has good generality in generating diverse adversarial samples.Compared with the baseline method,the accuracy of the classification model on the adversarial samples generated by AEGP dropped by 9.21-32.64 percentage points,demonstrating the sensitivity of the model to imperceptible perturbations.

作者杨燕燕谢明轩曹江峡王学宾柳厅文杜彦辉 YANG Yanyan;XIE Mingxuan;CAO Jiangxia;WANG Xuebin;LIU Tingwen;DU Yanhui(College of Information and Cyber Security,People's Public Security University of China,Beijing 100038,China;Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100084,China;School of Cyber Security,University of Chinese Academy of Sciences,Beijing 100049,China)

机构地区中国人民公安大学信息网络安全学院中国科学院信息工程研究所中国科学院大学网络空间安全学院

出处《计算机工程》 CAS CSCD 北大核心 2023年第8期54-62,共9页 Computer Engineering

基金国家重点研发计划(2021YFB3100600) 中国科学院战略性先导科技专项(XDC02040400) 中国科学院青年创新促进会项目(2021153)。

关键词对抗样本生成分类模型原型网络文本表示变换策略 adversarial sample generation classification model prototypical network text representation transformation strategy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1王文琦,汪润,王丽娜,唐奔宵.面向中文文本倾向性分类的对抗样本生成方法[J].软件学报,2019,30(8):2415-2427. 被引量：25
2叶静.汉字的顺序不一定影响阅读[J].重庆文理学院学报（社会科学版）,2014,33(6):77-81. 被引量：2

二级参考文献7

1赵微,方俊明.视觉加工速度、瞬间信息整合特征与汉语学习困难[J].心理科学,2006,29(3):526-531. 被引量：7
2杨凌云,肖壮伟,刘西瑞,翁旭初,张学新.左侧额下回在汉字真假词视觉加工中的不同效应[J].中国医学影像技术,2006,22(6):833-835. 被引量：7
3周扬,王健,张久权,李传明,谢兵,余琼武,黄学全,翁旭初.汉字字形认知研究的刺激源设计及在fMRI研究中的应用[J].现代生物医学进展,2007,7(2):185-188. 被引量：5
4索绪尔.普通语言学教程[M].北京:商务印书馆,2007.第233页.
5高名凯石安石.语言学概论[M].北京:中华书局,1979..
6刘小文.四川荣县方言中的古语词选释[J].重庆文理学院学报（社会科学版）,2013,32(4):127-129. 被引量：1
7卿斯汉.Android安全研究进展[J].软件学报,2016,27(1):45-71. 被引量：107

共引文献25

1郭书杰.基于快速边界攻击的黑盒对抗样本生成方法[J].计算机系统应用,2020,29(12):216-221. 被引量：2
2杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：7
3宋宇,李治霖,程超.基于CNN-BILSTM的工业控制系统ARP攻击入侵检测方法[J].计算机应用研究,2020,37(S02):242-244. 被引量：14
4李祥坤,杨争峰,曾霞,刘志明.一种面向图像识别的神经网络通用扰动生成算法[J].系统科学与数学,2019,39(12):1944-1963. 被引量：4
5仝鑫,王罗娜,王润正,王靖亚.面向中文文本分类的词级对抗样本生成方法[J].信息网络安全,2020(9):12-16. 被引量：14
6刘小垒,罗宇恒,邵林,张小松,朱清新.对抗样本生成及攻防技术研究[J].计算机应用研究,2020,37(11):3201-3205. 被引量：3
7仝鑫,王斌君,王润正,潘孝勤.面向自然语言处理的深度学习对抗样本综述[J].计算机科学,2021,48(1):258-267. 被引量：12
8刘野,黄贤英,刘文星,朱小飞,李昭平.基于自适应噪声添加的防御对抗样本算法[J].计算机应用研究,2021,38(3):764-769. 被引量：4
9黄立峰,庄文梓,廖泳贤,刘宁.一种基于进化策略和注意力机制的黑盒对抗攻击算法[J].软件学报,2021,32(11):3512-3529. 被引量：7
10陈琳.基于机器视觉的英语翻译机器人错误文本检测系统[J].自动化与仪器仪表,2022(3):168-171. 被引量：9

1余晓鑫,周光有.基于显式主题增强的单轮对话生成[J].中文信息学报,2023,37(4):109-117.
2王晓升.阿多诺论艺术作品的实践态度与社会效果[J].中南大学学报（社会科学版）,2023,29(4):1-11.
3行久红,牛保民.基于文本挖掘的软件漏洞信息知识图谱构建方法[J].无线互联科技,2023,20(12):109-112. 被引量：1

计算机工程

2023年第8期

浏览历史

内容加载中请稍等...

基于原型网络的中文分类模型对抗样本生成

参考文献2

二级参考文献7

共引文献25

相关作者

相关机构

相关主题

浏览历史