基于汉语特征的中文对抗样本生成方法

Adversarial Sample Generation Method Based on Chinese Features

下载PDF

导出

摘要深度神经网络容易受到来自对抗样本的攻击,例如在文本分类任务中修改原始文本中的少量字、词、标点符号即可改变模型分类结果.目前NLP领域对中文对抗样本的研究较少且未充分结合汉语的语言特征.从中文情感分类场景入手,结合了汉语象形、表音等语言特征,提出一种字词级别的高质量的对抗样本生成方法CWordCheater,涵盖字音、字形、标点符号等多个角度.针对形近字的替换方式,引入ConvAE网络完成汉字视觉向量的嵌入,进而生成形近字替换候选池.同时提出一种基于USE编码距离的语义约束方法避免对抗样本的语义偏移问题.构建一套多维度的对抗样本评估方法,从攻击效果和攻击代价两方面评估对抗样本的质量.实验结果表明,CWordAttacker在多个分类模型和多个数据集上能使分类准确率至少下降27.9%,同时拥有更小的基于视觉和语义的扰动代价. Deep neural networks are vulnerable to attacks from adversarial samples.For instance,in a text classification task,the model can be fooled by modifying a few characters,words,or punctuation marks in the original text to change the classification result.Currently,studies of Chinese adversarial samples are limited in the field of natural language processing(NLP),and they fail to give due consideration to the language features of Chinese.This study proposes CWordCheater,a character-level and word-level high-quality method to generate adversarial samples covering the aspects of pronunciation,glyphs,and punctuation marks by approaching from the Chinese sentiment classification scenarios and taking into account the pictographic,alphabetic,and other language features of Chinese.The ConvAE network is adopted to embed Chinese visual vectors for the replacement modes of visually similar characters and further obtain the candidate pool of such characters for replacement.Moreover,a semantic constraint method based on universal sentence encoder(USE)distance is proposed to avoid the semantic offset in the adversarial sample.Finally,the study proposes a set of multi-dimensional evaluation methods to evaluate the quality of adversarial samples from the two aspects of attack effect and attack cost.Experiment results show that CWordAttacker can reduce the classification accuracy by at least 27.9%on multiple classification models and multiple datasets and has a lower perturbation cost based on vision and semantics.

作者李相葛罗红孙岩 LI Xiang-Ge;LUO Hong;SUN Yan(School of Computer Science(National Pilot Software Engineering School),Beijing University of Posts and Telecommunications,Beijing 100876,China)

机构地区北京邮电大学计算机学院(国家示范性软件学院)

出处《软件学报》 EI CSCD 北大核心 2023年第11期5143-5161,共19页 Journal of Software

基金国家自然科学基金(62172051,61877005)。

关键词中文情感分类对抗样本汉语特征 Chinese sentiment classification adversarial sample Chinese feature

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1王文琦,汪润,王丽娜,唐奔宵.面向中文文本倾向性分类的对抗样本生成方法[J].软件学报,2019,30(8):2415-2427. 被引量：25
2仝鑫,王罗娜,王润正,王靖亚.面向中文文本分类的词级对抗样本生成方法[J].信息网络安全,2020(9):12-16. 被引量：14

二级参考文献3

1卿斯汉.Android安全研究进展[J].软件学报,2016,27(1):45-71. 被引量：107
2王文琦,汪润,王丽娜,唐奔宵.面向中文文本倾向性分类的对抗样本生成方法[J].软件学报,2019,30(8):2415-2427. 被引量：25
3潘文雯,王新宇,宋明黎,陈纯.对抗样本生成技术综述[J].软件学报,2020,31(1):67-81. 被引量：46

共引文献28

1郭书杰.基于快速边界攻击的黑盒对抗样本生成方法[J].计算机系统应用,2020,29(12):216-221. 被引量：2
2杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：7
3宋宇,李治霖,程超.基于CNN-BILSTM的工业控制系统ARP攻击入侵检测方法[J].计算机应用研究,2020,37(S02):242-244. 被引量：14
4李祥坤,杨争峰,曾霞,刘志明.一种面向图像识别的神经网络通用扰动生成算法[J].系统科学与数学,2019,39(12):1944-1963. 被引量：5
5仝鑫,王罗娜,王润正,王靖亚.面向中文文本分类的词级对抗样本生成方法[J].信息网络安全,2020(9):12-16. 被引量：14
6刘小垒,罗宇恒,邵林,张小松,朱清新.对抗样本生成及攻防技术研究[J].计算机应用研究,2020,37(11):3201-3205. 被引量：3
7仝鑫,王斌君,王润正,潘孝勤.面向自然语言处理的深度学习对抗样本综述[J].计算机科学,2021,48(1):258-267. 被引量：12
8刘野,黄贤英,刘文星,朱小飞,李昭平.基于自适应噪声添加的防御对抗样本算法[J].计算机应用研究,2021,38(3):764-769. 被引量：4
9翟正利,李鹏辉,冯舒.图对抗攻击研究综述[J].计算机工程与应用,2021,57(7):14-21. 被引量：2
10郑海斌,陈晋音,章燕,张旭鸿,葛春鹏,刘哲,欧阳亦可,纪守领.面向自然语言处理的对抗攻防与鲁棒性分析综述[J].计算机研究与发展,2021,58(8):1727-1750. 被引量：9

1秦曰龙.20世纪30年代东北方言特征词研究[J].山西大学学报（哲学社会科学版）,2023,46(5):66-74. 被引量：2
2孙伯君.西夏文献的语文特征[J].北方民族大学学报（哲学社会科学版）,2023(4):135-145.
3马俊江.漆之美[J].能源评论,2023(11):94-94.
4王楠芳,王勇,周林.改进频率二分法的对抗性攻击方法[J].国外电子测量技术,2023,42(9):28-36.
5王宇峰,赵妍琛,雷程,梁庭.固支结构对压阻式压力传感器的输出影响研究[J].仪表技术与传感器,2023(10):7-14.
6种一凡.国际中文教学中的形声字属性类析[J].现代语文,2023(9):89-95.
7杨有欢,孙磊,戴乐育,郭松,毛秀青,汪小芹.使用RAP生成可传输的对抗网络流量[J].计算机科学,2023,50(12):359-367.
8曾琴.说“艅”[J].汉字文化,2023(18):131-135.
9郭泳澄,唐健浩,李珍妮,吕俊.基于近端凸差分方法的多层卷积变换学习算法[J].控制理论与应用,2023,40(11):2019-2027. 被引量：1
10曲彦羽,黄培杰.青海某水利工程施工用水问题分析[J].河南科技,2023,42(21):57-60.

软件学报

2023年第11期

浏览历史

内容加载中请稍等...

基于汉语特征的中文对抗样本生成方法

参考文献2

二级参考文献3

共引文献28

相关作者

相关机构

相关主题

浏览历史