基于词嵌入与生成对抗网络的垃圾邮件分类算法被引量：3

Spam Filter Algorithm based on Word Embedding and GAN

下载PDF

导出

摘要包括朴素贝叶斯算法在内的现行较为有效的垃圾邮件分类算法大都依赖于大量的垃圾邮件样本.但是在一个邮件系统建立初期,往往不能够搜集到足够数量的垃圾邮件样本.针对这一问题,引入生成对抗网络的相关理论,提出一种能够快速训练垃圾邮件分类器的WE-GAN算法.该算法将词嵌入与生成对抗网络相结合.通过词嵌入获得邮件特征,利用生成对抗网络来训练一个辨别器和一个生成器,起到增大样本数据集、提高分类效率的目的.结果表明,在小数据集的情况下,其可以获得不低于朴素贝叶斯方法的分类效率与准确度. Most efficient spam classifier algorithms, including Native Bays （NB） are dependent on large numbers of spam samples in training dataset. But at the initial stage of the establishment of an email system, it is not easy to obtain such a number of spam samples. To solve this problem, WE-GAN algorithm which can train a spam classifier quickly is proposed by introducing GAN-related concept. Word embedding is used to obtain the feature of emails, which can be used in GAN to train a discriminator and a generator in order to boost dataset and improve classifier efficiency. As shown in the tests, when given a small dataset, WE-GAN is as efficient and accurate as Native Bayes algorithm.

作者王琦吴钟扬黄陈蓉潘磊 WANG Qi;wu Zhong-yang;HUANG Chen-rong;PAN Lei(School of Computer Engineering,Nanjing Institnte of Technology,Nanjing 211167,China)

机构地区南京工程学院计算机工程学院

出处《南京工程学院学报（自然科学版）》 2018年第3期20-27,共8页 Journal of Nanjing Institute of Technology(Natural Science Edition)

基金国家自然科学基金项目(61563036) 南京工程学院青年基金项目(QKJB201408) 南京工程学院校级基金基目(YKJ2014721)

关键词垃圾邮件生成对抗网络词嵌入 spam generative adversarial networks word embedding

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1曹翠玲,王媛媛,袁野,赵国冬.用于垃圾邮件的贝叶斯过滤算法研究[J].网络与信息安全学报,2017,3(3):64-70. 被引量：2
2杨雷,曹翠玲,孙建国,张立国.改进的朴素贝叶斯算法在垃圾邮件过滤中的研究[J].通信学报,2017,38(4):140-148. 被引量：20
3刘月峰,苑江浩,张晓琳.改进NB算法在垃圾邮件过滤技术中的研究[J].微电子学与计算机,2017,34(4):115-120. 被引量：6
4魏丽丽,何庆,戚国飞,许敬伟.一种基于邮件用户行为分析的发件人信誉值生成方法[J].移动通信,2015,39(24):62-66. 被引量：1
5郁可人,傅云斌,董启文.基于神经网络语言模型的分布式词向量研究进展[J].华东师范大学学报（自然科学版）,2017(5):52-65. 被引量：16

二级参考文献15

1闫龙,王文杰.基于贝叶斯方法的一种垃圾邮件过滤的实现[J].微电子学与计算机,2006,23(2):86-88. 被引量：10
2邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206. 被引量：43
3陈渝,黄楚亮,吴志豪,罗广俊,赵闪.企业信息化中的反垃圾邮件技术[J].广东科技,2007,16(7):63-64. 被引量：1
4曾志强,高济.基于向量集约简的精简支持向量机[J].软件学报,2007,18(11):2719-2727. 被引量：15
5翟军昌,秦玉平,王春立.改进的朴素贝叶斯垃圾邮件过滤算法[J].计算机工程与应用,2009,45(14):145-148. 被引量：11
6柳景超,宋胜锋.基于参考度的有效关联规则挖掘[J].火力与指挥控制,2011,36(5):79-81. 被引量：2
7马小龙.一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J].计算机应用研究,2012,29(3):1091-1094. 被引量：11
8王双成,杜瑞杰,刘颖.连续属性完全贝叶斯分类器的学习与优化[J].计算机学报,2012,35(10):2129-2138. 被引量：37
9韩俊英,刘成忠.自适应混沌果蝇优化算法[J].计算机应用,2013,33(5):1313-1316. 被引量：46
10吴小文,李擎.果蝇算法和5种群智能算法的寻优性能研究[J].火力与指挥控制,2013,38(4):17-20. 被引量：87

共引文献38

1田琳,舒康安,黄远明,黄志生,孙谦,盛剑胜.发电商滥用市场力行为识别方法研究——基于朴素贝叶斯方法的分析[J].价格理论与实践,2021(5):43-48. 被引量：2
2孙玫,张森,聂培尧,聂秀山.基于朴素贝叶斯的网络查询日志session划分方法研究[J].南京大学学报（自然科学版）,2018,54(6):1132-1140. 被引量：4
3邱宁佳,高鹏,王鹏,陶跃.基于改进信息增益的ACO-WNB分类算法研究[J].计算机仿真,2019,36(1):295-299. 被引量：6
4黄雪华.决策树和贝叶斯分类算法在学生专业录取数据中的应用研究[J].湖南城市学院学报（自然科学版）,2017,26(4):64-67. 被引量：2
5杜云梅,刘东.朴素贝叶斯分类算法在大学生体质分析中的应用[J].体育学刊,2018,25(1):117-121. 被引量：8
6侯旭珂,杨宏伟,马方,赵丽娜.一种新的广义鲁棒主成分分析(GRPCA)算法研究及应用[J].北京化工大学学报（自然科学版）,2018,45(4):82-85. 被引量：3
7刘月峰,张亚斌,苑江浩.云环境下NB算法的垃圾邮件过滤研究[J].微电子学与计算机,2018,35(8):60-63. 被引量：4
8刘凯.移动网络环境中不良信息智能过滤方法仿真[J].计算机仿真,2018,35(10):329-332. 被引量：3
9张培,纪鸿旭,李璐.基于朴素贝叶斯的中文垃圾邮件过滤[J].信息与电脑,2017,29(7):79-81. 被引量：1
10邱宁佳,李娜,胡小娟,王鹏,孙爽滋.基于粒子群优化的朴素贝叶斯改进算法[J].计算机工程,2018,44(11):27-32. 被引量：9

同被引文献32

1赵晓丹,徐燕.垃圾邮件分类技术对比研究[J].信息网络安全,2014(2):75-80. 被引量：6
2孙劲光,蒋金叶,孟祥福,李秀娟.深度置信网络在垃圾邮件过滤中的应用[J].计算机应用,2014,34(4):1122-1125. 被引量：14
3吴昊,王志坚,傅晓.基于隐私云的自毁邮件保护系统设计与实现[J].信息技术,2016,40(5):63-67. 被引量：1
4贺鸣,孙建军,成颖.基于朴素贝叶斯的文本分类研究综述[J].情报科学,2016,34(7):147-154. 被引量：70
5杜阳,赵辉.基于主成分分析的MWC采样数据压缩方法[J].计算机应用研究,2017,34(3):940-944. 被引量：7
6李雪,孙建平.一种改进的偏最小二乘回归方法研究[J].仪器仪表用户,2017,24(5):16-19. 被引量：5
7李伟,王雅芸.质量检测机构防垃圾邮件网关的运用[J].信息系统工程,2017,0(8):36-36. 被引量：1
8陈龙,梁意文,谭成予.基于自适应性分类器的垃圾邮件检测[J].计算机工程,2018,44(5):194-200. 被引量：4
9徐梦龙,黄家旺.朴素贝叶斯算法在垃圾邮件过滤方面的应用[J].网络安全技术与应用,2018(7):46-47. 被引量：4
10刘月峰,张亚斌,苑江浩.云环境下NB算法的垃圾邮件过滤研究[J].微电子学与计算机,2018,35(8):60-63. 被引量：4

引证文献3

1李子乾.云计算中垃圾邮件识别的机器学习算法[J].自动化技术与应用,2020,39(5):88-95.
2刘邦桂.基于人工智能的网络空间安全防御策略研究[J].软件工程,2023,26(4):52-56. 被引量：3
3李会会.基于偏最小二乘回归的邮件分类问题研究[J].统计学与应用,2021,10(3):365-372.

二级引证文献3

1孙小丹.人工智能技术在网络安全及数据管理中的应用[J].闽西职业技术学院学报,2023,25(3):111-115. 被引量：4
2孙小丹.智能化网络入侵行为检测模型的设计和实现[J].信息记录材料,2024,25(1):175-177.
3姜忠龙,邓德位.军事信息系统人工智能对抗技术研究[J].舰船电子工程,2023,43(11):27-32.

1顾海艳.钓鱼邮件的危害及其特征解析[J].计算机科学与应用,2017,7(2):146-149.
2陈靖,靳晨,滕升华.基于高斯过程分步分类的阿尔茨海默病辅助诊断[J].生物医学工程研究,2018,37(1):16-20.
3史琬莹.朴素贝叶斯方法在文本分类中的运用[J].电子技术与软件工程,2018(11):192-192. 被引量：3
4夏正新.一种基于滑动窗口技术的邮件特征选择方法[J].南京邮电大学学报（自然科学版）,2017,37(6):103-110. 被引量：3
5孙丽萍,戴玉刚.面向公共信息服务的藏文问题分类方法研究[J].无线互联科技,2018,15(17):105-107. 被引量：1
6郭帮,赵敏.中华人民共和国建立初期农村文化建设的历史背景初探[J].教育教学论坛,2018(43):220-221. 被引量：1
7宋智洋.一种基于规则的垃圾邮件过滤算法实现[J].南方农机,2018,49(2):137-137. 被引量：1
8刘锋.基于领域本体的文本语义挖掘方法现状分析[J].时代农机,2018,45(3):242-242. 被引量：1
9刘炳元.一种基于比特数组的整型ID生成器算法[J].福建电脑,2018,34(10):110-111.
10李伟,王雅芸.质量检测机构防垃圾邮件网关的运用[J].信息系统工程,2017,0(8):36-36. 被引量：1

南京工程学院学报（自然科学版）

2018年第3期

浏览历史

内容加载中请稍等...

基于词嵌入与生成对抗网络的垃圾邮件分类算法被引量：3

参考文献5

二级参考文献15

共引文献38

同被引文献32

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于词嵌入与生成对抗网络的垃圾邮件分类算法 被引量：3

参考文献5

二级参考文献15

共引文献38

同被引文献32

引证文献3

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

基于词嵌入与生成对抗网络的垃圾邮件分类算法被引量：3