堆叠去噪自编码器在垃圾邮件过滤中的应用被引量：13

Application of stacked denoising autoencoder in spamming filtering

下载PDF

导出

摘要针对垃圾邮件数量日益攀升的问题,提出了将堆叠去噪自编码器应用到垃圾邮件分类中。首先,在无标签数据集上,使用无监督学习方法最小化重构误差,对堆叠去噪自编码器进行贪心逐层预训练,从而获得原始数据更加抽象和健壮的特征表示;然后,在堆叠去噪自编码器的最上层添加一个分类器后,在有标签数据集上,利用有监督学习方法最小化分类误差,对预训练获得的网络参数进行微调,获得最优化的模型;最后,利用训练完成的堆叠去噪编码器在6个不同的公开数据集上进行测试。将准确率、召回率、更具有平衡性的马修斯相关系数作为实验性能评价标准,实验结果表明,相比支持向量机算法、贝叶斯方法和深度置信网络的分类效果,基于堆叠去噪自编码器的垃圾邮件分类器的准确率都高于95%,马修斯相关系数都大于0.88,在应用中具有更高的准确率和更好的健壮性。 Aiming at the continually increasing number of spams, an approach for spare filtering based on the use of Stacked Denoising AUtoencoder （SDA） was proposed. Firstly, to get more abstract and robust feature representation of raw data, greedy layer-wise unsupervised algorithm was used to train the SDA by minimizing the construction error on unlabeled data set. Then a classifier was added on the top ：level of SDA. Next, the parameters of SDA were optimized ,with supervised algorithm by minimizing the classification error to Obtain a optimal model on labeled data set. Lastly, experiments were performed on six different public corpora using the trained SDA. The performance of SDA algorithm was compared with Support Vector Machine （SVM）, Bayes approach and Deep Belief Network （DBN）, by using precision, recall, Matthews Correlation Coefficient （MCC） with more balanced performance measure as the experimental measures. The experimental results indicate that using SDA to.filter spams has higher precision and more robustness. Since it not onty acquires ：best average performance with all precision greater than 95%, but also gets close to prefect prediction with all MCC greater than 0.88.

作者李艳涛冯伟森

机构地区四川大学计算机学院

出处《计算机应用》 CSCD 北大核心 2015年第11期3256-3260,3292,共6页 journal of Computer Applications

关键词堆叠去噪自编码器垃圾邮件分类支持向量机贝叶斯方法 Stacked Denoising Autoencoder （SDA） spam classification Support Vector Machine （SVM） Bayesian approach

分类号 TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1GARTNER. Gartner survey shows phishing attacks escalated in 2007; more than $3 billion lost to these attacks[EB/OL].[2015-02-20].http://www.gartner.com/it/page.jsp?id=565125.
2CORMACK G V. Email spam filtering: a systematic review[J]. Foundations and Trends in Information Retrieval, 2007, 1(4): 335-455.
3ALMEIDA T A, YAMAKAMI A. Advances in spam filtering techniques[M]. Berlin: Springer, 2012: 199-214.
4SONG Y, KO?CZ A, GILES C L. Better Naive Bayes classification for high-precision spam detection[J]. Software: Practice and Experience, 2009, 39(11): 1003-1024.
5CHOUHAN S. Behavior analysis of SVM based spam filtering using various kernel functions and data representations[C]// Proceedings of the 2013 International Journal of Engineering Research and Technology. Gandhinagar: ESRSA Publications, 2013: 3029-3036.
6HSU W C, YU T Y. Support vector machines parameter selection based on combined Taguchi method and Staelin method for E-mail spam filtering[J]. International Journal of Engineering and Technology Innovation, 2012, 2(2): 113-125.
7CARUANA G, LI M. A survey of emerging approaches to spam filtering[J]. ACM Computing Surveys, 2012, 44(2): Article 9.
8ALMEIDA T A, YAMAKAMI A, ALMEIDA J. Evaluation of approaches for dimensionality reduction applied with naive Bayes anti-spam filters[C]// Proceedings of the 2009 IEEE International Conference on Machine Learning and Applications. Piscataway: IEEE, 2009: 517-522.
9BENGIO Y. Learning deep architectures for AI[J]. Foundations and trends in Machine Learning, 2009, 2(1): 1-127.
10VINCENT P, LAROCHELLE H, BENGIO Y, et al.Extracting and composing robust features with denoising autoencoders[C]// Proceedings of the 25th International Conference on Machine Learning. New York: ACM, 2008: 1096-1103.

同被引文献126

1李明,韩洪亮,李波,陈继东,盛秋实.精量播种方式对玉米种子质量的要求[J].新农业,2010(7):36-36. 被引量：3
2王学军,赵琳琳,王爽.基于主动学习的视频对象提取方法[J].吉林大学学报（工学版）,2013,43(S1):51-54. 被引量：3
3张刚刚,王春生,徐岳.基于径向基函数神经网络的斜拉桥损伤识别[J].长安大学学报（自然科学版）,2006,26(1):49-53. 被引量：21
4马金娜,田大钢.基于SVM的中文文本自动分类研究[J].计算机与现代化,2006(8):5-8. 被引量：8
5杨诸胜,郭雷,罗欣,胡新韬.一种基于主成分分析的高光谱图像波段选择算法[J].微电子学与计算机,2006,23(12):72-74. 被引量：21
6张园园,张荣.JPEG2000中的自适应量化研究[J].计算机仿真,2007,24(4):202-205. 被引量：2
7芦永军,曲艳玲,宋敏.近红外相关光谱的多元散射校正处理研究[J].光谱学与光谱分析,2007,27(5):877-880. 被引量：54
8李永,徐德智,张勇,邢春晓.VRE中基于内容过滤的论文推荐算法[J].计算机应用研究,2007,24(9):58-60. 被引量：9
9陈祖琴,张惠玲,葛继科,郑宏.基于加权关联规则挖掘的相关文献推荐[J].现代图书情报技术,2007(10):57-61. 被引量：14
10侯剑,苏木标,李栋.小波变换在结构损伤识别中的应用研究[J].铁道建筑技术,2008(4):110-113. 被引量：3

引证文献13

1张莉,李长红.银杏早产嫁接三法[J].科技致富向导,2000(4):19-19.
2马津.斯卡帕神秘华美的层叠——以建构角度分析布里昂家族墓园中的混凝土线脚[J].建筑师,2012(2):38-43. 被引量：1
3陈斌,东一舟,毛明荣.基于增量学习算法的校园网垃圾邮件检测模型[J].计算机应用,2017,37(1):206-211. 被引量：1
4严小红.在Linux环境下反垃圾邮件管理系统的设计与实现[J].河北软件职业技术学院学报,2018,20(2):8-12.
5赵光权,刘小勇,姜泽东,胡聪.基于深度学习的轴承健康因子无监督构建方法[J].仪器仪表学报,2018,39(6):82-88. 被引量：35
6刘任熊,田由辉,张朝龙.基于堆叠自动编码器的网络行为识别[J].合肥工业大学学报（自然科学版）,2019,42(2):189-194. 被引量：4
7彭成,展万里,周晓红.基于随机森林的异常邮件检测方法研究与实现[J].湖南工业大学学报,2020,34(1):70-76. 被引量：3
8景栋盛,薛劲松,冯仁君.基于深度Q网络的垃圾邮件文本分类方法[J].计算机与现代化,2020,0(6):89-94. 被引量：2
9王明明,王莎,邢卉,孙晓云,路霖.堆叠自编码器在锚杆锚固缺陷类型识别中的应用[J].中国矿业,2020,29(7):81-85. 被引量：1
10林昕玥,于炯,杜旭升,理姗姗,杨少智,高杰.基于自编码器和密度的融合离群点检测算法[J].东北师大学报（自然科学版）,2021,53(1):53-60. 被引量：4

二级引证文献68

1汪洋,郭利进.一种新型DSCNN-GRU结构的减速机轴承故障诊断方法[J].机械科学与技术,2020,39(2):258-266. 被引量：9
2张会清,牛铮.基于线性判别分析和梯度提升决策树的WLAN室内定位算法[J].仪器仪表学报,2018,39(12):136-143. 被引量：14
3张立智,井陆阳,徐卫晓,谭继文.基于卷积降噪自编码器和CNN的滚动轴承故障诊断[J].组合机床与自动化加工技术,2019(6):58-62. 被引量：15
4包俊,叶波,王晓东,尹武良,徐寒扬.基于SSDAE深度神经网络的钛板电涡流检测图像分类研究[J].仪器仪表学报,2019,40(4):238-247. 被引量：6
5杜小磊,陈志刚,许旭,钟新荣.基于小波、WAE和LSTM的压裂车故障诊断[J].石油机械,2019,47(10):88-93. 被引量：4
6张钢,田福庆,梁伟阁,佘博.基于多尺度AlexNet网络的健康因子构建方法[J].系统工程与电子技术,2020,42(1):245-252. 被引量：4
7张钢,田福庆,佘博,梁伟阁.一种基于特定频段信息熵和RBM的健康因子构建方法[J].振动与冲击,2020,39(6):147-153. 被引量：2
8张捷.高职院校数据中心建设的问题及对策[J].电子技术与软件工程,2020(6):210-211. 被引量：2
9赵俊生,候圣,王鑫宇,尹玉洁.基于集成学习的图像垃圾邮件过滤方法[J].计算机工程与科学,2020,42(6):1049-1059. 被引量：9
10杭盈盈,李亚婷,孙妙君.基于高光谱图像技术结合深度学习算法的萝卜种子品种鉴别[J].农业工程,2020(5):29-33. 被引量：5

1付锐.午餐托盘[J].智力（提高版）,2011(9):31-31.
2甘冬连,张永,刘博.基于MapReduce并行SVM的垃圾邮件分类[J].软件导刊,2016,15(6):10-12. 被引量：2
3韩敏,李秋锐.基于KNN算法的垃圾邮件过滤方法分析[J].计算机光盘软件与应用,2012,15(7):179-180. 被引量：2
4沈承恩,何军,邓扬.基于改进堆叠自动编码机的垃圾邮件分类[J].计算机应用,2016,36(1):158-162. 被引量：7
5郑亚莉,王康.基于概率神经网络的垃圾邮件分类[J].计算机与现代化,2008(1):8-10. 被引量：9
6徐治国.基于朴素贝叶斯的垃圾邮件分类系统的设计[J].盐城工学院学报（自然科学版）,2008,21(2):47-50. 被引量：2
7陆青梅,尹四清.基于贝叶斯定理的垃圾邮件分类技术研究[J].信息技术,2008,32(2):118-120.
8李维杰,徐勇.简体中文垃圾邮件分类的实验设计及对比研究[J].计算机工程与应用,2007,43(25):128-132. 被引量：3
9徐守晶,韩立新,曾晓勤.基于改进型SDA的自然图像分类与检索[J].模式识别与人工智能,2014,27(8):750-757. 被引量：7
10周军.氧枪备用编码器在控制系统中的应用[J].科学与财富,2011(3):64-64.

计算机应用

2015年第11期

浏览历史

内容加载中请稍等...

堆叠去噪自编码器在垃圾邮件过滤中的应用被引量：13

参考文献15

同被引文献126

引证文献13

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

堆叠去噪自编码器在垃圾邮件过滤中的应用 被引量：13

参考文献15

同被引文献126

引证文献13

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

堆叠去噪自编码器在垃圾邮件过滤中的应用被引量：13