一种有效的垃圾邮件过滤新方法被引量：4

New effective method for spam filtering

下载PDF

导出

摘要受到信息粒度原理的启发,给出了一种有效的垃圾邮件过滤新方法。该方法训练过程是将训练样本集合中合法邮件类和垃圾邮件类拆分成四个小类,得到四个小类的类中心向量,从粒度原理角度来看,就是采用更细的粒度来描述训练样本的先验知识。过滤过程则将新进来的邮件分别与四个小类的类中心向量进行相似度比较,最终来判定所属类别。在公共垃圾邮件语料库上测试新方法,同时与目前过滤性能较高的KNN方法进行比较,结果显示新方法具有过滤精度高,过滤速度快等优点。 A new effective method for spam filtering according to the principle of granularity was presented. First, this method divided spam class and legit class in train corpus into four small classes, and four center vectors were obtained. In the view of the principle of granularity, smaller granularity is used to describe knowledge in train corpus. When faltering, the new E-mail was compared with four center vectors respectively to decide which class it belonged to. This method was tested on spain corpus and compared with KNN. The results show that the new method has some advantages including high accuracy, high speed of filtering and so on.

作者林琛李弼程

机构地区信息工程大学信息工程学院

出处《计算机应用》 CSCD 北大核心 2006年第8期1980-1982,共3页 journal of Computer Applications

基金河南省教育厅基金资助项目(sp200303099)

关键词垃圾邮件过滤粒度 KNN spam filtering granularity KNN

分类号 TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1ANDROUTSOPOULOS I,PALIOURAS G,KARKALETSIS V.Learning to filter spam E-mail:A comparison of a naive bayesian and a memory-based approach[A].Proceedings of the workshop:Machine Learning and Textual Information Access[C].2000.1-13.
2SAHAMI M,DUMAIS S,HECKEMAN D,et al.A bayesian approach to filtering junk E-mail[A].Learning for Text Categorization-Papers from the AAAI Workshop[C].1998.56-62.
3COHEN WW.Learning rules that classify e-mail[A].Proceedings of AAAI Spring Symposium on Machine Learning in Information Access[C].1996.18 -25.
4潘文峰.基于内容的垃圾邮件过滤研究[D].中国科学院计算技术研究所硕士毕业论文,2004.
5SAKKIS G,ANDROUTSDOPOULOS I,PALIOURAS G,et al.A memory-based approach to anti-spam filtering for mailing list[J].Kluwer Academic Publishers,Information Retrieval,2003,6(1):49-73.
6DRUCKER H,WU D,VAPNIK VN.Support vector machines for spam categorization[J].IEEI Transactions on Neural Networks,1999,20(5):1048-1054.
7CARRERAS X,MARQUEZ L.Boosting trees for anti-spam E-mail filtering[A].Proceedings of 4th Int'l Conference on Recent Advances in Natural Language Processing[C].2001.58 -64.
8刘洋杜孝平罗平侯志辉郭晨骆焕林.垃圾邮件的智能分析、过滤及Rough集讨论[A]..第十二届中国计算机学会网络与数据通信学术会议[C].武汉,2002年12月..
9NICHOLAS T.Using AdaBoost and Decision Stumps to Identify Spam E-mail[EB/OL].Stanford University Course Project (Spring 2002/2003) Report,http:// nlp.stanford.edu/courses/cs224n/2003.fp,2003.

共引文献3

1王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
2胡健,马范援.基于Morphology处理和主题词抽取的垃圾邮件过滤方法[J].上海交通大学学报,2005,39(12):1963-1966. 被引量：4
3康涛.一种基于PCA和RS的文本特征抽取方法[J].现代电子技术,2007,30(10):88-90.

同被引文献33

1邹磊,卢炎生,崔得暄,胡蓉.一种基于最小损失的垃圾邮件屏蔽算法[J].华中科技大学学报（自然科学版）,2005,33(z1):352-355. 被引量：2
2苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
3范明,刘孟旭,赵红领.一种基于基本显露模式的分类算法[J].计算机科学,2004,31(11):211-214. 被引量：11
4王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
5王正群,陈世福,陈兆乾.基于模糊划分的神经网络集成[J].南京大学学报（自然科学版）,2006,42(1):63-68. 被引量：6
6刘震,周明天.基于有监督Bayesian网络的垃圾邮件过滤[J].计算机应用,2006,26(3):558-561. 被引量：8
7李文斌,刘椿年,陈嶷瑛.基于混合高斯模型的电子邮件多过滤器融合方法[J].电子学报,2006,34(2):247-251. 被引量：12
8罗浩,方滨兴,唐剑琪.垃圾邮件问题及其处理方法[J].电信科学,2006,22(2):48-52. 被引量：2
9郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
10刘胥影,吴建鑫,周志华.一种基于级联模型的类别不平衡数据分类方法[J].南京大学学报（自然科学版）,2006,42(2):148-155. 被引量：23

引证文献4

1邓林,余刘琅,韩江洪.网络干扰性信息过滤对通信效率的影响[J].计算机工程,2007,33(17):190-192.
2边吉荣.基于CS-SVM与Bagging的垃圾邮件过滤算法研究[J].宁夏工程技术,2008,7(1):66-69.
3李艳,范明.基于基本显露模式的电子邮件分类与过滤技术[J].南京大学学报（自然科学版）,2008,44(5):544-550. 被引量：3
4金京犬.基于DNSBL机制的垃圾电子邮件过滤方法实证研究[J].电脑知识与技术（过刊）,2017,23(2X):19-20. 被引量：2

二级引证文献5

1王中锋,王志海,付彬.一种局部打分搜索型限制性贝叶斯网络结构学习算法[J].南京大学学报（自然科学版）,2009,45(5):656-664. 被引量：5
2段磊,唐常杰,Guozhu Dong,杨宁,苟驰.基于显露模式的对比挖掘研究及应用进展[J].计算机应用,2012,32(2):304-308. 被引量：8
3刘璐,王怡宁,段磊,Jyrki Nummenmaa,晏力,唐常杰.基于top-k显露模式的商品对比评论分析[J].计算机应用,2015,35(10):2727-2732. 被引量：2
4金京犬.Linux系统下基于postfix垃圾邮件过滤方法[J].新乡学院学报,2018,35(9):45-48.
5方伟.企业邮件系统升级的研究与应用[J].电子元器件与信息技术,2017,1(3):40-41.

1万金凤.基于不完备信息系统粗集逼近中的粒度原理[J].计算机工程与应用,2006,42(11):55-56.
2吴雪平,贾瑞清.过滤器过滤精度的选择[J].液压与气动,1995,19(4):9-11.
3黄杰,史啸.一种基于人体裸露皮肤形状的不良图像过滤系统[J].东南大学学报（自然科学版）,2014,44(6):1111-1115. 被引量：2
4曾致远,张莉.基于向量空间模型的网页文本表示改进算法[J].计算机工程,2006,32(3):134-135. 被引量：10
5卜东波,白硕,李国杰.聚类/分类中的粒度原理[J].计算机学报,2002,25(8):810-816. 被引量：95
6盛魁.改进的K-近邻算法在中文网页分类的应用[J].佳木斯大学学报（自然科学版）,2011,29(6):908-911.
7林琛,李弼程.距离函数分类法在垃圾邮件过滤中的应用[J].计算机工程与设计,2007,28(2):322-323. 被引量：1
8安金龙,王正欧,马振平.基于密度法的模糊支持向量机[J].天津大学学报（自然科学与工程技术版）,2004,37(6):544-548. 被引量：17
9王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
10迟学芝,朱晓丽,赵志刚.基于BP人工神经网络的信息过滤技术研究[J].电脑开发与应用,2007,20(6):58-60. 被引量：1

计算机应用

2006年第8期

浏览历史

内容加载中请稍等...

一种有效的垃圾邮件过滤新方法被引量：4

参考文献9

共引文献3

同被引文献33

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种有效的垃圾邮件过滤新方法 被引量：4

参考文献9

共引文献3

同被引文献33

引证文献4

二级引证文献5

相关作者

相关机构

相关主题

浏览历史

一种有效的垃圾邮件过滤新方法被引量：4