基于判别模型的垃圾邮件过滤方法

Spam Filter Method Based on Discriminative Model

下载PDF

导出

摘要垃圾邮件泛滥已成为网络时代的一个重要问题,随着垃圾邮件的伪装技术的不断更新,以前主要的几种垃圾邮过滤技术面临着新的挑战。文中提出一种新的基于判别模型的垃圾邮件过滤方法,邮件分类器通过不断的学习来更新特征项的权重,当新的信息到达时,计算所有特征项的权重之和,并将其转化为一个概率值,如果此概率值超过某一阈值时,就认定此信息为垃圾邮件;同时将此方法应用到实时邮件处理环境中。实验结果表明,此方法能明显地提高准确度,有效地降低误判率。 Spam e-mail is increasingly becoming a great problem in the Internet age.As the latest generation of spam incorporates sophisticated tactics,previous spam filtering technologies face a new challenge.Proposed a novel online spam filter based on discriminative model.Spam classifier updates the weights of features by continual learning.When a new message arrives,compute the sum of all weights and convert it to a probability.If that probability is over some threshold,predict that the message is spam,then applied the technique to online processing environment. Experimental results demonstrate that it can significantly raise the filtering accuracy,effectively reduce false positire.

作者许镇王洪国冉玉梅杨玉会

机构地区山东师范大学信息科学与工程学院山东省科学技术厅

出处《计算机技术与发展》 2010年第1期181-184,共4页 Computer Technology and Development

基金山东省自然科学基金(Q2006G03) 山东省科技攻关项目(2009GG10001008) 山东省软科学研究计划项目(2009RKA285)

关键词互信息判别模型垃圾邮件过滤梯度下降法 mutual information discriminative model spam filter gradient descent

分类号 TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1中国互联网协会反垃圾邮件中心.年度反垃圾邮件报告[DB/OL].http://www.anti-spam.cn/,2007-04-05.
2Hulten G, Goodman J. Tutorial on junk email filtering[R/ OL]. In ICML 2004: http://www, research, microsoft, corn/ -- joshuago/tutorialOnJ unkMailFilteringjune4, pdf.
3张文良,黄亚楼,倪维健.基于差分贡献的垃圾邮件过滤特征选择方法[J].计算机工程,2007,33(8):80-82. 被引量：10
4J, Yih Wen - tau. Online discriminative spare filter training[ C]//The Third Conference on Email and Anti- sparn(CEAS). California: [s. n. ] ,2006.
5马莉,柴乔林.基于Postfix的垃圾邮件过滤技术的实现[J].计算机工程与设计,2005,26(4):999-1001. 被引量：5
6Androutsopoulos I,Paliouras G,Karkaletsis V. Learning to fil- ter spare E - mail: A comparison of a naive bayesian and a memory- based approach [ C]//The Fourth Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD). France: [s. n, ] ,2000:1 - 13.
7程卫华,尤晋元.基于内容过滤的反垃圾邮件系统的设计与实现[J].安徽大学学报（自然科学版）,2007,31(3):30-33. 被引量：13

二级参考文献16

1陈光英,孙东红.实现基于SpamAssassin的中文垃圾邮件过滤网关[J].中国教育网络,2005(11):46-47. 被引量：5
2王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
3林巧民,许建真,许棣华,王诚.基于贝叶斯算法的垃圾邮件过滤技术[J].南京师范大学学报（工程技术版）,2005,5(4):61-64. 被引量：9
4RichardBlum.开放源码邮件系统安全[M].人民邮电出版社,2002..
5http://www.postfix.org/.
6[EB/OL].http://www.postfix.org/,
7Zhang Le, Zhu Jingbo, Yao Tianshun. An Evaluation of Statistical Spam Filtering Techniques[J]. ACM Transactions on Asian Language Information Processing, 2004, 3(4): 243-269.
8Yang Aiming, Pedersen J O. A Comparative Study on Feature Selection in Text Categorization[C]//Proceedings of the 14^th International Conference on Machine Learning. 1997.
9Church K W, Hanks P K. Words Association Norms, Mutual Information and Lexicography[C]//Proceedings of the 27^th Annual Meeting on Vancouver: Association for Computational Linguistics.1989: 76-83.
10Lewis D D, Ringuette M. Comparison of Two Learning Algorithms for Text Categorization[C]//Proceedings of the 3^rd Annual Symposium on Document Analusic and Information Retrieval. 1994.

共引文献24

1张跃旭.一种垃圾邮件过滤系统的研究与实现[J].辽东学院学报（自然科学版）,2009,16(2):149-151.
2李学勇,高国红,孙甲霞.基于互信息和K-means聚类的信息安全风险评估[J].河南师范大学学报（自然科学版）,2011,39(2):152-155.
3秦志光,罗琴,张凤荔.一种混合的垃圾邮件过滤算法研究[J].电子科技大学学报,2007,36(3):485-488. 被引量：7
4欧阳峥峥,丰洪才.朴素贝叶斯算法在反垃圾邮件系统中的应用[J].计算机安全,2008(4):32-33. 被引量：1
5陈亮,郑宁,郭艳华,徐明,胡永涛.基于Win32API的未知病毒检测[J].计算机应用,2008,28(11):2829-2831. 被引量：6
6张付志,伍朝辉,姚芳.基于贝叶斯算法的垃圾邮件过滤技术的研究与改进[J].燕山大学学报,2009,33(1):47-52. 被引量：12
7余承依.基于贝叶斯增量分类的邮件过滤研究[J].科学技术与工程,2009,9(9):2356-2361. 被引量：1
8余承依.基于贝叶斯最小风险的垃圾邮件过滤技术[J].计算机时代,2009(5):53-55.
9陈琦,伍朝辉,姚芳,宋秀荣,张付志.基于TF*IDF的垃圾邮件过滤特征选择改进算法[J].计算机应用研究,2009,26(6):2165-2167. 被引量：6
10张成彬,唐建.基于互信息最大化和特征聚类的特征选择[J].现代计算机,2009,15(8):31-33. 被引量：1

1王新梅,卢苇,尹朝庆,吕亚兵.基于文本挖掘的邮件分类与过滤[J].计算机工程与应用,2006,42(2):135-137. 被引量：6
2熊忠阳,杜圣东,张玉芳.一种改进的支持向量机邮件分类器[J].计算机科学,2007,34(9):90-92. 被引量：2
3徐健锋,刘承启,黄传华,李建民.反垃圾邮件及粗糙朴素贝叶斯邮件分类器[J].南昌大学学报（理科版）,2008,32(6):605-608. 被引量：3
4刘宝萍,李爱军.基于神经网络集成的垃圾邮件过滤系统设计[J].电脑知识与技术,2010,6(1):171-173. 被引量：1
5赵坤,马世军.基于贝叶斯的垃圾邮件过滤技术[J].硅谷,2010,3(2):76-76.
6郭绍忠,甄涛,贾琦.基于存储过程的海量邮件数据挖掘[J].计算机工程,2010,36(1):40-42. 被引量：8
7李志博,余正红,尹朝庆,齐兴敏.邮件服务智能代理的研究[J].计算机工程与设计,2007,28(3):683-686. 被引量：1
8任劼,项婧.基于神经网络的电子邮件分类与过滤[J].计算机工程与设计,2006,27(6):1021-1024. 被引量：5
9冯超,孙素宾.对电子邮件预处理技术的研究[J].机械管理开发,2010,25(2):32-33. 被引量：1
10余承依.基于贝叶斯增量分类的邮件过滤研究[J].科学技术与工程,2009,9(9):2356-2361. 被引量：1

计算机技术与发展

2010年第1期

浏览历史

内容加载中请稍等...

基于判别模型的垃圾邮件过滤方法

参考文献7

二级参考文献16

共引文献24

相关作者

相关机构

相关主题

浏览历史