基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法被引量：5

A Two-Stage Spam Email Filtering Method Based on Naive Bayes and Hierarchical Clustering

下载PDF

导出

摘要为降低对合法邮件的误判,提出一种基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法。该方法将邮件划分为"合法邮件"、"可疑邮件"和"垃圾邮件"3类,在第一阶段,利用朴素贝叶斯算法速度快、分类性能好的优点,对邮件进行初步分类;在第二阶段,基于垃圾邮件的发送特征,利用层次聚类算法进行相似性比较。实验表明,该方法能够显著提高垃圾邮件的查准率,降低对合法邮件的误判,更加符合实际应用需求。 To reduce misclassification rate of legitimate emails, proposed a two-stage spare email filtering method based on naive Bayes and hierarchical clustering. This method classifies emails as Legitimate, Unsure and Spare. At first stage, it classifies email as Legitimate and Unsure by using naive Bayesian classifier. At second stage, a hierarchical clustering method is used to find similar email in the pre-collected spam emails set. The experiment showed that, this method can increase the precision of spam detection, lower the misclassification of legitimate emails, which is more viable in practice.

作者廖明涛张德运李金库

机构地区西安交通大学网络所

出处《微电子学与计算机》 CSCD 北大核心 2007年第8期1-3,7,共4页 Microelectronics & Computer

基金国家"863"计划项目(2003AA148010) 国家火炬计划项目(2005EB011484)

关键词朴素贝叶斯层次聚类垃圾邮件过滤 naive bayes hierarchical clustering spam email filtering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1李惠娟,高峰,管晓宏,黄亮.基于贝叶斯神经网络的垃圾邮件过滤方法[J].微电子学与计算机,2005,22(4):107-111. 被引量：21
2Sahami M,Dumais S,Heckerman D,et al.A Bayesian approach to filtering junk email[A].Proc.of AAAI Workshop on Learning for Text Categorization[C].1998
3Androutsopoulos I,Koutsias J,Chandrinos KV,et al.An evaluation of naive Bayesian anti-spam filtering[A].Proc.of the workshop on Machine Learning in the New Information Age[C].2000
4Manber U.Finding similar files in a large file system[A].Proceedings of Winter USENIX Conference[C].San Francisco,1994:17-21
5Broder A Z,Glassman S C,Manasse M S,et al.Syntactic clustering of the web[A].Proceedings of the sixth International World Wide Web Conference[C].Santa Clara,USA:Elsevier Science,1997:391-404

二级参考文献9

1Androutsopoulos, I., Koutsias, J., etc. An Evaluation of Naive Bayesian Anti-Spam Filtering,Proceedings of the workshop on Machine Learning in the New Information Age, 11th European Conference on Machine Learning,Barcelona, Spain, 2000, 9～17.
2MacKay, D. J.CProbable networks and plausible predictionsa review of practical Bayesian methods for supervised neural networks Network: Computation. In Neural Systems.6 (August 1995) 469～505.
3Androutsopoulos, I., Koutsias, I., etc. An Evaluation of Naive Bayesian Anti-Spam Filtering, Proceedings of the workshop on Machine Learning in the New Information Age, 11th European Conference on Machine Learning,Barcelona, Spain, 2000,9～17.
4Ma, Q. C., Wu, C.H., etc. Application of Bayesian Neural Networks to Biological Data Mining: A Case Study in DNA Sequence Classification, 4～6.
5MacKay, D. J. C. ,Bayesian Methods for Neural Networks:Theory and Applications. Neural Computation, 4, 448-472.
6Guyon, I., An Introduction to Variable and Feature Selection. Journal of Machine Learning Research, 2003,3:1157～1182.
7Yang Y M., Pedersen J O. A Comparative Study on Feature Selection in Text Categorization. Proceedings of theFourteenth International Conference on Machine Learning Pages: 412～420.
8Eyheramendy S, Lewis D., etc. On the Naive Bayes Model for Text Categorization. In Proceedings of Artificial Intelligence & Statistics 2003. Key West, FL.
9范明孟小峰等译.数据挖掘-概念与技术[M].机械工业出版社,2001..

共引文献20

1伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
2刘红翼.一种垃圾邮件过滤器的设计与实现[J].广西科学院学报,2005,21(4):258-259.
3赵治国,谭敏生,李志敏.基于改进贝叶斯的垃圾邮件过滤算法综述[J].南华大学学报（自然科学版）,2006,20(1):33-38. 被引量：4
4吴玉,陆晓君.基于进程行为的入侵检测系统的设计[J].计算机工程,2007,33(3):160-162. 被引量：3
5梁莉,郭科,徐松浦.基于小波神经网络的邮件分类算法研究[J].成都理工大学学报（自然科学版）,2007,34(5):581-584. 被引量：5
6吴光生,汪世杰.垃圾邮件的PMBL模型源头防御系统[J].九江学院学报（社会科学版）,2007,26(3):27-29.
7郑亚莉,王康.基于概率神经网络的垃圾邮件分类[J].计算机与现代化,2008(1):8-10. 被引量：9
8李玉玲,程云志.多贝叶斯网络分类器集成模型研究[J].微电子学与计算机,2008,25(2):54-57.
9孙振辉.贝叶斯理论在反垃圾邮件中的应用研究[J].科技广场,2009(3):74-75.
10陈伟,解争龙.入侵检测系统中贝叶斯分类器的改进[J].绵阳师范学院学报,2009,28(8):82-84.

同被引文献34

1李惠娟,高峰,管晓宏,黄亮.基于贝叶斯神经网络的垃圾邮件过滤方法[J].微电子学与计算机,2005,22(4):107-111. 被引量：21
2张红梅,张慧档,田耕.面包烘焙品质检验中纹理特征的提取[J].计算机工程与设计,2005,26(9):2451-2452. 被引量：10
3李翔鹰,叶枫.一种基于多贝叶斯算法的垃圾邮件过滤方法[J].计算机工程与应用,2006,42(31):114-116. 被引量：7
4张文修吴伟业梁吉业等.粗糙集理论与方法[M].北京：科学出版社,2002..
5Saharni M,Dumais S,Heckerman D,et al.A Bayesian approach to filtering junk e-mail[C]//Proceeding of AAAI Workshop on Ixaming for Text Categorization, 1998 : 55-62.
6Pawlak Z.Rough set theory and its applications to data analysis[J].Cybernetics and. Systems, 1998,29. 661-688.
7Fayyad U M, Irani K B.Muhi-interval discrerization of contirmousvalued attributes for classification learning[C]//Proceedings of the 13th International Joint Conference on Artificial Intelligence' Morgan Kanfmann, 1994:1022-1027.
8Rosetta.http://www.idi.ntnu.no/-aleks/thesis/.
9Spam E-mail database.http://www.ics.uci.edu/-mlearn/MLRepository. html.
10Vapnik V N. The nature of statistical leaning theory[M]. New York: Springer- Verlag, 1995.

引证文献5

1邓春燕,陶多秀,吕跃进.粗糙集与决策树在电子邮件分类与过滤中的应用[J].计算机工程与应用,2009,45(16):138-140. 被引量：4
2张红梅,丁伟,范艳峰.一种改进的层次聚类算法在面包品质检验中的应用[J].微电子学与计算机,2009,26(7):187-190. 被引量：3
3常青.基于词条时序的朴素贝叶斯垃圾邮件过滤方法[J].微电子学与计算机,2010,27(5):212-216. 被引量：2
4陈琳,邓万宇.差分进化贝叶斯分类器[J].微处理机,2010,31(4):78-82.
5杨双.基于机器学习技术的骚扰电话识别技术研究[J].电信工程技术与标准化,2024,37(4):75-81.

二级引证文献9

1施聪莺,徐朝军,杨晓江.基于规则和Rocchio分类器的学前综合教育资源分类[J].现代图书情报技术,2009(7):75-79. 被引量：1
2李萍,段富.基于相似依赖度的属性加权决策树算法[J].沈阳师范大学学报（自然科学版）,2011,29(2):230-232. 被引量：2
3黄珏,陈兵,廖常武.改进的人工免疫垃圾邮件过滤算法[J].计算机工程与应用,2011,47(30):72-74. 被引量：2
4范仕伦,薛天俊,夏玮.基于贝叶斯算法和费舍尔算法的垃圾邮件过滤系统设计与实现[J].信息网络安全,2012(9):18-22. 被引量：11
5刘艳丽,孟朝晖.层次聚类在细胞图像分析中的应用[J].计算机应用与软件,2013,30(5):287-290. 被引量：2
6汪贤锋.基于内容的二次聚类监控视频摘要生成分析[J].内蒙古财经大学学报,2013,11(5):146-148.
7黄国伟,刘云霞,陈志.基于用户反馈的个性化垃圾邮件过滤方法[J].电子设计工程,2014,22(15):53-56. 被引量：2
8谢妞妞.决策树算法综述[J].软件导刊,2015,14(11):63-65. 被引量：23
9李云霞,姚建国,万定生,赵群.一种水文时间序列异常模式检测方法研究[J].计算机技术与发展,2019,29(7):159-163. 被引量：2

1李岩.产品化演进[J].信息网络,2010(4):66-68.
2陈肇平,黎壤.使用Visual Basic for Application对Microsoft Word进行二次开发[J].电脑知识与技术（认证考试）,2004(02M):90-93. 被引量：3
3廖隽婷,施荣华.浅谈增量学习支持向量机图像识别算法的设计[J].计算机光盘软件与应用,2011(18):171-171.
4黎明,严超华,刘高航.进化策略求解Hopfield神经网络[J].中国图象图形学报（A辑）,2000,5(7):603-608.
5周婕.协议分析在入侵检测系统中的应用[J].电讯技术,2003,43(6):137-140. 被引量：5
6李敏.数据挖掘在辅助决策系统的应用研究[J].微计算机信息,2004,20(5):96-97. 被引量：36
7王庆虹.基于内容的图像检索技术研究[J].中国科技信息,2014(11):115-116. 被引量：1
82008 互联网走向全面整合[J].中国新通信,2008,10(4):44-44.
9史瑞环,吴斌,李务军,范风兵.一种改进的融合帧差法的ViBe算法[J].微型机与应用,2016,35(4):44-45. 被引量：1
10徐培,赵雪专,唐红强,占伟鹏.基于两阶段投票的小样本目标检测方法[J].计算机应用,2014,34(4):1126-1129. 被引量：3

微电子学与计算机

2007年第8期

浏览历史

内容加载中请稍等...

基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法被引量：5

参考文献5

二级参考文献9

共引文献20

同被引文献34

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法 被引量：5

参考文献5

二级参考文献9

共引文献20

同被引文献34

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法被引量：5