期刊文献+

关于贝叶斯推理的垃圾邮件特征选择评估函数 被引量:5

Feature selection approach based on Bayes reasoning in anti-spam classifier
下载PDF
导出
摘要 在各种基于机器学习的垃圾邮件过滤系统中,特征选择是基础且非常关键的一个环节,它对整个系统的性能和效率都有直接的影响。通过对垃圾邮件特点的分析,提出了一种基于贝叶斯推理的特征选择评估函数方法。新方法运算开销较小,且能够区分出不同的特征词在体现垃圾邮件特征时所存在的差异性,因而在进行特征选择时较其它常用方法更具针对性,非常利于提高过滤系统的准确性和运行效率。 FS(Feature Selection) is a basal but crucial step within anti-spam classifiers based on ML(Machine Learning) algorithms.Nowadays FS based on Mutual Information(MI) is widely used.In this paper,by analyzing characteristic of spam emails,a new FS approach based on Bayes reasoning is presented.Experiments show that it can achieve much higher performance and efficiency than MI approach.
出处 《计算机工程与应用》 CSCD 北大核心 2008年第33期105-107,137,共4页 Computer Engineering and Applications
关键词 反垃圾邮件 机器学习 特征选择 贝叶斯推理 anti-spam machine learning Bayes reasoning feature selection
  • 相关文献

参考文献5

  • 1Tan Pang-Ning,Steinbach M,Kumar V.数据挖掘导论[M].范明,范宏建译.北京:人民邮电出版社,2006.
  • 2Androutsopoulos I, Koutsias J, Chandrinos K V, et al.An evaluation of naive bayesian anti-spam fihering[C]//Proceedings of the Workshop on Machine Learning in the New Information Age, 11th European Conference on Machine Learning.Barcelona,Spain,2000:9-17.
  • 3Zorkadis V,Karras D A,Panayotou M.Efficient information theoretic strategies for classifier combination//feature extraction and performance evaluation in improving false positives and false nega- tives for spam e-mail filtering[J].Neural Networks,2005,18:799-807.
  • 4Lai Chih-Chin.An empirical study of three machine learning methods for spam fiherlng[J].Knowledge-Based System, doi : 10.1016/j. knosys.
  • 5Stone T.Parameterization of naive bayes for spam fihering[R/OL].University of Colorado at Boulder,2003.http://trevorstone.org/school/ spamfiltering.pdf.

共引文献29

同被引文献40

  • 1龚伟.基于Bayes的一种改良垃圾邮件过滤模型[J].微计算机信息,2007,23(3):104-106. 被引量:2
  • 2李闻天.基于贝叶斯过滤算法的反垃圾邮件策略[J].昆明理工大学学报(理工版),2005,30(3):68-71. 被引量:5
  • 3王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量:129
  • 4刘明传 彭常生.基于贝叶斯概率统计的垃圾邮件过滤方法研究.重庆邮电学院学报(自然科学报),2005,(10):11-13.
  • 5中国反垃圾邮件联盟.垃圾邮件称雄哥本哈根气候变化峰会[DB/OL].http://www.anti-spam.org.cn/AID/813,2009-12-15.
  • 6顾小婴.浅议电子邮件-一种书面式"口语"[J],科技信息[J].学术研究,2008,(25):169-170.
  • 7Liu Bing.Web数据挖掘[M].余勇,薛贵荣,韩定一译.北京:清华大学出版社,2009.
  • 8[加] Han Jiawei,Kamber Michael.数据挖掘与概念技术(第2版)[M].范明,孟晓峰译.北京:机械工业出版社,2007.
  • 9中国教育和科研计算机网紧急响应组.CCERT中文邮件数据集CSDCE[DB/OL].2010-05-15.http://www.ccert.edu.cn/spam/sa/datasets.htm#4.
  • 10Sanchez F,DUAN Zhen-hai,DONG Ying-fei. Understanding forgery properties of spam delivery paths [C]//CEAS 2010 Seventh annual Collaboration, Electronic messaging,AntiA- buse and Spare Conference (CEAS 2010),Redmond,Was- hington, 2010.

引证文献5

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部