期刊文献+

基于内容的垃圾电子邮件过滤技术研究 被引量:1

Research on Technology of Spam Filtering Based on Contents
下载PDF
导出
摘要 提出一种过滤垃圾电子邮件的方法.通过tf-idf特征提取方法提取邮件的词汇特征,采用χ2特征选择方法选取有效的特征,并抽取几个具有明显区分能力的结构方面的特征,利用支持向量机算法对垃圾电子邮件进行自动过滤.对中科院中文垃圾邮件语料库(Cspam)的实验,识别正确率达到82%以上,另外,tf-idf词汇特征和结构特征搭配使用可以提高分类的正确率,表明此种方法能提高垃圾电子邮件过滤的准确性. One method to filter spam was proposed. The tf-idf method was used to extract e-mail's lexical features. x^2 method was used to select effective features. The several structural features were extracted which could discriminate spain obviously. The support vector machine algorithm was adopted to filter spare automatically. By experimenting on dataset of Cspam, the evaluation value F is above 82%, the tf-idf lexical features and structural features combined can improve the classification accuracy, which proves that the method can approve the accuracy of filtering spam.
出处 《天津科技大学学报》 CAS 2010年第2期72-75,共4页 Journal of Tianjin University of Science & Technology
关键词 内容 垃圾电子邮件过滤 TF-IDF 结构特征 支持向量机 contents spare filtering tf-idf structural features support vector machine
  • 相关文献

参考文献9

二级参考文献51

  • 1张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量:98
  • 2丁文斌,李斌,罗浩.基于改进贝叶斯的垃圾邮件过滤系统设计与实现[J].计算机工程与应用,2005,41(18):127-130. 被引量:14
  • 3乔玉龙,潘正祥,孙圣和.一种改进的快速k-近邻分类算法[J].电子学报,2005,33(6):1146-1149. 被引量:25
  • 4上海艾瑞市场咨询公司.中国反垃圾邮件市场研究报告[R].,2003,11..
  • 5NelloCristianini JohnShawe-Taylor 李国正 王猛 曾华军译.支持向量机导论[M].北京:电子工业出版社,2004..
  • 6史忠植.高级人工智能[M].北京:科学出版社,1997..
  • 7边肇祺 张学工.模式识别[M].北京:清华大学出版社,1999.282-283.
  • 8Robertson S E.The probability ranking principle in IR,readings in information retrieval[M].[S.l.]:Morgan Kaufmann,1997:281-286.
  • 9Salton.Automatic text processing:the transformation,analysis and retrieval of information by computer[M].[S.l.]:Addison-Wesley Inc,1989.
  • 10Witten I H,Frank E.Data mining:practical machine learning tools and techniques with Java implementations[M].[S.l.]:Morgan Kaufmann,2000.

共引文献25

同被引文献7

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部