基于贝叶斯算法的垃圾邮件过滤技术被引量：9

Research on Bayes-Based Spam Filtering

下载PDF

导出

摘要对基于朴素贝叶斯算法的垃圾邮件过滤技术进行了研究分析和实验验证.介绍了向量空间模型(VSM)方法以及特征向量抽取方法,推导和研究了引入“特征之间互相独立”假设的朴素贝叶斯分类算法.采用K次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归属判断,以正确率和召回率为指标给出了实验结果. E-mail communications between people have been greatly affected by spare problem. In this paper, Naive Bayesian categorization algorithm is deduced and analyzed as well as its application and validation in the experiments of spam filtering. Firstly, the paper introduces Text categorization technique, including commonly used vector space model to represent the text and feature extraction methods, such as information gain and document frequency based method. What is more, the behavior of information gain method in the experiments is explained. Secondly, it deduces and analyzes Naive Bayesian with the premise of independence within features. Then, it uses mails collected before as corpus, utilize k-fold cross-validation, and applys the naive Bayesian in experiments. Based on probabilities and that of terms belonging to some category which are gained through training corpus, the paper categorizes mails from test corpus respectively. Finally, experimental result is shown by two indicators, precision and recall.

作者林巧民许建真许棣华王诚

机构地区南京邮电大学信息网络中心南京邮电大学信息工程系

出处《南京师范大学学报（工程技术版）》 CAS 2005年第4期61-64,共4页 Journal of Nanjing Normal University(Engineering and Technology Edition)

基金江苏省自然科学基金资助项目(01KJD520005)

关键词垃圾邮件文本分类向量空间模型贝叶斯算法 spam, text categorization,vector space model, Bayes algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1许洪波.文本挖掘与机器学习.信息技术快报,2005,(2):1-14.
2[2]Androutsopoulos I, Paliouras G, Michelakis E. Learning to Filter Unsolicited Commercial E-Mail [R]. Technical Report 2004/2, NCSR "Demokritos", 2004.
3[3]McCallum, Andrew Kachites. Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering [EB/OL]. http://www.cs.cmu.edu/～mccallum/bow, 1996.
4[4]Androutsopoulos I, Koutsias J, Chandrinos K V, et al. An evaluation of naive bayesian anti-spam filtering[C]// Potamias G, Moustakis V, Someren Van M, et al. Proceedings of the Workshop on Machine Learning in the New Information Age. Barcelona: 11th European Conference on Machine Learning (ECML 2000), 2000: 9-17.
5[5]Sahami M. Using Machine Learning to Improve Information Access [EB/OL]. http://ai.stanford.edu/～sahami/bio.html, 1998.
6[6]Sahami M, Dumais S, Heckerman D, et al. A bayesian approach to filtering junk e-mail[C]// Sahami Mehran, Craven Mark, Joachims Thorsten, et al. Learning for Text Categorization: Papers from the 1998 Workshop.[s.l.]: AAAI, 1998.
7[7]Friedman N, Geiger D, Goldszmidt M. Bayesian network classifiers [J]. Machine Learning, 1997, 29:131-163.

共引文献8

1杨文忠,章兢,彭曙蓉.基于近似网页聚类的Web文本数据挖掘技术[J].长沙交通学院学报,2006,22(1):72-75. 被引量：1
2常浩,陈莉.基于摘要的web内容挖掘研究[J].微计算机信息,2006,22(08X):302-304. 被引量：1
3高永平,钱进.文本挖掘在科技监测中的运用[J].科技进步与对策,2008,25(2):42-45. 被引量：3
4程志,黄荣怀.文本挖掘及其教育应用[J].现代远距离教育,2008(2):71-73. 被引量：6
5张翔,周明全,耿国华,侯凡.面向中文文本分类的C4.5Bagging算法研究[J].计算机工程与应用,2009,45(26):135-137. 被引量：2
6张翔,周明全,李智杰,董丽丽.基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计,2010,31(14):3309-3312. 被引量：11
7郝智勇,贺明科,谭文堂,张健东.基于多维标度法的专利文本可视化聚类研究[J].计算机应用研究,2010,27(12):4608-4611. 被引量：13
8胡幸杰.基于向量空间的案件分析[J].电脑知识与技术,2015,0(2):63-65.

同被引文献28

1陈光英,孙东红.实现基于SpamAssassin的中文垃圾邮件过滤网关[J].中国教育网络,2005(11):46-47. 被引量：5
2陈蔚,庄毅.基于多Agent的分布式入侵检测系统设计与实现[J].计算机工程与应用,2004,40(29):139-141. 被引量：6
3刘滔.基于贝叶斯算法的未知病毒检测的研究[J].湖南理工学院学报（自然科学版）,2005,18(1):18-22. 被引量：3
4柳虹.基于多Agent的Web-mail系统模型的研究[J].计算机应用研究,2005,22(5):90-91. 被引量：2
5李闻天.基于贝叶斯过滤算法的反垃圾邮件策略[J].昆明理工大学学报（理工版）,2005,30(3):68-71. 被引量：5
6王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
7刘明川,彭长生.基于贝叶斯概率模型的邮件过滤算法探讨[J].重庆邮电学院学报（自然科学版）,2005,17(5):636-639. 被引量：10
8南丽丽.垃圾邮件过滤方法浅析[J].运城学院学报,2005,23(5):60-61. 被引量：3
9刘广涛,舒继武,郑纬民.可扩展的分布式邮件系统的研究与实现[J].小型微型计算机系统,2005,26(12):2096-2099. 被引量：1
10陈治平,王雷.基于自学习K近邻的垃圾邮件过滤算法[J].计算机应用,2005,25(B12):7-8. 被引量：15

引证文献9

1赵向军,路梅.垃圾邮件过滤算法研究[J].徐州师范大学学报（自然科学版）,2006,24(4):52-55. 被引量：1
2白东燕.改进的贝叶斯算法在反垃圾邮件中的应用[J].电脑知识与技术,2007(4):154-155. 被引量：3
3程卫华,尤晋元.基于内容过滤的反垃圾邮件系统的设计与实现[J].安徽大学学报（自然科学版）,2007,31(3):30-33. 被引量：13
4陆年年,宋顺林.基于Multi-agent的多用户协作垃圾邮件过滤系统的研究[J].计算机工程与设计,2007,28(14):3523-3525. 被引量：2
5陆青梅,尹四清.基于数据挖掘的邮件分类识别研究[J].现代计算机,2007,13(8):27-28.
6沈文华,谭文安.一个实用校园网邮件系统的设计与实现[J].中国高新技术企业,2008(5):114-115.
7曾果.基于K近邻的垃圾邮件过滤模型[J].铜仁学院学报,2008,2(5):118-119.
8马荣飞.基于内容过滤的反垃圾邮件系统的设计与实现[J].计算机应用与软件,2009,26(5):262-265. 被引量：3
9寇晓淮,程华.基于主题模型的垃圾邮件过滤系统的设计与实现[J].电信科学,2017,33(11):73-82. 被引量：3

二级引证文献24

1张跃旭.一种垃圾邮件过滤系统的研究与实现[J].辽东学院学报（自然科学版）,2009,16(2):149-151.
2欧阳峥峥,丰洪才.朴素贝叶斯算法在反垃圾邮件系统中的应用[J].计算机安全,2008(4):32-33. 被引量：1
3孔维华,刘继承,陈娟.基于优化Naive Bayes的垃圾邮件过滤[J].计算机安全,2009(1):18-20. 被引量：1
4余承依.基于贝叶斯增量分类的邮件过滤研究[J].科学技术与工程,2009,9(9):2356-2361. 被引量：1
5余承依.基于贝叶斯最小风险的垃圾邮件过滤技术[J].计算机时代,2009(5):53-55.
6翟军昌,秦玉平,王春立.基于多Agent的垃圾邮件过滤系统的研究[J].长春理工大学学报（自然科学版）,2009,32(2):268-272. 被引量：1
7许镇,王洪国,冉玉梅,杨玉会.基于判别模型的垃圾邮件过滤方法[J].计算机技术与发展,2010,20(1):181-184.
8包理群,李祥林.改进的K-均值聚类邮件过滤算法[J].兰州工业高等专科学校学报,2010,17(2):5-9. 被引量：1
9赵文清,张胜龙,牛东晓.多Agent在变压器故障诊断中的研究[J].电力自动化设备,2011,31(1):23-27. 被引量：13
10陈俊,刘遵雄.基于非负矩阵分解特征提取的垃圾邮件过滤[J].华东交通大学学报,2010,27(6):75-79. 被引量：2

1谭同德,秦鑫,赵新灿,张关锋.基于场景图的并行渲染系统研究与实现[J].郑州大学学报（工学版）,2009,30(4):103-107. 被引量：1
2庄家俊,刘琼.面向辅助驾驶的夜间行人检测方法[J].华南理工大学学报（自然科学版）,2012,40(8):56-62. 被引量：5
3汪伟,范秀敏,武殿梁.虚拟现实应用中的并行渲染技术[J].计算机工程,2009,35(3):282-284. 被引量：10
4季华,陈福民.带负载平衡策略的PC sort-first并行渲染系统[J].计算机仿真,2005,22(11):209-214. 被引量：5
5李文强,陆应通.基于绘制时间的加权动态负载均衡算法[J].现代计算机（中旬刊）,2017(3):45-50. 被引量：1
6胡永兵,高学金,李亚芬,齐咏生,王普.基于仿射传播聚类子集主元分析的间歇过程监测方法[J].化工学报,2016,67(5):1989-1997. 被引量：5
7黄晓生,顾景文.一种Sort-first构架的基于包围球的归属判断策略[J].计算机应用与软件,2007,24(10):67-69. 被引量：1
8杨然,李坤,涂志刚,陈荣元,秦前清.基于Yamaguchi分解模型的全极化SAR图像分类[J].计算机工程与应用,2009,45(36):5-7. 被引量：9
9祝琴,陈华.具有稀疏特征的对象—属性子空间边缘重叠区域归属算法[J].计算机应用研究,2013,30(1):99-102.
10刘真,石教英,彭浩宇,秦爱红.基于PC集群并行图形绘制系统综述[J].系统仿真学报,2006,18(z1):70-72. 被引量：11

南京师范大学学报（工程技术版）

2005年第4期

浏览历史

内容加载中请稍等...

基于贝叶斯算法的垃圾邮件过滤技术被引量：9

参考文献7

共引文献8

同被引文献28

引证文献9

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于贝叶斯算法的垃圾邮件过滤技术 被引量：9

参考文献7

共引文献8

同被引文献28

引证文献9

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于贝叶斯算法的垃圾邮件过滤技术被引量：9