基于朴素贝叶斯模型的邮件过滤技术被引量：6

SPAM Filtering with Naive Bayes

下载PDF

导出

摘要针对朴素贝叶斯算法应用于反垃圾邮件过滤时,其有效性十分依赖于对邮件内容的有效建模,而邮件内容建模方面研究尚不成熟限制了贝叶斯方法在垃圾邮件过滤中的性能.采用了三种概率分布对邮件内容进行建模,据此提出了3种概率分布下的朴素贝叶斯算法.为了提高训练效率,算法采用了一种增量式的垃圾邮件过滤方法.在trec05p-1、trec06p两个公开数据集上对这3种贝叶斯算法进行了实验对比,分析出三种贝叶斯分布的适用范围.从不同分布的邮件内容建模角度出发,为过滤垃圾邮件的方法选择提供了有效依据. Abstract：The effectiveness of Naive Bayes in spare filtering depends on the modelling of the mail contents. However, mail content modelling is not mature, which limits the performance of Bayesian method in spam filtering. This paper presents three kinds of probability distribution to model email content, and proposes three Na＇gve Bayes algorithms based on different probability distributions. To improve training efficiency, the incremental training algo- rithm is utilized in the experimental procedure. Experiments on trec06p and trec05p - 1 show that the three pro- posed algorithms can achieve good performance in different sceneries. Such a finding also provides effective basis for the selection of the filtering methods.

作者杨赫孙广路何勇军

机构地区哈尔滨理工大学计算机科学与技术学院哈尔滨理工大学信息安全与智能技术研究中心

出处《哈尔滨理工大学学报》 CAS 2014年第1期49-53,共5页 Journal of Harbin University of Science and Technology

基金黑龙江省普通高等学校新世纪优秀人才培养计划(1155-ncet-008) 教育部人文社科项目(11YJC740048) 黑龙江省教育科学规划课题(GBC1211062) 黑龙江省高等教育教学改革项目(2011-NP33)

关键词邮件过滤朴素贝叶斯机器学习 e-mail fiherring naive bayes machine learning

分类号 TM391.1 [电气工程—电机]

引文网络
相关文献

参考文献20

1王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
2刘海韬,阳洁.云计算平台下一种新型反垃圾邮件系统的研究[J].中南大学学报（自然科学版）,2013,44(5):1869-1874. 被引量：4
3SUN Guanglu, SUN Hongyue, MA Yingcai, et al. Spam Filte- ring: Online na'l've Bayes Based on TONE[ C ]//ZTE Communica- tions, 2013:51 -54.
4CORMACK G, LYNAM T. TREC 2005 Spam Track Overview [ C ]//Proceedings of the Fourteenth text Retrieval Conference Proceedings. US : Text REtrieval Conference, 2005 : 123 - 130.
5CORMACK G. TREC 2006 Spam Track Overview [ C ]//Proceed- ings of the Fifteenth Text Retrieval Conference Proceedings, US: Text REtrieval Conference, 2006 : 117 - 128.
6SCULLEY D. Online Active Learning Methods for Fast Label-Effi- cient Spam Filtering [ C ]//CEAS, 2007 : 1 - 4.
7孙广路,齐浩亮.基于在线排序逻辑回归的垃圾邮件过滤[J].清华大学学报（自然科学版）,2013,53(5):734-740. 被引量：11
8SCULLEY D. Practical Learning From One-sided Feedback [ C ]// Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2007:609 -618.
9CHEN C, TIAN Y, ZHANG C. Spam Filtering with Several Novel Bayesian Classifiers [ C ]//Pattern Recognition, 2008, ICPR, 19th Intemational Conference on IEEE, 2008:1 -4.
10全亮亮,吴卫东.基于支持向量机和贝叶斯分类的异常检测模型[J].计算机应用,2012,32(6):1632-1635. 被引量：7

二级参考文献87

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2卿斯汉,蒋建春,马恒太,文伟平,刘雪飞.入侵检测技术研究综述[J].通信学报,2004,25(7):19-29. 被引量：234
3单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
4张泽明,罗文坚,王煦法.一种基于人工免疫的多层垃圾邮件过滤算法[J].电子学报,2006,34(9):1616-1620. 被引量：16
5李翔鹰,叶枫.一种基于多贝叶斯算法的垃圾邮件过滤方法[J].计算机工程与应用,2006,42(31):114-116. 被引量：7
6张文良,黄亚楼,倪维健.基于差分贡献的垃圾邮件过滤特征选择方法[J].计算机工程,2007,33(8):80-82. 被引量：10
7Zhou Jianying, Chin Wee-Yung, Roman Rodrigo, et al.. An effective multi-layered defense framework against spare [J]. Information Security Technical Report, 2007,12 (3): 179-185.
8Deepak P, Parameswaran S. Spam Filtering using Spam Mail Communities [C] //Proceedings IEEE SAINT, 2005: 377-383.
9Wittern I H, Frank E. Data mining practical machine learning tools and techniques [M]. 2nd edition. San Francisco, CA: Morgan KaufmannPublisher, 2005: 88-97.
10Symantec Intelligence Report[EB/OL]. (2011-07) [2011-07-22]. http://www, symantec, com/contenUen/us/enterprise/other_ re- sources/b-intelligence_report_07- 2011. en-us, pdf.

共引文献161

1张登科,易秀双,王兴伟.一种基于相似度测量的新垃圾邮件发现机制[J].中国海洋大学学报（自然科学版）,2008,38(S1):147-150. 被引量：1
2刘洋,曹津宁,刘昊,秦玉平.基于贝叶斯方法的垃圾邮件处理模型研究[J].长春工程学院学报（自然科学版）,2007,8(3):75-76.
3张平.追求[J].就业与保障,2005(11):1-1.
4王金宝.基于增量学习和阈值优化的自适应信息过滤研究[J].计算机应用,2006,26(5):1099-1101.
5庄锁法,陈兴梅.客户端防范垃圾邮件策略的探讨[J].电脑知识与技术,2006(8):172-172.
6张洪军,段会川.基于支持向量机的电子邮件分类模型设计[J].信息技术与信息化,2006(5):89-90. 被引量：1
7徐卫.一种垃圾邮件过滤网关的设计[J].电脑知识与技术,2006(12):64-65.
8黄鹏鹤.垃圾邮件内容过滤测试平台的设计与实现[J].仪器仪表用户,2007,14(1):93-94.
9陈超,陈盛雄.一种基于SMO算法的垃圾邮件过滤系统设计[J].福建电脑,2007,23(3):131-132. 被引量：1
10张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(4):75-78. 被引量：14

同被引文献20

1王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
2祁文青.一种改进的中文分词算法[J].黄石理工学院学报,2007,23(4):23-25. 被引量：5
3周文霞.现代文本分类技术研究[J].武警学院学报,2007,23(12):93-96. 被引量：4
4张璐,王景中.基于改进贝叶斯算法的文本广告邮件过滤[J].网络安全技术与应用,2009(1):55-57. 被引量：1
5王祖辉,姜维.基于支持向量机的垃圾邮件过滤方法[J].计算机工程,2009,35(13):188-189. 被引量：7
6别玉玉,刘飞,张书伟,毕方明.贝叶斯垃圾邮件过滤算法的改进与实现[J].微计算机信息,2011,27(3):167-168. 被引量：3
7金彩琴,裘国永.对垃圾邮件过滤技术的问题研究[J].计算机技术与发展,2011,21(9):225-228. 被引量：3
8林伟.基于贝叶斯分类的邮件过滤系统研究与实现[J].陕西理工学院学报（自然科学版）,2012,28(4):36-40. 被引量：1
9林江豪,阳爱民,周咏梅,陈锦,蔡泽键.一种基于朴素贝叶斯的微博情感分类[J].计算机工程与科学,2012,34(9):160-165. 被引量：44
10王超学,潘正茂,董丽丽,马春森,张星.基于改进SMOTE的非平衡数据集分类研究[J].计算机工程与应用,2013,49(2):184-187. 被引量：19

引证文献6

1郭淑敏,朱蓉,王晶晶,胡胜,陈佳辉.基于贝叶斯算法的垃圾邮件过滤的方法研究[J].电脑知识与技术,2017,13(5):171-173. 被引量：2
2汪志勇,刘红梅.贝叶斯垃圾邮件过滤系统的设计与实现[J].内蒙古农业大学学报（自然科学版）,2017,38(3):82-86.
3王聪,高广阔,王亮.基于个体投资者情感量化的上证指数预测检验[J].经济研究导刊,2018(26):159-164.
4陈凯,黄英来,高文韬,赵鹏.一种基于属性加权补集的朴素贝叶斯文本分类算法[J].哈尔滨理工大学学报,2018,23(4):69-74. 被引量：14
5李腾飞.基于多项式朴素贝叶斯算法的垃圾邮件过滤器的设计与实现[J].科技资讯,2018,16(33):1-2. 被引量：3
6王芳.基于卷积神经网络的英文邮件分类[J].太原科技大学学报,2021,42(1):13-19. 被引量：1

二级引证文献20

1丁川芸,兰全祥.基于AC自动机和贝叶斯方法的垃圾内容识别[J].黑龙江工业学院学报（综合版）,2019,19(2):36-39. 被引量：1
2孙昊祥,陈长兴,迟文升,凌云飞.协作感知门限自适应优化[J].科技导报,2019,37(13):76-82. 被引量：3
3李钰曼,陈志泊,许福.基于KACC模型的文本分类研究[J].数据分析与知识发现,2019,3(10):89-97. 被引量：4
4许甜华,吴明礼.一种基于TF-IDF的朴素贝叶斯算法改进[J].计算机技术与发展,2020,30(2):75-79. 被引量：17
5孟鑫淼.基于大数据挖掘技术的文本分类研究[J].现代电子技术,2020,43(17):126-129. 被引量：6
6邱宁佳,贺金彪,薛丽娇,王鹏,赵建平.融合语义特征的加权朴素贝叶斯分类算法[J].计算机工程与设计,2020,41(9):2523-2529. 被引量：6
7陈鑫龙,陈志翔,周小方.基于机器学习的Modbus_TCP通信异常检测方法研究[J].信息技术与网络安全,2020,39(10):55-60. 被引量：3
8黄国鑫,朱守信,王夏晖,田梓,季国华,卢然,崔轩,陈茜.基于自然语言处理和机器学习的疑似土壤污染企业识别[J].环境工程学报,2020,14(11):3234-3242. 被引量：8
9王维刚,初秀民,蒋仲廉,刘磊.基于加权朴素贝叶斯的船舶轨迹分类算法[J].中国航海,2020,43(4):20-26. 被引量：8
10张晨跃,刘黎志,邓开巍,刘杰.基于MapReduce的朴素贝叶斯算法文本分类方法[J].武汉工程大学学报,2021,43(1):102-105. 被引量：6

1郑建柏.基于朴素贝叶斯和支持向量机的短期负荷预测[J].电力安全技术,2016,18(12):40-42.
2朱亚琼,罗伟.一种基于动态调度的数据挖掘并行算法[J].现代电子技术,2016,39(15):156-159. 被引量：6
3杨超,张霖.数据挖掘技术在电力设备故障诊断中的应用[J].电气开关,2016,54(2):83-86. 被引量：10
4齐建平,杨春静,赵海成.基于神经网络的高压直流输电线路故障测距[J].电力科学与工程,2014,30(3):45-49. 被引量：8
5王志波.双层垃圾邮件过滤模型研究[J].郑州轻工业学院学报（自然科学版）,2010,25(3):22-25. 被引量：1
6汪梅.电缆故障定位系统中的参数估计[J].西安建筑科技大学学报（自然科学版）,2004,36(2):183-185.
7高俊山,郎平,孙真和.基于改进粗糙集方法的电力系统数据挖掘[J].自动化技术与应用,2009,28(3):15-17. 被引量：2
8薛阳,江天博,张晓宇.基于视觉的变电站巡检机器人导航线提取方法[J].广东电力,2015,28(12):13-18. 被引量：6
9安伦,郭献崇,刘凤云.忆阻神经网络在智能电网监控系统中的应用[J].电源技术,2014,38(9):1747-1748.
10李万清.基于朴素贝叶斯方法和权值分析方法的电机轴承故障诊断[J].机电工程,2012,29(4):390-393. 被引量：7

哈尔滨理工大学学报

2014年第1期

浏览历史

内容加载中请稍等...

基于朴素贝叶斯模型的邮件过滤技术被引量：6

参考文献20

二级参考文献87

共引文献161

同被引文献20

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯模型的邮件过滤技术 被引量：6

参考文献20

二级参考文献87

共引文献161

同被引文献20

引证文献6

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于朴素贝叶斯模型的邮件过滤技术被引量：6