基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法被引量：10

A Bayesian spam filtering algorithm based on polynomial model and low risk

下载PDF

导出

摘要针对现有贝叶斯算法应用于垃圾邮件过滤时,贝叶斯贝努利模型对邮件文本特征向量进行处理不能区分特征向量的重要性,导致邮件分类召回率低,同时还存在合法邮件被误判的风险的问题,采用贝叶斯多项式模型对特征向量进行加权处理来区分特征向量的重要性;然后,采用低风险策略来降低合法邮件被误判的风险,提出基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法。实验结果表明:对于不同数量的特征项,该算法能够有效提高邮件分类的正确率与召回率,降低合法邮件被误判的风险,并在过滤文本字符数量较大的邮件时,具有性能平稳、波动小的特点。 Existing Bayesian algorithms use Bernoulli model to process text features in the application to spam filtering,which does not distinguish the varying importance of various features,leading to a low recall rate in mail classification.In addition,existing Bayesian algorithms also have the risk of mis-judging legitimate mail.A Bayesian spam filtering algorithm was proposed based on the polynomial model and the low risk.The algorithm measures the weight of text features to distinguish their importance in mail classification,and then compares the probabilities that a mail respectively fall into the spam class or the normal mail class.The results show that this algorithm effectively improves the recall and precision rate of mail classification,and reduces the risk of mis-judging legitimate mail.Additionally,the algorithm is of smooth and little fluctuation when filtering mails with a large number of text characters.

作者梁志文杨金民李元旗

机构地区湖南大学信息科学与工程学院

出处《中南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2013年第7期2787-2792,共6页 Journal of Central South University:Science and Technology

基金国家自然科学基金资助项目(61272401 61133005 61173167 61070194) 国家高技术研究发展计划("973"计划)子项目(2012CB315801)

关键词邮件过滤特征提取概率度量多项式模型风险评估 mail filtering feature extraction probability measurement polynomial model risk assessment

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1Meehan S, Susan D, David H et al. A Bayesian approach to filtering Junk e-mail[J]. AAAI Workshop, 1998, 4(13): 55-62.
2Kma C, H1 C, Ht N. Bayesian online classifiers for text classification and filtering[C]// Proceedings of 25th ACM International Conference on Research and Development in Information Retrieval. New York: ACM, 2002: 97-104.
3Sudhakar V, Rao C M, Somayajula S P K. Bayesian spam filtering using statistical data compression[J]. International Journal of Computer Science and Information Security, 2011, 9(10): 157-159.
4LUO Qin, LIU Bing, YAN Junhua et al. Research of a spam filtering algorithm based on naive Bayes and AIS[C]// 2010 International Conference on Computational and Information Sciences. Washington: IEEE, 2010: 152-155.
5苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
6Thiago S S, Walmir M C. A review of machine learning approaches to Sparn filtering[Y]. Expert Systems with Applications, 2009, 36(7): 10206-10222.
7Lin Y P, Chen Z P, Yang X L, et al. Mail filtering based on the risk minimization Bayesian algorithm[C]//The 6th World Multi conference on Science Citation Index (SCI 2002). Proceedings-Industrial System and Engineering E, 2002, 17(2): 282-285.
8LIN Shah, NING Guoning, ZHAO Zhiling. Application of Chinese word segmentation to anti-spam systems[J]. Journal of South China University of Technology: Natural Science Edition, 2004, 32(6): 113-116.
9Provost J. Naive Bayes rule-learning in classification of e-mail[R]. Texas: The University of Texas at Austin Artificial Intelligence Lab Technical Report, 1999: 5-10.
10张文良,黄亚楼,倪维健.基于差分贡献的垃圾邮件过滤特征选择方法[J].计算机工程,2007,33(8):80-82. 被引量：10

二级参考文献20

1毕建东，学位论文，1996年
2方世昌，离散数学，1985年
3Belkin N J, Croft W B. Information filtering and information retrieval: two sides of the same coin? [J]. Communications of the ACM, 1992, 35(12):29-37.
4Waldman M, Rubin A, Cranor L. Publius: a robust, tamper-evident, censorship-resistant web publishing system[A]. Proc of the 9th USENIX Security Symposium[C]. Denver, USA: [s.n.], 2000. 59-72.
5Mladenic D. Text-learning and related intelligent agents: a survey[J]. IEEE Intelligent Systems, 1999, 14(4) 44-54.
6Yang Y. Expert network: effective and efficient learning from human decisions in text categorization and retrieval[A]. In 17th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'94)[C]. CA USA: [s.n.], 1994. 13-22.
7Cheeseman P, Kelly J, Self M, et al. Autoclass: a bayesian classification system[A]. Proc Fifth Int Conf on Machine Learning[C]. San Mateo, CaJifornia: Morgan Kaufmann, 1988. 54-64.
8Apte C, Damerau F, Weiss S. Text mining with decision rules and decision trees[A]. Proceedings of the Conference on Automated Learning and Discovery[C]. CMU, USA: [s.n.], 1998. 62-68.
9Wiener E, Pedersen J O, Weigend A S. A neural network approach to topic spotting[A]. Proceedings of the Fourth Annual Symposium on Document Analysis and Information Retrieval (SDAIR'95)[C]. Las Vegas, USA: ISRI, Univ of Nevada, 1995. 58-62.
10Thorsten J. Text categorization with support vector machines: learning with many relevant features[A]. European Conference on Machine Learning (ECML)[C]. Dortmund, German: Springer, 1998. 137-142.

共引文献45

1李学勇,高国红,孙甲霞.基于互信息和K-means聚类的信息安全风险评估[J].河南师范大学学报（自然科学版）,2011,39(2):152-155.
2周日升,谢海光,林祥,李生红.基于邻近类别分类的邮件过滤系统设计[J].信息安全与通信保密,2006,28(5):81-83. 被引量：1
3崔虹燕,蒋念平.一种改进的多级信息安全过滤模型[J].情报理论与实践,2006,29(5):615-617. 被引量：5
4汪琴,安贺意,秦颖.网络信息过滤和个性化信息服务[J].情报科学,2007,25(6):858-863. 被引量：8
5刘业政,焦宁,姜元春.连续属性离散化算法比较研究[J].计算机应用研究,2007,24(9):28-30. 被引量：20
6崔虹燕.基于安全审计的网络信息过滤研究[J].兰州工业高等专科学校学报,2007,14(3):23-26. 被引量：1
7邓林,余刘琅,韩江洪.网络干扰性信息过滤对通信效率的影响[J].计算机工程,2007,33(17):190-192.
8夏战国,夏士雄,牛强,张磊.基于改进遗传算法的连续属性离散化方法[J].计算机工程与设计,2008,29(16):4275-4276. 被引量：1
9陈亮,郑宁,郭艳华,徐明,胡永涛.基于Win32API的未知病毒检测[J].计算机应用,2008,28(11):2829-2831. 被引量：6
10刘海峰,陈卫卫,王元元,张学仁.一种混合型的协同过滤信息推送方法[J].情报科学,2009,27(2):293-296. 被引量：4

同被引文献83

1李国明,汤文亮.反垃圾邮件技术及其最新展望[J].电脑知识与技术（过刊）,2007(16). 被引量：1
2邹磊,卢炎生,崔得暄,胡蓉.一种基于最小损失的垃圾邮件屏蔽算法[J].华中科技大学学报（自然科学版）,2005,33(z1):352-355. 被引量：2
3王潇杨,陈南飞,张登科,王兴伟.图片型垃圾邮件过滤分析系统设计和实现[J].大连理工大学学报,2011,51(S1):69-72. 被引量：3
4高翔,祝跃飞,刘胜利,费金龙,刘龙.基于模糊Petri网的网络风险评估模型[J].通信学报,2013,34(S1):126-132. 被引量：13
5王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
6魏刚,江传富,杨坤涛.方位角准确预测法在光电跟踪中的应用研究[J].光电工程,2006,33(5):6-11. 被引量：6
7黄波,刘忠.GM(1,1)模型用于目标方位数据预处理[J].火力与指挥控制,2006,31(6):67-69. 被引量：1
8张泽明,罗文坚,王煦法.一种基于人工免疫的多层垃圾邮件过滤算法[J].电子学报,2006,34(9):1616-1620. 被引量：16
9张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(4):75-78. 被引量：14
10邹汉斌,雷红艳,邓卫红.支持向量机在反垃圾邮件过滤中的应用[J].计算机工程与设计,2007,28(9):2015-2017. 被引量：7

引证文献10

1王红玲,郑纲.改进的贝叶斯算法在垃圾邮件过滤中的应用[J].信息通信,2013,26(9):85-86. 被引量：1
2翟军昌,车伟伟.一种基于条件熵的垃圾邮件过滤算法[J].计算机与现代化,2014(2):129-132. 被引量：3
3谢小民.基于贝叶斯的垃圾邮件过滤算法设计研究[J].电子技术与软件工程,2014(15):42-42. 被引量：3
4陈铁军,靖丰年,段谊海.基于RSSI的贝叶斯垃圾邮件过滤算法[J].计算机工程与设计,2015,36(7):1790-1793.
5何洋,刘健.大噪声背景下目标方位预处理算法[J].指挥控制与仿真,2015,37(4):63-68.
6王国霞.基于用户引力的协同过滤推荐算法[J].计算机应用研究,2016,33(11):3329-3333. 被引量：9
7林荫.基于KNN-SVM的垃圾邮件过滤模型[J].现代电子技术,2016,39(23):90-92. 被引量：4
8唐爱国,胡春华.模糊理论在软件项目风险评估中的应用[J].中南大学学报（自然科学版）,2017,48(2):411-417. 被引量：7
9王斌.基于朴素贝叶斯算法的垃圾邮件过滤系统的研究与实现[J].电子设计工程,2018,26(17):171-174. 被引量：9
10吴彤,张贯虹,陈婷婷.基于正则化贪心森林算法的情感分析方法研究[J].合肥学院学报（综合版）,2021,38(5):109-114. 被引量：1

二级引证文献37

1衷路生,刘庆雄,龚锦红,张永贤.基于Elastic Net-Decision Tree的垃圾邮件过滤研究[J].科学技术与工程,2015,35(32):59-64.
2赵敬慧,魏振钢.改进的贝叶斯垃圾邮件过滤算法[J].计算机系统应用,2016,25(10):137-140. 被引量：2
3张建华,曹悦,郭增茂.隐性知识外显化案例RS-FAHP视图计算[J].计算机应用与软件,2017,34(4):288-293.
4胡健,覃慧,梁雪雷.基于用户量化属性的多维相似度的协同过滤推荐算法[J].江西理工大学学报,2017,38(3):86-91. 被引量：6
5李桃迎,李墨,李鹏辉.基于加权Slope One的协同过滤个性化推荐算法[J].计算机应用研究,2017,34(8):2264-2268. 被引量：23
6黄皓璇,邢延.基于用户兴趣变化的Slope One协同过滤推荐算法[J].工业控制计算机,2017,30(7):112-113. 被引量：2
7汪志勇,刘红梅.贝叶斯垃圾邮件过滤系统的设计与实现[J].内蒙古农业大学学报（自然科学版）,2017,38(3):82-86.
8李萌,翟江涛,戴跃伟.基于条件熵的多链路到达序列编码隐写分析[J].计算机工程与应用,2018,54(1):117-121. 被引量：1
9陈奇.关于软件开发效益风险优化评估仿真[J].计算机仿真,2018,35(2):301-304. 被引量：1
10刘方园,王水花,张煜东.支持向量机模型与应用综述[J].计算机系统应用,2018,27(4):1-9. 被引量：70

1薛颂东,曾建潮,李临生,乔钢柱.Outlook电子邮件的远程数据库管理[J].电脑学习,2004(1):11-12.
2李向军,李良福.基于后验概率度量的粒子滤波跟踪算法研究[J].应用光学,2011,32(4):646-651. 被引量：8
3韩强,牛德青,李林珊,岳曾敬.FlexRay总线动态段传输延迟概率模型[J].兵工自动化,2011,30(2):33-36. 被引量：2
4薛朝栋,杨已彪,周毓明.基于依赖关系的模块变更概率度量:一个实验分析[J].计算机应用,2012,32(7):2041-2043.
5刘国营,陈秀宏.多目标跟踪算法的最优子模式分配概率度量[J].计算机工程,2013,39(5):293-296. 被引量：4
6引火虫.提前获取信息的字符数量[J].电脑迷,2014(10):85-85.
7王红玲,郑纲.改进的贝叶斯算法在垃圾邮件过滤中的应用[J].信息通信,2013,26(9):85-86. 被引量：1
8王卓君,王亚弟,毛致国.基于并行反向熵决策树算法的人工神经网络[J].计算机应用与软件,2008,25(7):105-108.
9胡可,张家树.基于人工免疫系统的反垃圾邮件过滤机制[J].计算机应用,2005,25(11):2559-2561. 被引量：6
10刘伟.浅谈Excel中的排序技巧[J].计算机光盘软件与应用,2012,15(12):78-78.

中南大学学报（自然科学版）

2013年第7期

浏览历史

内容加载中请稍等...

基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法被引量：10

参考文献15

二级参考文献20

共引文献45

同被引文献83

引证文献10

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法 被引量：10

参考文献15

二级参考文献20

共引文献45

同被引文献83

引证文献10

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于多项式模型和低风险的贝叶斯垃圾邮件过滤算法被引量：10