一种基于概率推理的邮件过滤系统的研究与设计被引量：1

Research and Design of a Spam Filtering System Based on Probability Inference

下载PDF

导出

摘要分类问题是机器学习与数据挖掘研究中最重要的问题之一,其中文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展。设计了一种基于贝叶斯概率推理方法的垃圾邮件过滤系统。它用概率测试的权重来描述数据间的相关性,从而解决了数据间的不一致性,甚至是相互独立的问题。作为互联网的第一大应用,电子邮件一直受到广大网民的青睐,但近些年来,垃圾邮件问题日益严重。将上述研究的结果应用到目前互联网上垃圾邮件的过滤工作中,实验证明了方法的有效性。 Classification is one of the most important research fields in data mining and machine learning. In recent years, there have been extensive studies and rapid progresses in automatic text categorization, which is one of the hotspots and key techniques in information retrieval and data mining field. Designs a spam email filtering system hased on improved Bayesian probability inference. It uses weight from probability test to describe the correlativity of data;consequently it solves the inconsistent and mutual independent problems. Applies it to the spare filtering work on Internet, the validity of this system is proved. At last, some future directions of the research are given.

作者汤伟程家兴纪霞

机构地区安徽大学计算智能与信号处理教育部重点实验室

出处《计算机技术与发展》 2008年第8期76-79,共4页 Computer Technology and Development

基金国家自然科学基金资助项目(60273043) 安徽大学研究生创新基金资助项目(20073053)

关键词机器学习文本分类垃圾邮件贝叶斯方法 machine learning text classification sparn Bayesian method

分类号 TP31 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Mitchell T M. Machine Learning[ M]. [ s. l. ] : McGraw2Hill, 1997.
2Meretakis D, Dimitris F, Lu Hongjun, et al. Scalable Association - Based Text Classification[ C]//Proceedings of the 9th ACM Int Conf Information and Knowledge Management (CIKM ' 00). Washington, US: [ s. n. ],2000.
3Heckerman D. Bayesian networks for data rnining[J ]. Machine Learning, 1995,20 : 196 - 243.
4张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005,22(8):14-19. 被引量：23
5王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129

二级参考文献55

1李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
2M. DeSouza, J. Fitzgerald, C. Kempand G. Truong, A Decision Tree based Spam Filtering Agent[EB] . from http:∥www. cs. mu. oz. au/481/2001- projects/gntr/index. html, 2001.
3N. Littlestone, Learning quickly when irrelevant attributes abound: A new linear-threshold algorithm[J]. Machine Learning, 2(4) :285- 318, 1988[J].
4R. Krishnamurthy and C. Orasan, A corpus-based investigation of junk emails[A]. In: Proceedings of Language Resources and Evaluation Conference (LREC 2002)[C]. Las Palmas de Gran Canaria, Spain, pp. 1773- 1780,May 2002.
5M. Sahami, S. Dumais, D. Heckerman and E. Horvitz, A Bayesian approach to filtering junk e-mail[A]. In:Proc. of AAAI Workshop on Learning for Text Categorization[C]. pp. 55-62, 1998.
6W. Cohen, Fast effective rule induction[A]. In: Machine Learning Proceedings of the Twelfth International Conference[C]. Lake Taho, California, Mongan Kanfmann, pp. 115-123, 1995.
7W. Cohen, Learning rules that classify email[A]. In: Proceedings of the AAAI spring symposium of Machine Learning in Information Access, Palo Alto[C]. California, pp. 18 - 25. 1996.
8X. Carreras and L. Marquez, Boosting Trees for Anti-Spam Email Filtering[A]. In: Proceedings of Euro Conference Recent Advances in NLP (RANLP-2001)[C]. pp. 58-64, Sep. 2001.
9T. Nicholas, Using AdaBoost and Decision Stumps to Identify Spam E-mail[ EB]. Stanford University Course Project (Spring 2002/2003) Report, from http: ∥nlp. stanford. edu/courses/cs224n/2003/fp/.
10Y. Diao, H. LuandD. Wu, A Comparative Study of Classification Based PersonalE-mail Filtering[A]. In: Proceedings of PAKDD-2000[C], pp.408-419, Apr. 2000.

共引文献143

1张登科,易秀双,王兴伟.一种基于相似度测量的新垃圾邮件发现机制[J].中国海洋大学学报（自然科学版）,2008,38(S1):147-150. 被引量：1
2李兴军.垃圾邮件过滤的贝叶斯算法研究[J].硅谷,2008,1(8):43-44.
3刘洋,曹津宁,刘昊,秦玉平.基于贝叶斯方法的垃圾邮件处理模型研究[J].长春工程学院学报（自然科学版）,2007,8(3):75-76.
4张平.追求[J].就业与保障,2005(11):1-1.
5王金宝.基于增量学习和阈值优化的自适应信息过滤研究[J].计算机应用,2006,26(5):1099-1101.
6庄锁法,陈兴梅.客户端防范垃圾邮件策略的探讨[J].电脑知识与技术,2006(8):172-172.
7张洪军,段会川.基于支持向量机的电子邮件分类模型设计[J].信息技术与信息化,2006(5):89-90. 被引量：1
8周立兵,柳景超.贝叶斯理论在垃圾邮件过滤中的应用分析[J].网络安全技术与应用,2006(11):68-69. 被引量：1
9徐卫.一种垃圾邮件过滤网关的设计[J].电脑知识与技术,2006(12):64-65.
10黄鹏鹤.垃圾邮件内容过滤测试平台的设计与实现[J].仪器仪表用户,2007,14(1):93-94.

同被引文献5

1戴劲松,白英彩.基于贝叶斯理论的垃圾邮件过滤技术[J].计算机应用与软件,2006,23(1):110-111. 被引量：16
2成宝国,冯宏伟.一个基于Naive Bayesian垃圾邮件过滤器的改进[J].计算机技术与发展,2006,16(2):98-99. 被引量：3
3张丽,黄东.基于Winnow算法的反垃圾邮件引擎的设计与实现[J].计算机技术与发展,2006,16(4):170-172. 被引量：2
4杨斌,路游.基于统计学习理论的支持向量机的分类方法[J].计算机技术与发展,2006,16(11):56-58. 被引量：15
5龚伟,李柳柏.基于IDSS的中文垃圾邮件过滤模型设计[J].计算机技术与发展,2007,17(3):163-165. 被引量：1

引证文献1

1鲁晓南,接标.一种基于个性化邮件特征的反垃圾邮件系统[J].计算机技术与发展,2009,19(8):155-158. 被引量：1

二级引证文献1

1王洪杰.个人防治垃圾邮件的几点建议[J].信息与电脑（理论版）,2012(5):205-206.

1谭维炽.关于遥控指令错误概率的计算[J].遥测遥控,2003,24(4):63-65. 被引量：7
2张成兴.压缩因子综合信息粒子群算法[J].计算机科学与探索,2014,8(4):506-512. 被引量：4
3刘朝晖,窦晓光.基于FPGA实现的报文分类智能网卡[J].信息安全与技术,2013,4(6):62-65. 被引量：2
4邹宇,薛小平,张芳,潘勇,潘腾.用于程序循环控制的错误检测算法[J].计算机应用,2015,35(12):3450-3455. 被引量：2
5王明,胡予濮,徐永平.Trivium的多项相关偏差研究[J].计算机工程,2010,36(9):134-135.
6宋波,赵欣庆.高三概率复习后测分析及复习策略[J].中学数学月刊,2005(12):24-26.

计算机技术与发展

2008年第8期

浏览历史

内容加载中请稍等...

一种基于概率推理的邮件过滤系统的研究与设计被引量：1

参考文献5

二级参考文献55

共引文献143

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于概率推理的邮件过滤系统的研究与设计 被引量：1

参考文献5

二级参考文献55

共引文献143

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于概率推理的邮件过滤系统的研究与设计被引量：1