基于通用后缀树模型的垃圾邮件过滤方法

Method of Spam Filtering Based on General Suffix Tree Model

下载PDF

导出

摘要采用通用后缀树模型(GSTM),利用邮件内容的上下文信息,进行每个文本位置的不定长多元统计,从而获得被测邮件与不同训练集的相似程度,确定邮件所属的类别。理论分析和实验表明,在相同语料上,该方法的精确度和召回率均达到或超过了基于向量空间模型的邮件过滤方法;对于长度为N的邮件,过滤时间为O(N);长度为N的新邮件加入训练集,训练时间为O(N),满足了训练集的动态增长;该方法不需进行分词处理,完全独立于语种,适用于多语种邮件同时存在的情况。 The paper proposes a method of spam filtering based on content. It adopts general suffix tree model（GSTM）, takes advantage of context location, and does string match of unfixed length, then computes the similarity between test mail and the corpus to determine the sort of E-mail. The experiments and analyses prove that the method is better than other methods based on vector space model（VSM） in both accuracy and recall when tested on the same corpus. The avoidance of word segmentation shows that the categorizing process is irrelevant with the concrete language and is a language independent method.

作者谭建龙张吉郭莉

机构地区中国科学院计算技术研究所软件室

出处《计算机工程》 CAS CSCD 北大核心 2007年第9期100-102,共3页 Computer Engineering

关键词文本分类垃圾邮件通用后缀树 Text classify Spam General suffix tree

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1Androutsopoulos I,Koutsias J,Chandrinos K V,et al.An Experimental Comparison of Naive Bayesian and Keyword-based Anti-Spam Filtering with Personal E-mail Messages[C]// Proc.of the 23rd Annual International ACM SIGR Conference on Research and Development in Information Retrieval.2000:160-167.
2Androutsopoulos I,Paliouras G,Michelakis E.Learning to Filter Unsolicited Commercial E-mail[R].NCSR Demokritos,2004.
3陈毅松,汪国平,董士海.基于支持向量机的渐进直推式分类学习算法[J].软件学报,2003,14(3):451-460. 被引量：88
4刁力力,胡可云,陆玉昌,石纯一.用Boosting方法组合增强Stumps进行文本分类(英文)[J].软件学报,2002,13(8):1361-1367. 被引量：15
5Ukkonen E.Online Construction of Suffix Trees[J].Algorithmica,1995,14(3):249-260.
6郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12

二级参考文献32

1王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
2[1]Freund, Y., Schapire, R. A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 1997,55(1):119～139.
3[2]Breiman, L., Friedman, J., Olshen, R., et al. Classification and Regression Trees. Belmont, CA: Wadsworth, 1984. 1～357.
4[3]Schapire, R., Singer, Y. BoosTexter: a boosting-based system for text categorization. Machine Learning, 2000,39(2/3):135～168.
5[4]Salton, G., Wong, A., Yang, C. A vector space model for automatic indexing. Communications of the ACM, 1995,18:613～620.
6[5]Schapire, R., Singer, Y. Improved boosting algorithms using confidence-related predictions. Machine Learning, 1999,37(3): 297～336.
7[1]Vapnik V. The Nature of Statistical Learning Theory. New York: Springer-Verlag, 1995.
8[2]Stitson MO, Weston JAE, Gammerman A, Vovk V, Vapnik V. Theory of support vector machines. Technical Report, CSD-TR-96-17, Computational Intelligence Group, Royal Holloway: University of London, 1996.
9[3]Cortes C, Vapnik V. Support vector networks. Machine Learning, 1995,20:273～297.
10[4]Vapnik V. Statistical Learning Theory. John Wiley and Sons, 1998.

共引文献112

1马建斌,滕桂法,李滢,赵洋.TSVM在电子邮件作者身份分类技术上的应用[J].河北工业大学学报,2005,34(z1):124-126.
2李洋,方滨兴,郭莉.基于TSVM分类的网络入侵检测方法[J].计算机研究与发展,2007,44(z2):198-202.
3彭静,翟英,冯爽.后缀树算法在舆情聚类中的应用[J].河北科技大学学报,2012,33(1):65-68. 被引量：1
4马琳,罗铁坚,宋进亮,叶世伟.Web性能测试与预测[J].中国科学院研究生院学报,2005,22(4):472-479. 被引量：8
5马琳,罗铁坚,叶世伟.一种基于转导的预测算法及其在软件性能测试中的应用[J].计算机工程,2005,31(16):170-172. 被引量：1
6宇缨,李清华.统计学习理论和支持向量机[J].沈阳大学学报,2005,17(4):42-47. 被引量：14
7田晓宇,梁静国.支持向量机在文本自动分类中的应用研究[J].情报学报,2006,25(2):208-214. 被引量：7
8张曦煌,须文波.基于增量学习的超球支持向量机设计[J].计算机工程与应用,2006,42(13):66-68. 被引量：2
9李晓宇,张新峰,沈兰荪.支持向量机(SVM)的研究进展[J].测控技术,2006,25(5):7-12. 被引量：45
10吴峰崎,孟光.基于支持向量机的转子振动信号故障分类研究[J].振动工程学报,2006,19(2):238-241. 被引量：19

1郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
2刘德山.一种改进的基于后缀树模型搜索结果聚类算法[J].计算机科学,2011,38(11):148-152. 被引量：3
3何祥滨,周聪.基于哈夫曼树的防火墙规则动态优化的研究[J].计算机与现代化,2010(8):207-210.
4胡恬,夏迎炬,黄萱菁,吴立德.基于向量空间模型的Web中文信息过滤系统[J].计算机工程,2003,29(z1):25-26. 被引量：6
5王文可.巧用Word2007书签功能轻松编辑超长文档[J].电子乐园,2009(12):13-13.
6刘明亮.巧用Word2007书签功能轻松编辑超长文档[J].电子乐园,2011(5):27-27.
7李岳滨.用Word2000进行表格精确套打[J].中国会计电算化,2002(2):59-59.
8范晓莉,张志平.基于后缀树的西文二次文献相关性算法设计[J].情报杂志,2009,28(6):155-158.
9刘亚明,马力,舒惠.基于后缀树的文本聚类算法[J].西安邮电学院学报,2012,17(1):62-66. 被引量：4
10王慧锋,段磊,胡斌,邓松,王文韬,秦攀.带间隔约束的序列数据质量评价算法设计[J].计算机科学与探索,2015,9(10):1180-1194. 被引量：2

计算机工程

2007年第9期

浏览历史

内容加载中请稍等...

基于通用后缀树模型的垃圾邮件过滤方法

参考文献6

二级参考文献32

共引文献112

相关作者

相关机构

相关主题

浏览历史