一种基于文本分类技术的邮件过滤系统设计
摘要
垃圾邮件的泛滥提出了极为迫切的技术诉求。文章介绍了基于文本分类技术的垃圾邮件过滤系统模型,并首先介绍了整个系统工作流程,然后阐述了系统中文本分词、文本特征提取、Winnow线性分类器等关键环节。
出处
《福建电脑》
2005年第11期97-98,共2页
Journal of Fujian Computer
参考文献4
-
1潘文锋,孙健,王斌.一种Winnow线性分类器及其在TREC Novelty任务中的应用[J].计算机工程与应用,2004,40(23):59-61. 被引量:2
-
2李国栋,李卫.基于文本分类技术的垃圾邮件识别系统[J].微电子学与计算机,2004,21(6):145-146. 被引量:10
-
3傅赛香,袁鼎荣,黄柏雄,钟智.基于统计的无词典分词方法[J].广西科学院学报,2002,18(4):252-255. 被引量:24
-
4Nir Friedman,Dan Geiger,Moises Goldszmidt. Bayesian Network Classifiers[J] 1997,Machine Learning(2-3):131~163
二级参考文献13
-
1边肇祺 张学工.模式识别·第二版[M].清华大学出版社,1999..
-
2jian Sun,Wenfeng Pan,Huaping Zhang et al.TREC-2003 Novelty and Web Track at ICT[C].In:The Twelfth Retrieval Conference,2003
-
3Ido Dagan,Yael Karov,Dan Roth.Mistake-Driven Learning in Text categorization[C].In:Proceedings of EMNLP-97,2nd Conference on Empirical Methods in Natural Language Processing,1997
-
4Tong Zhang.Regularized winnow methods[C].In:Advances in Neural Information Processing Systems 13,2001:703~709
-
5J Carbonell,J Goldstein.The use of MMR,Diversity-based Reranking for Reordering Document and Producing Summaries[C].In:Proceeding of SIGIR 98,1998:335~336
-
6[1]Chien Lee-Feng. PAT-tree-based adaptive keyphrase extraction for intelligent Chinese information retrieval. Information Processing and Management, 1999,35: 501~ 521.
-
7[2]ZIPF H P. Human Behaviour and the Principle of Least Effort. Addison-wesley,Cambridge,Massachusetts, 1949.
-
8.RFC822,RFC1341,RFC2045等MIME相关规范.[S].,..
-
9Jiawei Han,Micheline Kamber.数据挖掘-概念与技术.高等教育出版社,2001.5.
-
10G F Cooper and E Herskovtis. A Bayesian method for the induction of probabilistic network from data. Machine Learning, 1992,10.
共引文献31
-
1徐海涛,杨森,柴乔林.基于统计分词的中文邮件智能分类系统[J].华中科技大学学报(自然科学版),2003,31(S1):325-328. 被引量:1
-
2陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量:2
-
3董慧,余传明.中文本体的自动获取与评估算法分析[J].情报理论与实践,2005,28(4):415-418. 被引量:12
-
4浦海晨,万晓冬.一种基于文本分类技术的邮件过滤系统设计[J].科技广场,2005(6):21-24.
-
5王美艳,赵伟.基于唐诗语料库“词”的提取及深入研究[J].长春工业大学学报,2005,26(3):217-220. 被引量:2
-
6南丽丽.垃圾邮件过滤方法浅析[J].运城学院学报,2005,23(5):60-61. 被引量:3
-
7姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量:14
-
8党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量:3
-
9李翔鹰,陈钟,唐礼勇,李欣.一种基于后缀数组聚类(SAC)的中文垃圾邮件过滤方法[J].计算机科学,2006,33(5):107-109. 被引量:1
-
10蔡代纯.基于统计模型的逐步求精标引策略[J].现代图书情报技术,2006(6):39-42.
-
1浦海晨,万晓冬.一种基于文本分类技术的邮件过滤系统设计[J].科技广场,2005(6):21-24.
-
2陈杰,陈熙霖,高文.基于遗传算法重采样的人脸样本扩张[J].软件学报,2005,16(11):1894-1901. 被引量:8
-
3姚学礼.基于内容过滤垃圾邮件综述[J].科技风,2009(11).
-
4霍娟娟,吴敏,吴桂兴,郭燕,陈朝才,杜一民.基于介词向量的英语真词错误检查算法[J].计算机系统应用,2015,24(3):193-196.
-
5王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量:129
-
6朱巧明,周志军,李培峰.基于Winnow的中文邮件分类器的设计[J].电子学报,2005,33(B12):2481-2484.
-
7朱巧明,周志军,李培峰.基于Winnow的中文邮件分类器的设计[J].南京大学学报(自然科学版),2005,41(z1):807-812.
-
8潘文锋,孙健,王斌.一种Winnow线性分类器及其在TREC Novelty任务中的应用[J].计算机工程与应用,2004,40(23):59-61. 被引量:2
-
9梁颖红,曹军.文本语块识别典型方法的比较与分析[J].计算机技术与发展,2008,18(11):76-79. 被引量:2
-
10车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量:116