基于分词的垃圾邮件过滤系统设计与分析被引量：2

Design and Analysis of Spam-Filtering System Based on Words Segmentation

下载PDF

导出

摘要以字为单位处理中文邮件存在着很大困难,针对于此,笔者引进中文分词算法,设计并实现了基于分词的垃圾邮件过滤系统,并且阐述了与实现相关的3个关键算法:用于关键词匹配的多模式相似/精确匹配算法,用于中文邮件处理的中文分词算法,以及用于特征提取的N元特征提取算法.最后实验证明了该系统对中英文垃圾邮件过滤都有很高的性能.另外,文章第三部分还给出了基于分词的非垃圾邮件分类系统的设计与实现. It is difficult to process Chinese Emails by single word.In order to resolve this problem,a spam-filtering system based on words segmentation is designed and implemented.Meanwhile,several related algorithms when implemented are demonstrated: Multiple Exact/Approximate String Matching Algorithm for matching,Chinese Words Segmentation Algorithm for processing Chinese emails and N-Gram Feature Extraction Algorithm for feature extraction.Finally,the experiment validates the high performance of processing Chinese Emails as well as that of English Emails.In addition,a sortion system for NonSpam is designed and implemented in the third part of the paper

作者唐朝晖傅建明杜南山

机构地区武汉大学计算机学院

出处《武汉大学学报（理学版）》 CAS CSCD 北大核心 2005年第S2期191-194,共4页 Journal of Wuhan University:Natural Science Edition

基金国家自然科学基金资助项目(90104005 60373089) 湖北省科技攻关项目(2002AA101C44)

关键词垃圾邮件多模式相似/精确匹配中文分词 N元特征提取 spam multiple exact/approximate string matching chinese words segmentation N-gram feature extraction

分类号 TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1高鹏,张德运,孙钦东,翟亚辉,卢伍春.网络信息审计系统中的多模式相似匹配算法[J].软件学报,2004,15(7):1074-1080. 被引量：13
2聂哲.特征提取搜索系统的设计与实现[J].计算机应用与软件,2004,21(2):58-59. 被引量：2
3张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99

二级参考文献3

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43
2王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
3许一震,王永成,沈洲.一种快速的多模式字符串匹配算法[J].上海交通大学学报,2002,36(4):516-520. 被引量：29

共引文献111

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
6李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
7刘新斌,李俊.一种基于N-gram组合的中文垃圾邮件过滤方法[J].微电子学与计算机,2004,21(12):85-91. 被引量：5
8黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
9夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
10刘群,张浩,白硕.自然语言处理开放资源平台[J].语言文字应用,2002(4):50-56. 被引量：9

同被引文献17

1李星,田莹,段海新.中文垃圾邮件过滤系统的实现和评估[J].大连理工大学学报,2005,45(z1):189-195. 被引量：5
2刘明川,彭长生.基于贝叶斯概率模型的邮件过滤算法探讨[J].重庆邮电学院学报（自然科学版）,2005,17(5):636-639. 被引量：10
3陈治平,王雷.基于自学习K近邻的垃圾邮件过滤算法[J].计算机应用,2005,25(B12):7-8. 被引量：15
4林巧民,许建真,许棣华,王诚.基于贝叶斯算法的垃圾邮件过滤技术[J].南京师范大学学报（工程技术版）,2005,5(4):61-64. 被引量：9
5赖均,黄迪明,胡德昆.基于遗传算法、贝叶斯学习的网段反垃圾邮件系统[J].计算机工程,2006,32(2):189-190. 被引量：5
6闫龙,王文杰.基于贝叶斯方法的一种垃圾邮件过滤的实现[J].微电子学与计算机,2006,23(2):86-88. 被引量：10
7李欣,左瑞欣,曲文斌.Naive Bayesian算法在基于内容的垃圾邮件过滤中的应用[J].计算机系统应用,2006,15(6):48-50. 被引量：1
8叶吉祥,谭冠政.一种基于AIS和Bayes网络的垃圾邮件过滤算法[J].计算机工程,2006,32(11):26-28. 被引量：3
9许洋洋,袁华.一种基于内容的广告垃圾图像过滤方法[J].山东大学学报（理学版）,2006,41(3):73-78. 被引量：9
10洪黎明.2006年第一次中国反垃圾邮件状况调查报告显示垃圾邮件每年给中国造成六十亿元损失.http://www.cnii.com.cn/20050801/ca351534.htm.

引证文献2

1何培舟,何鹏,温向明.基于贝叶斯算法的垃圾邮件过滤研究[J].微计算机应用,2008,29(8):7-10.
2曾果.基于K近邻的垃圾邮件过滤模型[J].铜仁学院学报,2008,2(5):118-119.

1程守远,王直杰.图像检索系统构建中的几个问题[J].现代计算机,2005,11(12):11-14.
2吴福朝,张铃.基于元特征的联想记忆神经网络[J].计算机工程,1995,21(5):46-50.
3何信,杜江,庞海艳.基于SSH2框架的Web系统的设计与实现[J].统计与管理,2015,0(1):49-53. 被引量：4
4侯丽波.基于容忍入侵的网络安全防护系统设计与分析[J].信息网络安全,2012(5):24-26.
5宋庆武,黄高攀,王会羽,贺敬伟.多点数据采集系统设计与分析[J].机电信息,2016(12):151-152.
6殷路,高尚兵,王兰芳.案例教学在双语教学中的经验总结[J].电脑知识与技术,2008,0(12X):2936-2937. 被引量：5
7陈筠,桑楠,熊光泽.双机容错实时嵌入式系统设计与分析[J].单片机与嵌入式系统应用,2005,5(10):5-7. 被引量：8
8甘冬连,张永,刘博.基于MapReduce并行SVM的垃圾邮件分类[J].软件导刊,2016,15(6):10-12. 被引量：2
9韩敏,李秋锐.基于KNN算法的垃圾邮件过滤方法分析[J].计算机光盘软件与应用,2012,15(7):179-180. 被引量：2
10程圣宇,白英杰,肖瀛,芦东昕.模式匹配算法性能测试[J].计算机应用,2003,23(z2):358-360. 被引量：3

武汉大学学报（理学版）

2005年第S2期

浏览历史

内容加载中请稍等...

基于分词的垃圾邮件过滤系统设计与分析被引量：2

参考文献3

二级参考文献3

共引文献111

同被引文献17

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于分词的垃圾邮件过滤系统设计与分析 被引量：2

参考文献3

二级参考文献3

共引文献111

同被引文献17

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于分词的垃圾邮件过滤系统设计与分析被引量：2