一种基于N-gram组合的中文垃圾邮件过滤方法被引量：5

A Method Combined N-gram Based to Filter the Chinese Spam

下载PDF

导出

摘要中文垃圾邮件的泛滥提出了极为迫切的技术诉求。本文使用了基于简单贝叶斯模型的过滤算法,同时使用N-gram对中文文本进行自动分词,并且组合多个N-gram来加快分类的收敛速度,这样分类是一种切实可行的垃圾邮件过滤方法。对于这种代价敏感性(costsensitive)的分类,通过移动门限值的方法来处理;在评估结果时采用了TCR以及召回率穴SR雪和正确率穴SP雪等参数考察实验数据。实验表明:这种方法代价较小,而正确率较高。最后我们认为可以通过筛选训练邮件以及和其它措施相结合来满足ISP级别等应用场合的要求。 The situation that mailbox is nowadays flooded with spam in China asks urgently for a technical solution to stop them. Many researches indicate that text classification is a feasible way. A Naive Bayesian Algorithm is proposed in this paper to model the filtering and a N-gram method is also introduced to segment the Chinese text into word. Measures have been taken to classify the cost-asymmetrical problem. Values of several parameters, namely TCR (total cost ratio), SR (spam recall) and SP (spam precision), are also applied to evaluate the cost sensitivity. Results of experiments show that the proposed model can acquire a high accuracy ratio at a low cost. Thus, we can conclude that sifting the training mail corpus carefully can improve the performance, so as to meet the requirements of Isp-level application.

作者刘新斌李俊

机构地区中国科学院计算机网络信息中心

出处《微电子学与计算机》 CSCD 北大核心 2004年第12期85-91,共7页 Microelectronics & Computer

关键词垃圾邮件过滤 N-GRAM 中文文本自动分词 ISP 算法贝叶斯模型 TCR 正确率召回 Anti-spam, Chinese email, Naive Bayesian Model, N-gram, Cost ensitive

分类号 TN912.34 [电子电信—通信与信息系统] TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张华平,刘群.基于N-最短路径方法的中文词语粗分模型[J].中文信息学报,2002,16(5):1-7. 被引量：99

二级参考文献1

1周强.规则和统计相结合的汉语词类标注方法[J].中文信息学报,1995,9(3):1-10. 被引量：43

共引文献98

1战疆,冯月利,王珊.PostgreSQL中文全文索引技术研究与实现[J].华中科技大学学报（自然科学版）,2005,33(z1):213-216. 被引量：3
2隋丽萍,徐承韬,李瑞芳.一个中文全文检索系统的设计与实现[J].科技资讯,2007,5(18):244-245. 被引量：1
3张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
4王朝静,郑庆华.面向答疑文本的词类标注方法的研究与实现[J].计算机工程与应用,2004,40(16):57-60. 被引量：2
5刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197
6李文翔,晏蒲柳,夏德麟,张滨.基于差异相似矩阵算法的词语用法知识发现[J].计算机应用与软件,2005,22(1):90-92.
7黄建中,王肖雷.Katz平滑算法在中文分词系统中的应用[J].计算机工程,2004,30(B12):371-372. 被引量：5
8夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
9刘群,张浩,白硕.自然语言处理开放资源平台[J].语言文字应用,2002(4):50-56. 被引量：9
10王坚,赵恒永.专业搜索引擎中文分词算法的实现与研究[J].福建电脑,2005,21(7):55-55. 被引量：3

同被引文献43

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
2李国栋,李卫.基于文本分类技术的垃圾邮件识别系统[J].微电子学与计算机,2004,21(6):145-146. 被引量：9
3江宝林,刘永丹,金峰,葛家翔,胡运发.一个基于语义分析的倾向性文档过滤系统[J].计算机应用与软件,2005,22(1):10-11. 被引量：7
4马亮,陈群秀,蔡莲红.一种改进的自适应文本信息过滤模型[J].计算机研究与发展,2005,42(1):79-84. 被引量：18
5林祥,荆涛,李生红.前置式邮件过滤系统的设计与实现[J].计算机工程与应用,2005,41(2):116-119. 被引量：2
6刘永健,徐昕,王正华,薛倡新.基于数据挖掘的自适应入侵检测框架设计[J].计算机工程与应用,2006,42(14):152-154. 被引量：9
7朱义鑫,闵东.基于网络的HMM异常检测方法研究[J].计算机工程与应用,2006,42(24):145-148. 被引量：1
8Sahami M,Dumais S,Heckerman D,et al.A Bayesian Approach to Filtering Junk E-mail.In:AAAI Workshop on Learning for Text Categorization,Madis on,Wisconsin,1998.55～62
9Graham P.Better Bayesian filtering.URL:http://paulgraham.com/better.html,2003
10Graham P.A Plan for Spam.URL.http://paulgraham.com/spam.html,2002

引证文献5

1李翔鹰,陈钟,唐礼勇,李欣.一种基于后缀数组聚类(SAC)的中文垃圾邮件过滤方法[J].计算机科学,2006,33(5):107-109. 被引量：1
2范黎林,王晓东.一种用于垃圾邮件过滤的中文关键词匹配算法[J].河南科技大学学报（自然科学版）,2006,27(5):35-37. 被引量：6
3夏成锋.基于n-gram及SVM的中文垃圾邮件过滤[J].广东广播电视大学学报,2008,17(1):100-103.
4李湘东,高凡,丁丛.LDA模型下不同分词方法对文本分类性能的影响研究[J].计算机应用研究,2017,34(1):62-66. 被引量：9
5周康,万良,丁红卫.基于MLP-HMM的跨站脚本攻击检测[J].计算机工程与科学,2019,41(8):1413-1420. 被引量：4

二级引证文献20

1高良诚.基于多规则的客户端邮件过滤系统[J].铜陵学院学报,2008,7(2):75-76. 被引量：1
2高良诚,侯整风.客户端垃圾邮件过滤系统[J].安徽建筑工业学院学报（自然科学版）,2008,16(4):73-76. 被引量：2
3汪霞,郑宁,徐明,陈默.基于中文变形词匹配的贝叶斯邮件过滤模型[J].计算机应用与软件,2010,27(1):105-107. 被引量：3
4韩耀廷,许志伟,刘利民.基于Storm云平台的增量文本分类机制研究[J].内蒙古工业大学学报（自然科学版）,2018,37(4):279-286.
5朱俚治,朱梧檟,侯爱莲.一种新的邮件过滤技术研究[J].计算技术与自动化,2016,35(4):137-141.
6董放,刘宇飞,周源.基于LDA-SVM论文摘要多分类新兴技术预测[J].情报杂志,2017,36(7):40-45. 被引量：32
7高森,严曙,崔超远,孙丙宇,汪六三.基于联合分类器过滤噪声的微博主题发现[J].计算机系统应用,2018,27(1):132-136. 被引量：3
8赵俊杰.一种基于关联规则的中文变体词识别算法[J].重庆理工大学学报（自然科学）,2018,32(3):178-185.
9曹奔,夏勉,任志洪,林秀彬,徐升,赖丽足,王琪,江光荣.大数据时代心理学文本分析技术--“主题模型”的应用[J].心理科学进展,2018,26(5):770-780. 被引量：13
10李心蕾,王昊,刘小敏,邓三鸿.面向微博短文本分类的文本向量化方法比较研究[J].数据分析与知识发现,2018,2(8):41-50. 被引量：13

1吕宗云.计算机信息技术与网络安全[J].信息与电脑（理论版）,2011(9):148-149. 被引量：4
2廖建华.基于Oracle 9i数据库的查询优化[J].电脑知识与技术,2006(7):20-22.
3赵士伟,卓力,王素玉,沈兰荪.一种基于NNIA多目标优化的代价敏感决策树构建方法[J].电子学报,2011,39(10):2348-2352. 被引量：7
4周俊杰.三大措施给“刀”降温[J].中国计算机用户,2004(17).
5常江.嵌入式系统中文输入法的设计[J].电子产品世界,2004,11(09A):70-74. 被引量：9
6索尼NW-HD2音频播放器[J].家电大视野,2004(11):13-13.
7李燕,王博.基于压缩感知的数据压缩与检测[J].计算机技术与发展,2014,24(3):198-201.
8黄国伟,刘云霞,陈志.基于用户反馈的个性化垃圾邮件过滤方法[J].电子设计工程,2014,22(15):53-56. 被引量：2
9王非,杨俊雄.SDON中基于贝叶斯模型的流量预测机制[J].光通信研究,2014(5):11-13.
10吴根清,郑方,金凌,吴文虎.一种在线递增式语言模型自适应方法[J].中文信息学报,2002,16(1):60-65. 被引量：4

微电子学与计算机

2004年第12期

浏览历史

内容加载中请稍等...

一种基于N-gram组合的中文垃圾邮件过滤方法被引量：5

参考文献1

二级参考文献1

共引文献98

同被引文献43

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种基于N-gram组合的中文垃圾邮件过滤方法 被引量：5

参考文献1

二级参考文献1

共引文献98

同被引文献43

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

一种基于N-gram组合的中文垃圾邮件过滤方法被引量：5