基于支持向量机的垃圾邮件过滤方法被引量：7

Spam Filter Approach Based on Support Vector Machine

下载PDF

导出

摘要针对中英文混合垃圾邮件过滤问题,提出一种基于支持向量机(SVM)的过滤方法和融合多种分类特征的框架。通过改进SVM中线性核的表示方式,解决存储空间和计算量问题。通过领域术语自动抽取技术,增强垃圾邮件过滤的语义单元识别能力,提高垃圾邮件分类性能。在跨语言大规模语料库上的实验表明,采用SVM比采用Good-Turing算法平滑的朴素贝叶斯模型泛化性能提高了6.13%,分类精度比最大熵模型提高了8.18%。 This paper presents a spam filter approach based on Support Vector Machine（SVM） to deal with cross language E-mail including Chinese and English, which provides the ability of integrating more statistical information. It optimizes the representation of linear kernel to improve time complexity and storage complexity, and adopts domain term extraction to improve the ability of semantic unit recognition and the performance of spam filter. Experiments on large-scale cross language corpora show that SVM-based approach increases the precision by 6.13% compared to Naive Bayes which is smoothed by Good-Turing, and increases classification accuracy by 8.18% compared to maximum entropy model.

作者王祖辉姜维

机构地区哈尔滨工业大学信息管理与信息系统研究所

出处《计算机工程》 CAS CSCD 北大核心 2009年第13期188-189,207,共3页 Computer Engineering

基金国家自然科学基金资助项目(70801022)

关键词垃圾邮件过滤支持向量机领域术语抽取 spam filter Support Vector Machine（SVM） domain term extraction

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Gim(e)nez J,M(a)rquez L.SVMTool:A General POS Tagger Generator Based on Support Vector Machines[C]//Proceedings of the 4th International Conference on Language Resources and Evaluation.Lisbon,Portugal:[s.n.],2004.
2Pang Xiuli,Feng Yuqiang,Jiang Wei.A Chinese Anti-spam Filter Approach Based on Support Vector Machine[C]//Proceedings of International Conference on Management Science & Engineering.[S.l.]:IEEE Press,2007.
3Joachims T.Text Categorization with Support Vector Machines:Learning with Many Relevant Features[C]//Proc.of the 10th European Conference on Machine Learning.Chemnitz,Germany:[s.n.],1998.
4任禾,曾隽芳.一种基于信息熵的中文高频词抽取算法[J].中文信息学报,2006,20(5):40-43. 被引量：22
5姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29

二级参考文献24

1邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
2赵健,王晓龙,关毅.中文名实体识别中的特征组合与特征融合的比较[J].计算机应用,2005,25(11):2647-2649. 被引量：7
3姜维,王晓龙,关毅,徐志明.应用粗糙集理论提取特征的词性标注模型[J].高技术通讯,2006,16(10):996-1000. 被引量：3
4王还.现代汉语频率词典[M].北京:北京语言学院出版社,1986..
5JY Nie,ML Hannan,W Jin.Unknown Word Detection and Segmentation of Chinese using Statistical and heuristic Knowledge[J].Communications of COLIPS,1995,Vol.5,47-57.
6李荣陆.中文文本分类语料[DB],http://www.nlp.org.cn/docs/download.php?doc_id=281.
7Keh-Jiann Chen,Wei-Yun Ma.Unknown Word Extraction for Chinese documents[A].Proceedings of COLING[C].Taiwan:Association for Computational Linguistics,2002,169-175.
8R.Sproat,C.Shih.A statistical method for finding word boundaries in Chinese text[J].Computer Processing of Chinese and Oriental Languages,1990,Vol.4,No.4,336-351.
9Xianping Ge,Wanda Pratt,Padhraic Smyth.Discovering Chinese Words from Unsegmented Text[A].SIGIR[C].Berkeley:ACM,1999,271 -272.
10Sun Maosong,Shen Dayang,Benjamin K Tsou.Chinese Word Segmentation without Using Lexicon and Handcrafted Training Data[A].Proceedings of the 36th annual meeting on Association for Computational Linguistics[C].Montreal:Association for Computational Linguistics,1998,1265 -1271.

共引文献48

1于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
2于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1
3吴春颖,王士同,蔡崇超.一种基于新词发现的Web文本表示方法[J].计算机应用,2008,28(3):764-767. 被引量：4
4张宇萌,刘传汉.一种基于逐层扫描的频繁字串快速提取算法[J].计算机科学,2008,35(5):127-130. 被引量：1
5庞秀丽,冯玉强,姜维.贝叶斯文本分类中特征词缺失的补偿策略[J].哈尔滨工业大学学报,2008,40(6):956-960. 被引量：5
6屈志毅,张星,廖绍雯.一种无词典快速抽词算法的设计和实现[J].微计算机信息,2008,24(27):181-183.
7范婕婷,赖惠成.一种基于SVM算法的垃圾邮件过滤方法[J].计算机工程与应用,2008,44(28):95-97. 被引量：5
8冯元勇,孙乐,张大鲲,李文波.基于小规模尾字特征的中文命名实体识别研究[J].电子学报,2008,36(9):1833-1838. 被引量：25
9周波,蔡东风.基于条件随机场的中文组织机构名识别研究[J].沈阳航空工业学院学报,2009,26(1):49-52. 被引量：8
10高凯.基于句模的归约算法在自然语言检索中的应用[J].情报学报,2010,29(1):22-31.

同被引文献57

1刘斌,苏宏业,褚健.一种基于最小二乘支持向量机的预测控制算法[J].控制与决策,2004,19(12):1399-1402. 被引量：38
2张文安,徐建明,俞立.PID-DMC算法及其在液位控制系统中的应用[J].控制工程,2005,12(1):22-24. 被引量：9
3BinLIU,HongyeSU,WeihuaHUANG,JianCHU.Temperature prediction control based on least squares support vector machines[J].控制理论与应用（英文版）,2004,2(4):365-370. 被引量：5
4靳其兵,宋洪法,路香菊.大滞后系统数字内模控制器的设计及仿真研究[J].计算机仿真,2005,22(8):151-153. 被引量：2
5杨启伟,陈以.基于数字Smith预估补偿的温度控制仿真[J].桂林电子工业学院学报,2006,26(2):109-111. 被引量：5
6赵欣欣,索红光,刘玉树.基于标记窗的网页正文信息提取方法[J].计算机应用研究,2007,24(3):144-145. 被引量：33
7Drucker H, Wu D, Vapnik V. Support Vector Machines for spam categorization [ J ]. IEEE Transactions on Neural Networks, 1999,10: 1048 - 1054.
8中国教育和科研网紧急响应组(CCERT)[Z].http://www.ccert.edu.cn/spam/sa/datasets.htm,2010,2.
9Aas K, Eikvil L. Text Categorization: A Survey[R]. Norway, Oslo: Norwegian Computing Center, Tech. Rep.: 114, 1999.
10Blei D M. Latent Dirichlet Dirichlet[J]. Journal of Machine Learning Research, 2003, (3): 993-1022.

引证文献7

1王强,贾银山.支持向量机及其在邮件过滤中的应用[J].微处理机,2010,31(3):43-45.
2王燕霞,邓伟.CTM与SVM相结合的文本分类方法[J].计算机工程,2010,36(22):203-205. 被引量：7
3陈孝礼,刘培玉.应用于垃圾邮件过滤的词序列核[J].计算机应用,2011,31(3):698-701. 被引量：5
4王思明,刘伟,张国武.基于LS-SVM的陶瓷窑炉温度预测控制[J].计算机测量与控制,2011,19(6):1364-1366. 被引量：3
5郭淑敏,朱蓉,王晶晶,胡胜,陈佳辉.基于贝叶斯算法的垃圾邮件过滤的方法研究[J].电脑知识与技术,2017,13(5):171-173. 被引量：2
6陈龙,梁意文,谭成予.基于自适应性分类器的垃圾邮件检测[J].计算机工程,2018,44(5):194-200. 被引量：4
7梁东,杨永全,魏志强.基于支持向量机的网页正文内容提取方法[J].计算机与现代化,2018(9):21-26. 被引量：2

二级引证文献23

1杨雪梅,李书琴,杨会君,刘济宁.基于多类支持向量机的化学物质生态危害分类研究[J].生态与农村环境学报,2012,28(2):217-220. 被引量：1
2王光,邱云飞,史庆伟.一种用于中文主题分类的CSVM算法[J].计算机工程,2012,38(8):131-133. 被引量：1
3翟军昌,车伟伟,刘艳丽,康建军.基于改进信息增益的垃圾邮件过滤研究[J].电子设计工程,2012,20(13):9-11. 被引量：1
4杨雪梅,李书琴,杨会君.基于PCA和M-SVMs的化学物质生态危害预测应用研究[J].环境科学与技术,2012,35(10):195-200. 被引量：2
5翟军昌,秦玉平,车伟伟.应用特征词分类贡献的垃圾邮件过滤研究[J].计算机工程与应用,2012,48(34):116-119. 被引量：2
6翟军昌,车伟伟.一种基于条件熵的垃圾邮件过滤算法[J].计算机与现代化,2014(2):129-132. 被引量：3
7翟军昌,秦玉平,车伟伟.垃圾邮件过滤中信息增益的改进研究[J].计算机科学,2014,41(6):214-216. 被引量：8
8巩天宁,周书明.内外网隔离条件下的邮件转发[J].电脑与信息技术,2014,22(5):48-49.
9孙伟,聂婷,杨海群.基于改进极根学习机的回转窑煅烧带温度预测方法[J].计算机测量与控制,2015,23(1):157-160.
10刘涛,黄景涛,张向阳,郭喜风.基于模型预测误差延迟动态矩阵控制算法[J].计算机仿真,2015,32(8):347-350. 被引量：6

1Kim Goo ssens和他的性感女孩[J].数字生活,2004(9):94-95.
2吕志良.再谈云计算向我们走来[J].办公自动化（办公设备与耗材）,2013(5):11-13.
3微电影,自娱自乐[J].电脑爱好者（普及版）,2012(5):33-33.
4YouTube推出网址缩略服务youtu．be[J].电子商务,2010,11(1):10-10.
5苏志同,刘芳正.基于改进SVM主动学习的网络入侵检测[J].计算机与数字工程,2016,44(9):1770-1773. 被引量：1
6李兆翠,朱振方,李颖.基于改进SVM的网页过滤系统研究[J].软件导刊,2016,15(2):159-161. 被引量：2
7顾成杰,张顺颐.基于改进SVM的网络流量分类方法研究[J].仪器仪表学报,2011,32(7):1507-1513. 被引量：15
8薛磊,杨晓敏,吴炜,陈默,何小海.一种基于KNN与改进SVM的车牌字符识别算法[J].四川大学学报（自然科学版）,2006,43(5):1031-1036. 被引量：21
9孙守安,杨根科,杨祖华.基于受限语料库的语言平滑算法比较研究[J].微型电脑应用,2010,26(12):18-20.
10李丽双,党延忠,张婧,李丹.基于条件随机场的汽车领域术语抽取[J].大连理工大学学报,2013,53(2):267-272. 被引量：17

计算机工程

2009年第13期

浏览历史

内容加载中请稍等...

基于支持向量机的垃圾邮件过滤方法被引量：7

参考文献5

二级参考文献24

共引文献48

同被引文献57

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的垃圾邮件过滤方法 被引量：7

参考文献5

二级参考文献24

共引文献48

同被引文献57

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于支持向量机的垃圾邮件过滤方法被引量：7