代价敏感多主题学习的邮件过滤算法被引量：2

A spam filtering algorithm based on cost sensitive learning for multiple topics

导出

摘要针对传统邮件分类模型中较少对邮件主题进行描述和分析的问题,提出一种代价敏感多主题学习的邮件分类算法,用以实现垃圾邮件过滤.首先,基于LDA(潜在狄利克雷分布)对邮件的多个主题进行提取,对邮件语义进行描述;其次,利用CS-SVM(代价敏感支持向量机)对邮件进行代价敏感学习,实现对不同类别邮件的惩罚;最后,结合MI-SVM(多示例支持向量机)进行代价敏感的多主题学习,实现邮件分类.实验采用四组ling-spam处理数据集.实验结果证明:该分类算法较比传统邮件分类算法,可以取得更高的准确性、特异性与敏感性. To solve the problem of the lack of description and analysis of topics in traditional email classification model,this paper proposed a spam filtering algorithm based on cost sensitive learning for multiple topics.Firstly,multiple topics were extracted by using LDA to describe the semantics of email.Secondly,CS-SVM was used for cost sensitive learning,which was used to penalize different kinds of emails.Finally,MI-SVM combining with CS-SVM was used to learn multiple topics for email classification.There were four sub-datasets of Ling-Spam used in the experiments.Experimental results show that compared to the traditional classification methods,the presented algorithm has better performance of accuracy,specificity and sensitivity.

作者张绍成刘威程子傲王丹华 Zhang Shaocheng;Liu Wei;Cheng Ziao;Wang Danhua(Informatization Center,Liaoning University,Shenyang 110036,China;Information Network Center,Shenyang Jianzhu University,Shenyang 110168,China)

机构地区辽宁大学信息化中心沈阳建筑大学信息网络中心

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2016年第S1期176-180,共5页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

基金国家自然科学基金资助项目(61502092)

关键词潜在狄利克雷分布支持向量机垃圾邮件过滤文本分类多示例学习 latent Dirichlet allocation support vector machine spam filtering text classification multiple-instance learning

分类号 TP393.098 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1刘伍颖,王挺.结构化集成学习垃圾邮件过滤[J].计算机研究与发展,2012,49(3):628-635. 被引量：12

二级参考文献16

1姜远,周志华.基于词频分类器集成的文本分类方法[J].计算机研究与发展,2006,43(10):1681-1687. 被引量：22
2Dietterich T G. Ensemble methods in machine learning [C] // Proc of the Multiple Classifier Systems. London: Springer, 2000:1-15.
3Liu Wuying, Wang Ting. Multi-field learning for email spam filtering [C] //Proc of the 33rd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 2010: 745-746.
4Fabrizio S. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2002, 34(1): 1-47.
5Drucker H, Wu D, Vapnik V N. Support vector machines for spam categorization [J]. IEEE Trans on Neural Networks, 1999, 10(5): 1048-1054.
6Zobel J, Moffat A. Inverted files for text search engines [J]. ACM Computing Surveys, 2006, 38(2):.Article 6.
7Joachims T. Training linear SVMs in linear time [C] //Proc of the 12th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2006:217-226.
8Paul G. Better Bayesian filtering [C/OL] //Proc of the 2003 Spam Conf. 2003. [2010-01-01]. http://www, paulgraham. com/better, html.
9Sculley D, Wachman G M. Relaxed online SVMs in the TREC spam filtering track [C] //Proc of the 16th Text Retrieval Conf. Gaithersburg: NIST, 2007.
10Cormack G V, Lynam T. TREC 2005 spam track overview [C] //Proc of the 14th Text Retrieval Conf. Gaithersburg: NIST, 2005.

共引文献11

1申铉京,何月,张博,龙建武.基于空间信息及隶属度约束的FCM图像分割算法[J].北京工业大学学报,2012,38(7):1073-1078. 被引量：6
2周全强,张付志.基于仿生模式识别的用户概貌攻击集成检测方法[J].计算机研究与发展,2014,51(4):789-801. 被引量：5
3陈宇.基于用户行为的个性化邮件分类算法[J].福建工程学院学报,2014,12(1):83-87.
4郭军权,诸葛建伟,孙东红,段海新.Spampot：基于分布式蜜罐的垃圾邮件捕获系统[J].计算机研究与发展,2014,51(5):1071-1080. 被引量：11
5陈念,唐振民.QBC主动采样学习在垃圾邮件在线过滤中的应用[J].计算机工程与应用,2014,50(22):170-174. 被引量：3
6杨艳燕,郭红转,路新华.基于粗糙集的带决策规则边界的邮件过滤算法[J].计算机应用研究,2015,32(1):258-261. 被引量：2
7张虎,谭红叶,钱宇华,李茹,陈千.基于集成学习的中文文本欺骗检测研究[J].计算机研究与发展,2015,52(5):1005-1013. 被引量：7
8刘永磊,金志刚,杜磊.开放接入点的安全可信接入[J].计算机工程与应用,2016,52(6):99-101. 被引量：2
9刘伍颖,王琳.面向垃圾短信过滤的亚文档集成学习[J].郑州大学学报（理学版）,2017,49(3):59-64. 被引量：1
10王凯,陈丹伟.基于LSTM的动态图模型异常检测算法研究[J].计算机工程与应用,2019,55(5):76-82. 被引量：13

同被引文献29

1侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：15
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
4李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
5田宝明,戴新宇,陈家骏.一种基于随机森林的多视角文本分类方法[J].中文信息学报,2009,23(4):48-54. 被引量：8
6廖晓锋,王永吉,范修斌,吴敬征.基于LDA主题模型的安全漏洞分类[J].清华大学学报（自然科学版）,2012,52(10):1351-1355. 被引量：11
7薛春香,张玉芳.面向新闻领域的中文文本分类研究综述[J].图书情报工作,2013,57(14):134-139. 被引量：24
8高明,金澈清,钱卫宁,王晓玲,周傲英.面向微博系统的实时个性化推荐[J].计算机学报,2014,37(4):963-975. 被引量：53
9王友卫,刘元宁,凤丽洲,朱晓冬.基于用户兴趣度的垃圾邮件在线识别新方法[J].华南理工大学学报（自然科学版）,2014,42(7):21-27. 被引量：4
10李锋刚,梁钰,GAO Xiao-zhi,ZENGER Kai.基于LDA-wSVM模型的文本分类研究[J].计算机应用研究,2015,32(1):21-25. 被引量：29

引证文献2

1陈斌,东一舟,毛明荣.基于分类邮件代理MCP的垃圾邮件动态检测[J].南京师范大学学报（工程技术版）,2017,17(3):80-86.
2赵乐,张兴旺.面向LDA主题模型的文本分类研究进展与趋势[J].计算机系统应用,2018,27(8):10-18. 被引量：8

二级引证文献8

1贺金龙,付立军,姚郑,吕鹏飞,黄徐胜.基于网格LSTM混合算法的地质领域用户意图识别[J].计算机系统应用,2020(10):44-52. 被引量：1
2何彬,李心宇,陈蓓蕾,夏盟,曾致中.基于属性关系深度挖掘的试题知识点标注模型[J].南京信息工程大学学报（自然科学版）,2019,11(6):727-734.
3毛文伟.基于线性分析的日语文本分类模型构建研究[J].外语电化教学,2019(6):97-102. 被引量：4
4连雅君,王庆国,程发峰,穆杰,雷超芳,徐甜,樊姝宁,徐文秀,晋娜,王雪茜.王庆国应用海藻甘草反药的临床配伍规律探讨[J].中医药导报,2020,26(1):54-57. 被引量：9
5王瑞,龙华,邵玉斌,杜庆治.基于Labeled-LDA模型的文本特征提取方法[J].电子测量技术,2020,43(1):141-146. 被引量：13
6乔晗,徐俐颖,李旭,李树祥,褚淑贞.国家高新技术产业开发区生物医药产业政策主题挖掘及量化评价研究[J].中国药房,2020,31(22):2689-2694. 被引量：8
7向菲,冯思佳.社会公众对HPV疫苗的关注热点分析-基于新浪微博数据[J].中国公共卫生,2021,37(4):738-740. 被引量：8
8黄振业,莫淦清,余可曼.基于主题模型的通用文本匹配方法[J].计算机应用与软件,2024,41(5):310-318.

1乌达巴拉.“宾图王”之歌文本分类研究[J].内蒙古民族大学学报（哲学社会科学蒙古文版）,2019,0(2):61-66.
2马小平,李博华,张旭,吴新忠.基于GWO优化的CS-SVM轴承故障诊断[J].煤矿机械,2019,40(5):171-173. 被引量：8
3孔凡芝,李金龙,吴冬梅.结合低维特征和在线加权MIL的目标跟踪算法[J].计算机工程与应用,2019,55(18):116-121. 被引量：1
4宫丽影.剖宫产产妇运用优质护理服务模式的效果观察[J].中国医药指南,2019,17(22):250-251. 被引量：1
5周国华,宋洁,殷新春.局部几何保持的Laplacian代价敏感支持向量机[J].中文信息学报,2018,32(10):59-68. 被引量：1
6马莹,赵辉,李万龙,庞海龙,崔岩.结合改进的CHI统计方法的TF-IDF算法优化[J].计算机应用研究,2019,36(9):2596-2598. 被引量：22
7邓浩,秦岭.基于多示例学习的局部离群点改进算法[J].计算机工程与应用,2019,55(18):38-44.
8李冉,林泓.基于频繁主题集偏好的学术论文推荐算法[J].计算机应用研究,2019,36(9):2675-2678. 被引量：6
9曹雅茜,黄海燕.基于代价敏感大间隔分布机的不平衡数据分类算法[J].华东理工大学学报（自然科学版）,2019,45(4):606-613. 被引量：1
10董露露,马宁.基于改进信息增益的特征选择方法研究[J].萍乡学院学报,2019,36(3):84-90. 被引量：2

华中科技大学学报（自然科学版）

2016年第S1期

浏览历史

内容加载中请稍等...

代价敏感多主题学习的邮件过滤算法被引量：2

参考文献1

二级参考文献16

共引文献11

同被引文献29

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

代价敏感多主题学习的邮件过滤算法 被引量：2

参考文献1

二级参考文献16

共引文献11

同被引文献29

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

代价敏感多主题学习的邮件过滤算法被引量：2