集成学习在样本不平衡垃圾短信识别上的应用被引量：1

Ensemble Learning in recognition of imbalanced spam message

下载PDF

导出

摘要在信息资讯发达的今天,短信已成为日常生活中每天都要接触的东西,但同时垃圾短信也常常困扰着人们,为此,进行垃圾短信过滤成为了一个必要的问题.与普通的分类问题不同,垃圾短信的表现形式为文本数据,且不同的垃圾短信的文本特征各不相同,提高了分类识别的难度.其次,垃圾短信总体来说在所有短信中的占比并不高,因此,常常伴随着类别不平衡,由此样本不平衡带来的信息不充分也提高了识别的难度.针对这些问题,文章首先采取TF-IDF方法进行特征提取,把文本数据转化成向量的形式,然后在经过转换的数据应用欠采样技术获得若干个类别平衡的训练样本,每个样本分别采取朴素贝叶斯、决策树和支持向量机等分类模型进行训练,得到相应基分类器,最后再利用集成学习的思想把基分类器进行模型融合,得到一个分类性能较高的垃圾短信识别模型. In the information era,SMS has become a thing we have to meet daily.It has irreplaceable status in social communication and information exchange,but at the same time,spam messages often disturbe us.Thus,spam message filtering has become a necessary problem.The spam message itself is presented as a text,and the text characteristics of the spam messages are not the same,improving the difficulty of the classification.Secondly,the proportion of spam message is samll while the majority of message is normal,so there is a category imbalance problem,which also enhances the difficulty of identification.In order to solve these problems,this paper first takes the TF-IDF method to extract the feature,then obtains several categories of balanced samples through the Random Under-sampling technique,each sample adopts different classification model to train the base classifier,and finally uses the Ensemble Learning method to mix base classifiers.At last,a high classification performance model of spam short message recognition is obtained.

作者熊健邹东兴 XIONG Jian;ZOU Dong-xing(School of Economics and Statistics,Guangzhou University,Guangzhou 510006,China)

机构地区广州大学经济与统计学院

出处《广州大学学报（自然科学版）》 CAS 2018年第5期1-7,共7页 Journal of Guangzhou University:Natural Science Edition

关键词集成学习垃圾短信样本不平衡 TF-IDF 朴素贝叶斯支持向量机 Ensemble Learning SMS spam imbalanced data TF-IDF Na ve Bayes Support Vector Machine

分类号 O212.1 [理学—概率论与数理统计]

引文网络
相关文献

参考文献3

1张东亮,董礼.基于改进的朴素贝叶斯算法在垃圾短信过滤中的研究[J].计算机测量与控制,2012,20(2):526-528. 被引量：7
2李润川,昝红英,申圣亚,毕银龙,张中军.基于多特征融合的垃圾短信识别[J].山东大学学报（理学版）,2017,52(7):73-79. 被引量：7
3陈功平,沈明玉,王红,张燕平.基于内容的短信分类技术[J].华东理工大学学报（自然科学版）,2011,37(6):770-774. 被引量：17

二级参考文献16

1唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
2李旭升,郭耀煌.一种新颖混合贝叶斯分类模型研究[J].计算机科学,2006,33(9):135-139. 被引量：5
3Sebastiani F. Machine learning in automated text categorization[J].ACM Computing Surveys, 2002, 34(1) :1 47.
4熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
5金展,范晶,陈峰,徐从富.基于朴素贝叶斯和支持向量机的自适应垃圾短信过滤系统[J].计算机应用,2008,28(3):714-718. 被引量：17
6李辉,张琦,卢湖川.基于内容的垃圾短信过滤[J].计算机工程,2008,34(12):154-156. 被引量：17
7邢军,韩敏.基于两层向量空间模型和模糊FCA本体学习方法[J].计算机研究与发展,2009,46(3):443-451. 被引量：13
8巩知乐,张德贤,胡明明.一种改进的支持向量机的文本分类算法[J].计算机仿真,2009,26(7):164-167. 被引量：37
9王自强,钱旭.基于流形学习和SVM的Web文档分类算法[J].计算机工程,2009,35(15):38-40. 被引量：14
10黄秀丽,王蔚.一种改进的文本分类特征选择方法[J].计算机工程与应用,2009,45(36):129-130. 被引量：10

共引文献26

1张永军,刘金岭.基于特征词的垃圾短信分类器模型[J].计算机应用,2013,33(5):1334-1337. 被引量：11
2王红,张燕平,陈功平.云计算在手机短信分类中的应用研究[J].华中师范大学学报（自然科学版）,2013,47(5):626-631. 被引量：2
3汪健,黄大荣,吴鹏,杨震.分布式处理下多技术融合的垃圾短信过滤模型[J].计算机测量与控制,2013,21(10):2811-2813. 被引量：1
4陈凯星,陈建英.一种改进的基于朴素贝叶斯算法的垃圾短信过滤技术[J].福建电脑,2014,30(3):42-43. 被引量：1
5陈立.基于贝叶斯文本分类的高校设备批量集中采购[J].实验技术与管理,2014,31(5):265-268. 被引量：2
6王红,张燕平,陈功平.kNN算法在手机短信客户端分类中的应用研究[J].山东农业大学学报（自然科学版）,2014,45(2):216-222. 被引量：1
7叶小榕,邵晴.基于Spark的大规模社交网络社区发现原型系统[J].科技导报,2018,36(23):93-101. 被引量：8
8张永军,刘金岭,高尚兵.基于关联规则的垃圾短信分类器模型[J].南通大学学报（自然科学版）,2014,13(3):6-12. 被引量：2
9张永军,刘金岭.一种改进的高效贝叶斯短信文本分类器[J].南京师范大学学报（工程技术版）,2014,14(3):70-74. 被引量：6
10柴丹炜,邵思思,张若昕,乐光学,刘建生.网络舆论话题分类算法研究与实证分析[J].嘉兴学院学报,2014,26(6):116-123. 被引量：2

同被引文献16

1Xi-chuan ZHOU,Hai-bin SHEN,Zhi-yong HUANG,Guo-jun LI.Large margin classification for combatingdisguise attacks on spam filters[J].Journal of Zhejiang University-Science C(Computers and Electronics),2012,13(3):187-195. 被引量：1
2刘建芸,赵宇航,张兆翔,王蕴红,袁雪梅,胡磊,董振江.Spam Short Messages Detection via Mining Social Networks[J].Journal of Computer Science & Technology,2012,27(3):506-514. 被引量：1
3郝爽,李国良,冯建华,王宁.结构化数据清洗技术综述[J].清华大学学报（自然科学版）,2018,58(12):1037-1050. 被引量：72
4李琼阳,田萍.基于主成分分析的朴素贝叶斯算法在垃圾短信用户识别中的应用[J].数学的实践与认识,2019,49(1):134-138. 被引量：7
5杨彬,韩庆文,雷敏,张亚鹏,刘向国,杨亚强,马雪峰.基于改进的TF-IDF权重的短文本分类算法[J].重庆理工大学学报（自然科学）,2016,30(12):108-113. 被引量：14
6赖文辉,乔宇鹏.基于词向量和卷积神经网络的垃圾短信识别方法[J].计算机应用,2018,38(9):2469-2476. 被引量：13
7傅依娴,芦天亮,马泽良.基于One-Hot的CNN恶意代码检测技术[J].计算机应用与软件,2020,37(1):304-308. 被引量：20
8吴思慧,陈世平.结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别[J].计算机系统应用,2020,29(9):171-177. 被引量：10
9李根,王科峰,贲卫国,宋微,刘鸿儒,徐亦晋.基于自分簇自学习算法的垃圾短信识别[J].吉林大学学报（信息科学版）,2021,39(5):583-588. 被引量：4
10隆峻,神显豪,丁小军,郭先春.量子遗传算法优化加权朴素贝叶斯复合语言文本分类[J].济南大学学报（自然科学版）,2022,36(2):136-141. 被引量：4

引证文献1

1樊继慧,滕少华.基于局部敏感哈希的K邻近算法识别垃圾短信[J].济南大学学报（自然科学版）,2023,37(6):746-751.

1王琴,张炯.数据挖掘在移动客户投诉分析中的应用研究[J].湖南邮电职业技术学院学报,2018,17(4):25-27. 被引量：5
2马亚玲.云环境下多载体图书信息自动分类方法仿真[J].计算机仿真,2018,35(11):285-288. 被引量：3
3施莉.语文的“脉搏”在跳动——浅谈阅读教学中如何多角度落实读写训练[J].科学大众（智慧教育）,2018(12):54-54.
4罗玉,王玲.LDA在提取涉警舆情关键词中的应用[J].现代计算机（中旬刊）,2018(11):7-9. 被引量：2
5李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
6吕希奎,王奇胜,孙培培.基于三维地理信息系统与建筑信息模型融合的城市轨道交通线路设计方法[J].城市轨道交通研究,2018,21(12):112-115. 被引量：14
7姚立,张曦煌.MapReduce环境下处理多类别不平衡数据的改进随机森林算法[J].微电子学与计算机,2018,35(11):139-144. 被引量：3
8罗雅晨.类别不平衡的集成学习预测P2P网贷信用风险[J].科技与创新,2018(24):1-4. 被引量：1
9姚劲松,安立进,黄文思,郭雷,霍成军,陆鑫.基于KPCA-SVM的同期线损数据治理研究[J].计算机与数字工程,2018,46(12):2534-2538. 被引量：3
10《中共伊犁州委党校学报》热忱欢迎读者投稿、订阅[J].中共伊犁州委党校学报,2018,0(4):109-109.

广州大学学报（自然科学版）

2018年第5期

浏览历史

内容加载中请稍等...

集成学习在样本不平衡垃圾短信识别上的应用被引量：1

参考文献3

二级参考文献16

共引文献26

同被引文献16

引证文献1

相关作者

相关机构

相关主题

浏览历史

集成学习在样本不平衡垃圾短信识别上的应用 被引量：1

参考文献3

二级参考文献16

共引文献26

同被引文献16

引证文献1

相关作者

相关机构

相关主题

浏览历史

集成学习在样本不平衡垃圾短信识别上的应用被引量：1