通信垃圾文本识别的半监督学习优化算法

Semi-supervised Learning Optimization Algorithm for Communication Spam Text Recognition

下载PDF

导出

摘要在对非平衡通信文本使用随机下采样来提高分类器性能时,为了解决随机下采样样本发生有偏估计的问题,提出基于否定选择密度聚类的下采样算法(NSDC-DS)。利用否定选择算法的自体异常检测机制改善传统聚类,将样本中心点和待聚类样本分别作为检测器和自体集,对两者进行异常匹配;使用否定选择密度聚类算法对样本相似性进行评估,改进传统的下采样方法,使用NBSVM分类器对采样后的通信样本进行垃圾识别;使用PCA对样本所具有的信息量进行评估,提出改进的PCA-SGD算法对模型参数进行调优,完成通信垃圾文本的半监督识别任务。为了验证改进算法的优越性,使用不平衡通信文本等多个数据集,在否定选择密度聚类、NSDC-DS算法、PCASGD与传统模型上进行对比分析。实验结果表明,改进的模型不仅具有较好的通信垃圾文本识别能力,而且具有较快和稳定的收敛速度。 In order to solve the problem of biased estimation of random samples,when using random under-sampling to improve the classifier performance for unbalanced communication samples,a Down-Sampling algorithm based on Negative Selection Density Clustering(NSDC-DS)is proposed.Firstly,the autogenous anomaly detection mechanism of negative selection algorithm is used to improve the traditional clustering,and the two are matched abnormally.The sampled communication samples are recognized with the NBSVM classifier.Then the negative selection clustering algorithm is used to evaluate the similarity of samples and improve the traditional down-sampling method.Finally,PCA is used to evaluate the information content of samples,and an improved PCA-SGD algorithm is proposed to tune model parameters and complete the semi-supervised recognition task of communication spam text.In order to verify the superiority of the improved algorithm,multiple data sets such as unbalanced communication text are used to compare and analyze the negative selection cluster,NSBC-US,PCA-SGD and the traditional model.Experimental results show that the improved model not only has good communication spam text recognition ability,but also has fast and stable convergence speed.

作者邱宁佳沈卓睿王辉王鹏 QIU Ningjia;SHEN Zhuorui;WANG Hui;WANG Peng(School of Computer Science and Technology,Changchun University of Science and Technology,Changchun 130022,China)

机构地区长春理工大学计算机科学技术学院

出处《计算机工程与应用》 CSCD 北大核心 2020年第17期121-128,共8页 Computer Engineering and Applications

基金吉林省科技发展计划技术攻关项目(No.20190302118GX) 吉林省教育厅“十三五”科学技术项目(No.JJKH20190601KJ)。

关键词非平衡数据垃圾文本识别否定选择密度聚类基于否定选择密度聚类的下采样算法(NSDC-DS) 基于主成分分析的随机梯度下降(PCA-SGD)算法 unbalanced data spam text recognition negative selection density clustering Down-Sampling algorithm based on Negative Selection Density Clustering(NSDC-DS) Stochastic Gradient Descent based on Principal Component Analysis(PCA-SGD)algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J].计算机科学,2018,45(12):148-152. 被引量：12
2赵清华,张艺豪,马建芬,段倩倩.改进SMOTE的非平衡数据集分类算法研究[J].计算机工程与应用,2018,54(18):168-173. 被引量：27
3孙晶涛,张秋余.不均衡大数据集下的文本特征基因提取方法[J].电子科技大学学报,2018,47(1):125-131. 被引量：7
4许玉格,孙称立,赖春伶,罗飞.基于不平衡学习的集成极限学习机污水处理故障诊断[J].化工学报,2018,69(7):3114-3124. 被引量：9
5杨光飞,崔雪娇,张翔.基于抽样和规则的不平衡数据关联分类方法[J].系统工程理论与实践,2017,37(4):1035-1045. 被引量：6
6黄海松,魏建安,康佩栋.基于不平衡数据样本特性的新型过采样SVM分类算法[J].控制与决策,2018,33(9):1549-1558. 被引量：25
7张枭山,罗强.一种基于聚类融合欠抽样的不平衡数据分类方法[J].计算机科学,2015,42(B11):63-66. 被引量：7
8顾晓清,蒋亦樟,王士同.用于不平衡数据分类的0阶TSK型模糊系统[J].自动化学报,2017,43(10):1773-1788. 被引量：16

二级参考文献61

1张亚亚,郭华平,范明.一种利用类标号关系的多类标号分类方法[J].计算机研究与发展,2011,48(S3):16-21. 被引量：1
2吴洪兴,彭宇,彭喜元.适用于不平衡样本数据处理的支持向量机方法[J].电子学报,2006,34(B12):2395-2398. 被引量：16
3李晓东,曾光明,蒋茹,李峰,石林,梁婕,韦安磊,黄国和.改进支持向量机对污水处理厂运行状况的故障诊断[J].湖南大学学报（自然科学版）,2007,34(12):68-71. 被引量：6
4He H, Garcia E A. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009,21 (9) : 1263-1284.
5Chan P K,Stolfo S J. Toward Scalable Learning with NomUni- form Class and Cost Distributions:A Case Study in Credit Card Fraud Detection[C]//KDD. 1998:164-168.
6Kuhat M, Holte R C,Matwin S. Machine learning for the detec- tion of oil spills in satellite radar images[J]. Machine learning, 1998,30(2/3) : 195-215.
7Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of artificial intelli- gence research, 2002,16(1) : 321-357.
8Han H, Wang W Y, Mao B H. Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning[M]//Ad- vances in intelligent computing. Springer Berlin Heidelberg, 2005:878-887.
9Kubat M,Matwin S. Addressing the curse of imbalanced train- ing sets.- one-sided seleetion[C]//ICML. 1997 179-186.
10Yen S J,Lee Y S. Cluster-based under-sampling approaches for imbalanced data distributions[J]. Expert Systems with Applica- tions, 2009,36(3) : 5718-5727.

共引文献99

1罗丹.一种基于多维高斯云模型的过采样方法[J].周口师范学院学报,2020(2):104-107. 被引量：1
2赵静,李俊,龙春,杜冠瑶,万巍,魏金侠.基于集成SVM和Bagging的未知恶意流量检测[J].计算机系统应用,2022,31(10):51-59. 被引量：1
3叶强,詹宝强,马笑晨,李永立.基于文本挖掘和多模块融合的金融数据分类分级方法[J].信息技术与管理应用,2022(1):120-133.
4王戎戎,商志刚.新型织针与沉降片的表面处理工艺[J].国际纺织导报,2000,28(1):47-49.
5曹路.基于支持向量上采样的不平衡数据分类方法[J].计算机科学,2016,43(12):97-100. 被引量：4
6古平,杨炀.面向不均衡数据集中少数类细分的过采样算法[J].计算机工程,2017,34(2):241-247. 被引量：20
7姜琳颖,余东海,石鑫.基于加权极限学习机的肿瘤基因表达谱数据分类[J].东北大学学报（自然科学版）,2017,38(6):798-803. 被引量：4
8张文东,吕扇扇,张兴森.基于改进BP神经网络的非均衡数据分类算法[J].计算机系统应用,2017,26(6):153-156. 被引量：7
9叶枫,丁锋.不平衡数据分类研究及其应用[J].计算机应用与软件,2018,35(1):132-136. 被引量：14
10刘新雯.基于综合改进随机森林算法的中国财政风险预警研究[J].计算机应用与软件,2018,35(9):73-78. 被引量：3

1赵文仓,陈聪聪,郑鸿磊.基于SSU-SGD的动态手持物体识别[J].计算机应用研究,2020,37(2):621-624.
2王琼,蒲雪莲,何雯.泸州市基层全科医生的培养机制研究[J].行政事业资产与财务,2020(16):37-38.
3塔娜.基于云计算技术的大规模数据聚类分析[J].现代电子技术,2020,43(15):123-126. 被引量：4
4杰勒米·麦克莱恩,韩励豪(译),翟玉涛(译),吴紫君(译),邹莹(译),姜沅伯(校).标准文本及其对证券市场信息披露的影响[J].证券法苑,2019(3):1102-1189. 被引量：3
5杰勒米·麦克莱恩,韩励豪(译),翟玉涛(译),吴紫君(译),邹莹(译),姜沅伯(校).标准文本及其对证券市场信息披露的影响[J].证券法苑,2019(2):1-97.
6吕宏军,夏绘秦,万映红.基于需求结构“图”的客户聚类方法研究[J].西安财经大学学报,2020,33(3):78-84.
7张群.论述类文本:读懂是做题的基础[J].教学考试,2020,0(19):4-5.
8龙虎,梁丽香.基于大数据分析的混合属性图像冗余特征聚类系统设计[J].现代电子技术,2020,43(13):49-52. 被引量：1
9闵曹文,吴星.附加等式约束的病态模型谱修正迭代法[J].测绘与空间地理信息,2020,43(8):164-167. 被引量：1

计算机工程与应用

2020年第17期

浏览历史

内容加载中请稍等...

通信垃圾文本识别的半监督学习优化算法

参考文献8

二级参考文献61

共引文献99

相关作者

相关机构

相关主题

浏览历史