基于数据增强和相似伪标签的半监督文本分类算法被引量：5

Semi-supervised text classification algorithm with data augmentation and similar pseudo-labels

下载PDF

导出

摘要为了减少对有标记数据的依赖,充分利用大量无标记数据,提出了一个基于数据增强和相似伪标签的半监督文本分类算法(semi-supervised text classification algorithm with data augmentation and similar pseudo-labels, STAP)。该算法利用EPiDA(easy plug-in data augmentation)框架和自训练对少量有标记数据进行扩充,采用一致性训练和相似伪标签考虑无标记数据及其增强样本之间的关系和高置信度的相似无标记数据之间的关系,在有监督交叉熵损失、无监督一致性损失和无监督配对损失的约束下,提高无标记数据的质量。在四个文本分类数据集上进行实验,与其他经典的文本分类算法相比,STAP算法有明显的改进效果。 In order to reduce the dependence on labeled data and make full use of a large number of unlabeled data,this paper proposed the STAP(semi-supervised text classification algorithm with data augmentation and similar pseudo-labels).The algorithm used EPiDA(easy plug-in data augmentation)framework and self-training to expand a small amount of labeled data.It used consistency training and similar pseudo-labels to consider the relationship between unlabeled data and its expanded samples and the relationship between similar unlabeled data with high confidence.Under the constraint of supervised cross entropy loss,unsupervised consistency loss and unsupervised pair loss,it improved the quality of unlabeled data.Experiments on four text classification datasets show that STAP algorithm has obvious improvement over other classical text classification algorithms.

作者盛晓辉沈海龙 Sheng Xiaohui;Shen Hailong(School of Science,Northeastern University,Shenyang 110819,China)

机构地区东北大学理学院

出处《计算机应用研究》 CSCD 北大核心 2023年第4期1019-1023,1051,共6页 Application Research of Computers

关键词半监督学习文本分类数据增强相似伪标签 semi-supervised learning text classification data augmentation similar pseudo-label

分类号 TP [自动化与计算机技术]

引文网络
相关文献

参考文献2

1周志华.基于分歧的半监督学习[J].自动化学报,2013,39(11):1871-1878. 被引量：87
2刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：134

二级参考文献63

1杨剑,王珏,钟宁.流形上的Laplacian半监督回归[J].计算机研究与发展,2007,44(7):1121-1127. 被引量：15
2Chapelle O,Scholkopf B,Zien A. Semi-Supervised Learning[M].Cambridge,ma:the Mit Press,2006.
3Zhu X J. Semi-supervised Learning Literature Survey.Technical Report 1530[R].Department of Computer Sciences,University of Wisconsin at Madison,Madison,WI,2006.
4Zhou Z H,Li M. Semi-supervised learning by disagreement[J].Knowledge and Information Systems,2010,(03):415-439.
5Shahshahani B M,Landgrebe D A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon[J].IEEE Transactions on Geoscience and Remote Sensing,1994,(05):1087-1095.
6Miller D,Uyar H. A mixture of experts classifier with learning based on both labelled and unlabelled data[A].Cambridge,ma:the Mit Press,1997.571-577.
7Nigam K,McCallum A K,Thrun S,Mitchell T. Text classification from labeled and unlabeled documents using EM[J].Machine Learning,2000,(2-3):103-134.
8Blum A,Mitchell T. Combining labeled and unlabeled data with co-training[A].New York,USA:ACM,1998.92-100.
9Joachims T. Transductive inference for text classification using support vector machines[A].San Francisco,CA,USA,Morgan Kaufmann Publishers Inc,1999.200-209.
10Zhu X J,Ghahramani Z,Lafferty J. Semi-supervised learning using Gaussian fields and harmonic functions[A].Menlo Park,ca:aaai Press,2003.912-919.

共引文献204

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：9
2麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：4
3刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
4赵建华.一种安全的基于分歧的半监督分类算法[J].西华大学学报（自然科学版）,2014,33(5):1-6. 被引量：2
5赵建华.基于SOM神经网络的半监督分类算法[J].西华大学学报（自然科学版）,2015,34(1):36-40. 被引量：7
6张国平,王宇东,马丽,黎远松.改进相关反馈技术在CBVR人体动作识别中的应用研究[J].激光杂志,2015,36(2):51-55.
7田淞,宋建社,张雄美,任伟龙.KM-SVM法的SAR图像无监督变化检测[J].系统工程与电子技术,2015,37(5):1042-1046. 被引量：7
8修宇,王骏,王忠群,刘三民.基于多图的交替优化图直推方法[J].计算机应用,2015,35(6):1611-1616.
9赵建华,刘宁.结合主动学习策略的半监督分类算法[J].计算机应用研究,2015,32(8):2295-2298. 被引量：7
10古平,吴庭君,文静云.基于概念与词根双特征互助文本分类模型[J].计算机与现代化,2015(8):93-97.

同被引文献32

1梁欣怡,行鸿彦,侯天浩.基于自监督特征增强的CNN-BiLSTM网络入侵检测方法[J].电子测量与仪器学报,2022,36(10):65-73. 被引量：18
2刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：134
3李云红,魏妮娜,张晓丹.基于多方向Gabor滤波器的图像分割[J].国外电子测量技术,2017,36(3):20-23. 被引量：8
4孙晶晶,静大海.基于神经网络复杂背景下车牌识别系统的研究[J].国外电子测量技术,2017,36(8):22-25. 被引量：9
5高玉君,梁刚,蒋方婷,许春,杨进,陈俊任,王浩.社会网络谣言检测综述[J].电子学报,2020,48(7):1421-1435. 被引量：29
6李奥,但志平,董方敏,刘龙文,冯阳.基于改进生成对抗网络的谣言检测方法[J].中文信息学报,2020,34(9):78-88. 被引量：13
7张少钦,杜圣东,张晓博,李天瑞.融合多模态信息的社交网络谣言检测方法[J].计算机科学,2021,48(5):117-123. 被引量：12
8陈志毅,隋杰.基于DeepFM和卷积神经网络的集成式多模态谣言检测方法[J].计算机科学,2022,49(1):101-107. 被引量：11
9徐建民,孙朋,吴树芳.传播路径树核学习的微博谣言检测方法[J].计算机科学,2022,49(6):342-349. 被引量：6
10谢欣彤,胡悦阳,刘譞哲,赵耀帅,姜海鸥.传播用户代表性特征学习的谣言检测方法[J].计算机科学与探索,2022,16(6):1334-1342. 被引量：2

引证文献5

1张迪,耿嘉阳,郭域,刘子杨,刘嘉庆,徐则中.基于机器学习的视频弹幕分类屏蔽系统[J].常州工学院学报,2023,36(4):26-29.
2谷俐娴.基于SVM的多维相似大数据分类系统设计[J].信息与电脑,2024,36(2):100-102.
3张岩珂,但志平,董方敏,高准,张洪志.多层次结构与半监督学习的谣言检测研究[J].国外电子测量技术,2024,43(2):84-92.
4胡新荣,徐伟,罗瑞奇,刘军平,朱强,杨捷,李立军.面向抽取式阅读理解的数据增强研究[J].软件导刊,2024,23(6):32-37.
5张岩珂,但志平,李琳,鲁雨洁.基于边增强一致性与半监督学习的谣言检测研究[J].现代电子技术,2024,47(17):129-135.

1王进,陈重元,邓欣,孙开伟.多状态图神经网络文本分类算法[J].重庆邮电大学学报（自然科学版）,2023,35(2):193-201. 被引量：2
2郑利华.基于高等数学的人工智能算法在文本分类中的应用研究[J].中国科技经济新闻数据库教育,2023(4):134-136.
3王玉莹,朱福珍.改进YOLOv4行人和车辆目标检测算法[J].黑龙江大学自然科学学报,2023,40(1):120-126. 被引量：1
4阚庆云,许京伟,廖桂生.和差天线空时自适应测角方法及性能分析[J].电子学报,2023,51(1):42-49. 被引量：1
5刘腊梅,宗佳旭,肖振久,兰海,曲海成.流形正则化的交叉一致性语义分割算法[J].中国图象图形学报,2022,27(12):3542-3552. 被引量：2
6荣震宇,刘建毅.基于Transformer和MLP的眼底血管分割算法[J].北京邮电大学学报,2023,46(1):26-31. 被引量：1
7易令,李泽平.基于元学习的自适应视频流算法[J].计算机工程与设计,2023,44(3):641-647.
8尹雪婷,武娇,顾兴全,刘雅萱.基于任务优化表示学习的文本分类[J].中国计量大学学报,2023,34(1):110-119. 被引量：1
9刘朝辉,何世伟.基于改进Apriori算法的铁路交通作业事故致因关联规则研究[J].铁道运输与经济,2023,45(4):120-126. 被引量：5
10郭业才,刘程.基于检测器与定位器融合的自适应校正跟踪算法[J].系统仿真学报,2023,35(4):709-720.

计算机应用研究

2023年第4期

浏览历史

内容加载中请稍等...

基于数据增强和相似伪标签的半监督文本分类算法被引量：5

参考文献2

二级参考文献63

共引文献204

同被引文献32

引证文献5

相关作者

相关机构

相关主题

浏览历史

基于数据增强和相似伪标签的半监督文本分类算法 被引量：5

参考文献2

二级参考文献63

共引文献204

同被引文献32

引证文献5

相关作者

相关机构

相关主题

浏览历史

基于数据增强和相似伪标签的半监督文本分类算法被引量：5