基于LOTClass模型的弱监督中文短文本分类算法

Weakly Supervised Chinese Short Text Classification Algorithm Based on LOTClass Model

下载PDF

导出

摘要基于全监督学习的文本分类算法需要使用大量的标签数据,而文本数据的标注任务耗时耗力且标注难度较大。针对上述问题,提出了一种基于LOTClass模型的弱监督中文短文本分类算法。首先,使用少量的标签数据构建类别种子词表;其次,使用类别种子词表指导训练中文伪标签生成模型,并使用该模型生成大量伪标签数据;最后,利用优质伪标签数据训练一个中文短文本分类模型。在THUCNews新闻标题数据集和论文标题数据集上进行实验,结果表明,该算法在仅使用少量标签数据的情况下,其性能优于主流的半监督分类算法,同时不逊于一般的全监督分类算法,为无标签数据分类任务提供了一种较好的解决方案。 The text classification algorithms based on fully supervised learning need to use a large amount of label data,while the labeling task of text data is not only time-consuming and labor-intensive,but also difficult to label.To solve the above problems,this paper proposes a weakly supervised Chinese short text classification algorithm based on the LOTClass model.First,a small amount of label data is used to construct a category seed vocabulary.Then the category seed vocabulary is used to guide the training of a Chinese pseudo-label generation model,which is then used to generate a large amount of pseudo-label data.Finally,high-quality pseudo-label data is used to train a Chinese short text classification model.Experiments on the THUCNews news title data set and the paper title data set show that,in the case of using only a small amount of labeled data,the performance of the algorithm in this paper is better than that of mainstream semi-supervised classification algorithms,and it is not inferior to general fully-supervised classification algorithms.It provides a better solution for unlabeled data classification tasks.

作者刘硕王庚润任玉媛 LIU Shuo;WANG Gengrun;REN Yuyuan(Information Engineering University,Zhengzhou 450001,China)

机构地区信息工程大学

出处《信息工程大学学报》 2021年第5期613-620,共8页 Journal of Information Engineering University

关键词弱监督学习中文文本短文本分类预训练模型种子词 weakly-supervised learning Chinese text short text classification pre-training model seed words

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1李天彩,席耀一,王波,张佳明.一种改进的短文本层次聚类算法[J].信息工程大学学报,2015,16(6):743-748. 被引量：5
2QIU XiPeng,SUN TianXiang,XU YiGe,SHAO YunFan,DAI Ning,HUANG XuanJing.Pre-trained models for natural language processing: A survey[J].Science China(Technological Sciences),2020,63(10):1872-1897. 被引量：136
3吴思慧,陈世平.结合TFIDF的Self-Attention-Based Bi-LSTM的垃圾短信识别[J].计算机系统应用,2020,29(9):171-177. 被引量：10
4万圣贤,兰艳艳,郭嘉丰,徐君,庞亮,程学旗.用于文本分类的局部化双向长短时记忆[J].中文信息学报,2017,31(3):62-68. 被引量：17
5余本功,汲浩敏.基于DW-TCI的半监督文本分类方法研究[J].数据分析与知识发现,2020,4(10):58-69. 被引量：5
6宋建国.基于半监督与词向量加权的文本分类研究[J].软件导刊,2020,19(9):27-30. 被引量：1
7胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：8
8zhi-hua zhou.A brief introduction to weakly supervised learning[J].National Science Review,2018,5(1):44-53. 被引量：98
9张小川,戴旭尧,刘璐,冯天硕.融合多头自注意力机制的中文短文本分类模型[J].计算机应用,2020,40(12):3485-3489. 被引量：16

二级参考文献44

1周志华.Multi-Instance Learning from Supervised View[J].Journal of Computer Science & Technology,2006,21(5):800-809. 被引量：12
2夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8
3CNNIC. Statistical reports on the Internet development inChina[R].北京:中国互联网信息中心,2014.
4Ding Yuxin, Meng Xuejun, Chai Guangren, et al. User Identification for Instant Messages [ C ]//2011 Interna- tional Conference on Neural Information Processing. 2011:11-13.
5David C, Uthus,David W. Aha. Multiparticipant chat a- nalysis: A survey [ J ]. Artificial Intelligence, 2013,2 (4) :106-121.
6Gabrilovich E. Feature generation for textual information re- trieval using worldknowledge [ J ]. ACM SIGIR Forum,2007, 41 (2) :123-123.
7Yan X,Guo J,Lan Y, et al. A biterm topic model for short texts[ C]//Proceedings of the 22nd international confer- ence on World Wide Web, International World Wide Web Conferences Steering Committee. 2013:1445-1456.
8Lu Yue, Mei Qiaozhu, Chengxiang Zhai. Investigating task performance of probabilistie topic models: an em- pirical study of PLSA and LDA [ J ]. Information Retriev- al, 2011,14(2) :178-203.
9Kevin P, Murphy. Machine Learning-A Probabilistic Perspective [ M ]. England : The MIT Press,2012:2-39.
10David E Rumelhart, Geoffrey E Hintont, Ronald J Wil- liams. Learning representations by backpropagating er- rors [ J ]. Nature, 1986, 323 (6088) :533-536.

共引文献285

1孙朝云,裴莉莉,徐磊,李伟,杜耀辉.基于DS-LOF与GA-XGBoost的路域环境感知数据智能检测与修复[J].中国公路学报,2023,36(4):15-26. 被引量：1
2葛艳,郑利杰,杜军威,陈卓.基于BLSTM-Attention神经网络模型的化工事故分类[J].计算机系统应用,2020,29(10):205-210. 被引量：2
3罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
4郝昕毓,周建涛,王昊.表格单元格分类的端到端不完全监督方法[J].计算机与数字工程,2023,51(1):59-65.
5宋闯,赵佳佳,王康,梁欣凯.面向智能感知的小样本学习研究综述[J].航空学报,2020(S01):15-28. 被引量：15
6王伟,阮文翰,孟祥福.融合对抗训练的中文GPT对话模型研究[J].辽宁工程技术大学学报（自然科学版）,2023(3):378-384.
7袁丽莉,侯磊,张正平.LDA最大概率填充与BiLSTM模型的文本分类研究[J].智能计算机与应用,2021,11(12):32-36. 被引量：1
8邱凯锋,王则远,何志超,付凯利,梅童霖,关英杰,高飞,伍俊妍.人工智能技术在超说明书用药循证中的应用研究[J].中华临床医师杂志（电子版）,2023,17(12):1212-1218.
9樊艺,吴章勇.WTO与我国商业银行的业务拓展[J].现代商业银行导刊,2000(6):22-25. 被引量：1
10商立军,臧益民,王四旺.耐钙心肌细胞的分离及基本电生理特性[J].第四军医大学学报,2000,21(2):247-249. 被引量：12

1陈燕,龚庆悦,戴彩艳.基于句法抽取与图结构编码的患者问询意图识别[J].计算机与数字工程,2021,49(11):2276-2281.
2许艺苹,庄灵习.第五代移动通信技术(5G)产业政策的国际比较研究——基于二分类Logistic回归分析的视角[J].科学管理研究,2021,39(5):87-94. 被引量：5
3靳大尉,王雯慧.EDA文本增强技术在中英文语料上的差异性分析[J].现代计算机,2021,27(27):105-110.
4朱向其,张忠林,李林川,马海云.基于改进词性信息和ACBiLSTM的短文本分类[J].计算机应用与软件,2021,38(12):179-186. 被引量：4
5王立国,池辛格.结合MCLU准则和DE算法的高光谱数据分类方法[J].哈尔滨工程大学学报,2021,42(11):1688-1693. 被引量：4
6高巍,马辉,李大舟,于沛,孟智慧.基于FA-TR模型的中文文本摘要生成[J].计算机工程与设计,2021,42(12):3445-3452.
7杨雨龙,郭田德,韩丛英.基于原型学习改进的伪标签半监督学习算法[J].中国科学院大学学报（中英文）,2021,38(6):841-851. 被引量：4

信息工程大学学报

2021年第5期

浏览历史

内容加载中请稍等...

基于LOTClass模型的弱监督中文短文本分类算法

参考文献9

二级参考文献44

共引文献285

相关作者

相关机构

相关主题

浏览历史