基于DW-TCI的半监督文本分类方法研究被引量：5

Semi-Supervised Method for Text Classification Based on DW-TCI

导出

摘要【目的】对只有少量标注的文本进行高效率的分类,提出一种新的半监督文本分类方法。【方法】提出DW-TCI半监督文本分类方法,通过使用双通道的特征提取方式得到基分类器组的两组特征输入向量,并引入基于分歧的半监督分类方法和集成学习的思想,将无监督共识结果样本引入模型训练,最后通过等值加权投票法得到预测文本的分类结果。【结果】在两个不同的数据集下,DW-TCI方法使用20%有标签样本训练时,分类精度分别达到92.32%和87.01%,对比其他半监督分类方法最少分别提升5.54%和5.65%。【局限】使用的数据集数量较少,未在更多的数据集上进行验证。【结论】DW-TCI方法可以大幅减少对训练样本的标注,为服务商进行高效的文本分类提供了有效支持。 [Objective] This paper proposes a new semi-supervised method for text classification, aiming to efficiently process texts with only small amount of annotations. [Methods] The proposed DW-TCI based method used double-channel feature extraction to obtain two sets of feature input vectors of the base classifier group.Then, we introduced the semi-supervised classification method with divergence and the idea of integrated learning. Finally, we trained the non-supervised sample with our model, and obtained the classification result of the predicted text with the equivalent weighted voting method. [Results] We examined our method with two different data sets having 20% labeled samples. The classification accuracy reached 92.32% and 87.01%, which were at least 5.54% and 5.65% higher than those of similar methods. [Limitations] The sample data set needs to be expanded. [Conclusions] The proposed method could reduce the labeling workloads of training samples and provide effective support for better text classification results.

作者余本功汲浩敏 Yu Bengong;Ji Haomin(School of Management,Hefei University of Technology,Hefei 230009,China;Key Laboratory of Process Optimization&Intelligent Decision-Making,Ministry of Education,Hefei University of Technology,Hefei 230009,China)

机构地区合肥工业大学管理学院合肥工业大学过程优化与智能决策教育部重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第10期58-69,共12页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目“基于制造大数据的产品研发知识集成与服务机制研究”(项目编号:71671057) 过程优化与智能决策教育部重点实验室开放课题的研究成果之一。

关键词半监督分类样本分歧分类器分歧集成学习 Semi-Supervised Classification Sample Divergence Classifier Divergence Ensemble Learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1徐勇,张慧.图像自动标注方法研究综述[J].现代情报,2016,36(3):144-150. 被引量：4
2邱云飞,刘聪.基于协同训练的意图分类优化方法[J].现代情报,2019,39(5):57-63. 被引量：4
3周志华.基于分歧的半监督学习[J].自动化学报,2013,39(11):1871-1878. 被引量：83
4李诒靖,郭海湘,李亚楠,刘晓.一种基于Boosting的集成学习算法在不均衡数据中的分类[J].系统工程理论与实践,2016,36(1):189-199. 被引量：57
5王刚,李宁宁,杨善林.基于IDSSL的文本情感分析研究[J].管理工程学报,2018,32(3):126-133. 被引量：6
6徐海龙,龙光正,别晓峰,吴天爱,郭蓬松.结合Tri-training半监督学习和凸壳向量的SVM主动学习算法[J].模式识别与人工智能,2016,29(1):39-46. 被引量：6
7胡学钢,马利伟,李培培.一种基于Tri-training的数据流集成分类算法[J].数据采集与处理,2017,32(5):853-860. 被引量：5
8吴明胜,邓晓刚.基于Tri-DE-ELM的半监督模式分类方法研究[J].计算机工程与应用,2018,54(3):109-114. 被引量：7
9余本功,陈杨楠,杨颖.基于nBD-SVM模型的投诉短文本分类[J].数据分析与知识发现,2019,3(5):77-85. 被引量：12
10刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：124

二级参考文献196

1徐杰,施鹏飞.图像检索中基于标记与未标记样本的主动学习算法[J].上海交通大学学报,2004,38(12):2068-2072. 被引量：7
2李东晖,杜树新,吴铁军.基于壳向量的线性支持向量机快速增量学习算法[J].浙江大学学报（工学版）,2006,40(2):202-206. 被引量：15
3郑恩辉,李平,宋执环.代价敏感支持向量机[J].控制与决策,2006,21(4):473-476. 被引量：33
4路晶,金奕江,马少平,茹立云.使用基于SVM的否定概率和法的图像标注[J].智能系统学报,2006,1(1):62-66. 被引量：2
5张翔,肖小玲,徐光祐.基于最大熵估计的支持向量机概率建模[J].控制与决策,2006,21(7):767-770. 被引量：12
6毛勇,周晓波,夏铮,尹征,孙优贤.特征选择算法研究综述[J].模式识别与人工智能,2007,20(2):211-218. 被引量：94
7杨剑,王珏,钟宁.流形上的Laplacian半监督回归[J].计算机研究与发展,2007,44(7):1121-1127. 被引量：15
8芮晓光,袁平波,何芳,俞能海.一种新的基于语义聚类和图算法的自动图像标注方法[J].中国图象图形学报,2007,12(2):239-244. 被引量：9
9Chapelle O,Scholkopf B,Zien A. Semi-Supervised Learning[M].Cambridge,ma:the Mit Press,2006.
10Zhu X J. Semi-supervised Learning Literature Survey.Technical Report 1530[R].Department of Computer Sciences,University of Wisconsin at Madison,Madison,WI,2006.

共引文献280

1崔文泉,余厚莹,侯晓天.不均衡数据情形的基于聚焦损失的CGAN的集成分类方法[J].中国科学技术大学学报,2020,50(7):968-976.
2胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：8
3姜新盈,王舒梵,严涛.基于层次密度聚类的去噪自适应混合采样[J].计算机系统应用,2022,31(10):206-210.
4麻瓯勃,刘雪娇,唐旭栋,周宇轩,胡亦承.基于半监督学习的恶意URL检测方法[J].计算机系统应用,2020(11):11-20. 被引量：3
5余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：9
6徐畅,丁俊琦,赵聃桐,乔岩,张领先.基于LightGBM和处方数据的番茄病害诊断方法[J].农业机械学报,2022,53(9):286-294. 被引量：3
7刘允峰,佟季萱,叶应图.动态数据流集成分类算法综述[J].渤海大学学报（自然科学版）,2023,44(1):79-91.
8刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
9赵建华.一种安全的基于分歧的半监督分类算法[J].西华大学学报（自然科学版）,2014,33(5):1-6. 被引量：2
10赵建华.基于SOM神经网络的半监督分类算法[J].西华大学学报（自然科学版）,2015,34(1):36-40. 被引量：7

同被引文献47

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：8
2余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：9
3陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
4梁艳红,檀润华,马建红.面向产品创新设计的专利文本分类研究[J].计算机集成制造系统,2013,19(2):382-390. 被引量：16
5周志华.基于分歧的半监督学习[J].自动化学报,2013,39(11):1871-1878. 被引量：83
6肖进,刘潇潇,谢玲,刘敦虎,黄静.代价敏感的目标客户选择半监督集成模型研究[J].中国管理科学,2018,26(11):186-196. 被引量：4
7刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：124
8李天彩,席耀一,王波,张佳明.一种改进的短文本层次聚类算法[J].信息工程大学学报,2015,16(6):743-748. 被引量：5
9刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：94
10刘龙繁,李彦,马金龙,杜晓娇,刘红围.基于知识粒度的TRIZ在创新设计中的应用[J].机械工程学报,2016,52(5):22-32. 被引量：20

引证文献5

1袁丽莉,侯磊,张正平.LDA最大概率填充与BiLSTM模型的文本分类研究[J].智能计算机与应用,2021,11(12):32-36. 被引量：1
2余本功,汲浩敏.基于多粒度建模的半监督文本分类方法研究[J].现代情报,2021,41(6):42-53. 被引量：3
3刘硕,王庚润,任玉媛.基于LOTClass模型的弱监督中文短文本分类算法[J].信息工程大学学报,2021,22(5):613-620.
4李振宇,战洪飞,余军合,王瑞,邓慧君.基于深度学习的专利知识推荐服务研究[J].计算机工程与应用,2022,58(15):95-109. 被引量：5
5高军,陈见飞,杨世军,王耀坤,狄广义.基于半监督协同训练的多标签文本分类模型[J].信息与电脑,2023,35(22):170-174.

二级引证文献9

1黄金源,孙若莹.大宗商品交易领域词典构建[J].北京信息科技大学学报（自然科学版）,2022,37(1):71-75.
2王国英.基于多粒度与动态词向量的机器翻译关键技术研究[J].自动化与仪器仪表,2022(9):181-185. 被引量：1
3琚沅红,牟冬梅,王书童,李桦,徐静雯,吕淑贞.少样本高质量医学知识的命名实体识别研究——以肺癌诊疗规范为例[J].现代情报,2023,43(2):9-19. 被引量：3
4王金凤,陈慧源,刘振锋,冯立杰,赵伟宇.基于生成式拓扑映射和类比设计方法的技术机会识别[J].情报理论与实践,2023,46(6):127-135.
5曾金晶,何惠烨.基于四螺旋理论的高校专利推荐知识图谱构建[J].情报探索,2023(10):81-89. 被引量：1
6孙佳奇,谭小波,郭浩然,张忠良.基于动态阈值的可变速率DDoS攻击检测方法[J].沈阳工程学院学报（自然科学版）,2024,20(1):48-54.
7高军,陈见飞,杨世军,王耀坤,狄广义.基于半监督协同训练的多标签文本分类模型[J].信息与电脑,2023,35(22):170-174.
8陈嘉濠,胡伟,贺芯,胡淼,陈蔚琦,刘晓勇.基于专利数据挖掘的国内外专利推荐技术研究现状与未来优化方向[J].中国发明与专利,2024,21(4):16-24.
9朱始初,李雪莲,方志坚.基于设计师画像的行业信息推荐平台研究[J].Design（汉斯）,2023,8(4):4026-4034.

1张帆宇,杨大炼,李学军,苗晶晶,张宏献.变分模态分解与深度信念网络的双转子不对中程度识别[J].机械科学与技术,2020,39(5):773-779. 被引量：3
2马奕新,张虎,王娴,唐桂华.TCi方法测试理论假设引入测量误差数值分析[J].科学通报,2020,65(8):740-749.
3李季兰.基于深度对抗生成网络的彩超图像半监督分类研究[J].现代计算机,2020,26(30):47-51. 被引量：4
4景丽,李曼曼,何婷婷.结合扩充词典与自监督学习的网络评论情感分类[J].计算机科学,2020,47(S02):78-82. 被引量：11
5陈广民,郭雷,李恩有.丙泊酚靶控输注准确性的研究进展[J].中国现代应用药学,2020,37(19):2428-2432. 被引量：9
6文海家,黄健豪,袁性涵,谢朋,薛靖元.基于数值试验的山岭隧道围岩稳定性GIS-SVM预测[J].岩石力学与工程学报,2020,39(S01):2920-2929. 被引量：14
7张志宏,卢淑雯.米糠的营养功效及在饲料中的应用进展[J].饲料研究,2020,43(10):139-142. 被引量：3
8晋菲斐,姚晨,马军,陈蔚,阎小妍,王斌,朱赛楠.高效可行的临床真实世界数据采集模式探索——海南博鳌乐城国际医疗旅游先行区的实践[J].中国食品药品监管,2020(11):21-31. 被引量：15
9黄亚南,曾诚,胡梦楚,黄湘杰,高玉松.UPLC法同时测定小建中颗粒中8种有效成分[J].中国药师,2020,23(11):2287-2290. 被引量：4

数据分析与知识发现

2020年第10期

浏览历史

内容加载中请稍等...

基于DW-TCI的半监督文本分类方法研究被引量：5

参考文献10

二级参考文献196

共引文献280

同被引文献47

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于DW-TCI的半监督文本分类方法研究 被引量：5

参考文献10

二级参考文献196

共引文献280

同被引文献47

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于DW-TCI的半监督文本分类方法研究被引量：5