基于Stacking集成学习的大规模文本层次分类方法被引量：12

Large Scale Text Hierarchical Classification Method Based on Stacking Ensemble Learning

下载PDF

导出

摘要 [目的/意义]大规模文本层次分类问题是当前文本分类领域中的研究难点之一。由于数据规模和类别数量巨大,分类难以达到理想的效果。针对该问题,提出基于Stacking集成学习的大规模文本层次分类方法。[方法/过程]该方法使用自上而下方法实现分类,分别采用两类策略来训练高层和低层分类器。训练高层分类器(第一层和第二层)时采用多分类策略,根据高层分类结果设计了一种约束算法来选择合适的低层分类器。训练低层分类器时采用二分类策略,利用Stacking算法训练每个低层类别的基分类器和融合分类器,通过融合分类器预测结果排名选择得分最高的分类标签作为分类结果。[结果/结论]在中文期刊数据集上的实验结果表明,该方法能够有效提升大规模文本层次分类的效果。 [Purpose/significance]Large-scale text hierarchical classification is one of the difficult points in the current text classification research field.Due to large-scale data and categories,it is difficult to achieve desired classification effect.To solve the problem,a large-scale text hierarchical classification method based on Stacking ensemble learning was proposed.[Method/process]The method used a top-down approach to classify and used two types of strategies to train high-level and low-level classifiers.The high-level(first and second)classifiers were trained to adopt the multi-classification strategy,according to the high-level classification results of the document,a constraint algorithm was designed to select the appropriate low-level classifiers.The low-level classifiers were trained to adopt the binary classification strategy,and the Stacking algorithm was used to train the base classifier and fusion classifier of each lower-level class,and the class label with the highest score was returned according to the prediction results of the fusion classifier as the classification result.[Result/conclusion]The results of the experiment on the Chinese journal literature dataset show that the proposed method can effectively improve the accuracy of large-scale text hierarchical classification.

作者冉亚鑫韩红旗张运良翁梦娟高雄彭柯芸 Ran Yaxin

机构地区中国科学技术信息研究所富媒体数字出版内容组织与知识服务重点实验室四川省甘孜藏族自治州科学技术信息研究所

出处《情报理论与实践》 CSSCI 北大核心 2020年第10期171-176,182,共7页 Information Studies:Theory & Application

基金中国工程科技知识中心建设项目“知识组织体系建设”(项目编号:CKCEST-2020-1-19) 中国科学技术信息研究所重点工作项目“多模态知识图谱构建关键技术研究”(项目编号:ZD2020-09)的成果之一。

关键词 Stacking算法文本分类层次分类深度学习集成学习 stacking algorithm text classification hierarchical classification deep learning ensemble learning

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献14

1李保利.基于类别层次结构的多层文本分类样本扩展策略[J].北京大学学报（自然科学版）,2015,51(2):357-366. 被引量：17
2翟文洁,闫琰,张博文,殷绪成.基于混合深度信念网络的多类文本表示与分类方法[J].情报工程,2016,2(5):30-40. 被引量：8
3蔡毅,朱秀芳,孙章丽,陈阿娇.半监督集成学习综述[J].计算机科学,2017,44(S1):7-13. 被引量：33
4吴挡平,张忠林,曹婷婷.基于Stacking策略的稳定性分类器组合模型研究[J].小型微型计算机系统,2019,40(5):1045-1049. 被引量：10
5谭金波.一种改进的文档层次分类方法[J].现代图书情报技术,2007(2):56-59. 被引量：3
6刘琼昕,宋祥,王鹏.面向出版社富媒体知识的文本分类研究[J].情报工程,2019,5(2):40-48. 被引量：3
7黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
8代令令,蒋侃.基于fastText的中文文本分类[J].计算机与现代化,2018(5):35-40. 被引量：19
9殷亚博,杨文忠,杨慧婷,许超英.基于卷积神经网络和KNN的短文本分类算法研究[J].计算机工程,2018,44(7):193-198. 被引量：40
10邹权,宋莉,陈文强,曾建沧,林琛.基于集成学习和分层结构的多分类算法[J].模式识别与人工智能,2015,28(9):781-787. 被引量：9

二级参考文献167

1李霞,张田文,郭政.一种基于递归分类树的集成特征基因选择方法[J].计算机学报,2004,27(5):675-682. 被引量：26
2袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
3薛春香,侯汉清.数字信息资源的自动分类和主题识别——OCLC“蝎子计划”研究[J].图书馆杂志,2005,24(1):24-28. 被引量：7
4张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005,31(8):171-172. 被引量：97
5唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
6叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
7周山丹.媒体出版社面临的挑战与机遇[J].编辑之友,2005(6):25-26. 被引量：3
8凌云,刘军,王勋.多层次web文本分类[J].情报学报,2005,24(6):684-689. 被引量：12
9薛春香,夏祖奇,侯汉清.基于语料和基于标引经验的自动分类模式比较[J].南京农业大学学报（社会科学版）,2005,5(4):85-92. 被引量：10
10朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326

共引文献325

1夏润亮,刘启兴,李涛,刘晓燕,高云飞,吴丹.基于集成学习的黄河未控区径流预测研究[J].应用基础与工程科学学报,2020(3):740-749. 被引量：7
2冯建英,苏允汇,龚劭齐,王智,穆维松.基于集成学习的农业生产技术效率评价方法[J].农业机械学报,2021,52(S01):148-155. 被引量：6
3陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：18
4张丽颖,杨若瑾.基于机器学习的个人贷款违约预测模型的应用研究[J].金融监管研究,2022(6):46-59. 被引量：4
5王序臻.Web文本层次分类方法研究[J].温州职业技术学院学报,2008,8(3):44-47.
6魏韡,向阳,陈千.中文文本情感分析综述[J].计算机应用,2011,31(12):3321-3323. 被引量：70
7谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：198
8王中卿,李寿山,朱巧明,李培峰,周国栋.基于不平衡数据的中文情感分类[J].中文信息学报,2012,26(3):33-37. 被引量：11
9庞磊,李寿山,张慧,周国栋.基于微博的股票投资者未来情感倾向识别研究[J].计算机科学,2012,39(B06):249-252. 被引量：3
10何力,贾焰,韩伟红,谭霜,陈志坤.大规模层次分类问题研究及其进展[J].计算机学报,2012,35(10):2101-2115. 被引量：14

同被引文献139

1李瑶,周正松.基于长短时记忆网络的人才培养模型设计[J].电脑知识与技术,2020,0(4):152-153. 被引量：1
2叶新明.基于《中图法》的中文文献自动分类[J].情报学报,1995,14(6):423-433. 被引量：11
3唐崇敏,官建成.基于DEA方法的科学论文产出效率分析[J].科学学与科学技术管理,2007,28(6):28-34. 被引量：8
4王丹丹.基于LIBQUAL＋的高校图书馆服务质量之IPA分析[J].情报科学,2008(9):1349-1352. 被引量：8
5成颖,史九林.自动分类研究现状与展望[J].情报学报,1999,18(1):20-26. 被引量：37
6李湘东,徐朋,黄莉,沈祥兴.基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J].图书情报知识,2010,27(4):71-76. 被引量：7
7林纲.网络新闻文本结构的语法特征[J].社会科学家,2010,25(7):155-157. 被引量：7
8王昊,严明,苏新宁.基于机器学习的中文书目自动分类研究[J].中国图书馆学报,2010,36(6):28-39. 被引量：37
9文榕生.类目控制是《中图法》修订的重点之一[J].图书馆论坛,2010,30(6):205-208. 被引量：5
10程爱宝,古德生,刘洪强.基于AHP与粗糙集理论的采空区稳定性影响因素权重分析[J].中国安全生产科学技术,2011,7(9):50-55. 被引量：18

引证文献12

1刘安强,王子童.基于Stacking集成学习的采空区地面塌陷危险性预测[J].能源与环保,2020,42(9):54-58. 被引量：5
2曾寰,李金忠,付青.基于集合运算特征提取及Stacking策略的新闻多分类方法[J].井冈山大学学报（自然科学版）,2021,42(2):70-75. 被引量：1
3赵革委,胡海东.基于局部卷积神经网络算法的文本分类识别[J].微型电脑应用,2021,37(8):136-139. 被引量：1
4赵旸,张智雄,刘欢.基于层次分类法的中文医学文献分类研究[J].图书馆学研究,2021(21):49-55. 被引量：7
5王婉,张向先,卢恒,张莉曼.融合FastText模型和注意力机制的网络新闻文本分类模型[J].现代情报,2022,42(3):40-47. 被引量：7
6戎璐,张亚洲.一种注意力序列到序列模型的生成式层次文档分类[J].图书馆学研究,2022(5):45-56. 被引量：3
7周玄郎,邱卫根,张立臣.融合文本图卷积和集成学习的文本分类方法[J].计算机应用研究,2022,39(9):2621-2625. 被引量：4
8张智雄,赵旸,刘欢.构建面向实际应用的科技文献自动分类引擎[J].中国图书馆学报,2022,48(4):104-115. 被引量：10
9徐成桂,徐广顺.基于模糊数学理论的高维小样本数据特征分类系统[J].现代电子技术,2022,45(23):166-170. 被引量：1
10王文娜,许正良,李贺,谷莹,刘金承.共享住宿平台用户关注主题挖掘研究——典型城市差异分析的视角[J].图书情报工作,2023,67(9):121-131. 被引量：1

二级引证文献34

1章有明.露天矿采空区处理中的安全防治措施研究[J].内蒙古煤炭经济,2020(15):53-54. 被引量：1
2王菲.程序设计语言数组串行运算方法研究[J].信息与电脑,2021,33(8):53-55.
3秦胜伍,张延庆,张领帅,苗强,程秋实,苏刚,孙镜博.基于Stacking模型融合的深基坑地面沉降预测[J].吉林大学学报（地球科学版）,2021,51(5):1316-1323. 被引量：17
4张文龙,张童康.集成InSAR与高分影像的地质灾害隐患早期识别与应用研究[J].能源与环保,2022,44(7):9-14. 被引量：5
5张智雄,赵旸,刘欢.构建面向实际应用的科技文献自动分类引擎[J].中国图书馆学报,2022,48(4):104-115. 被引量：10
6毛银,赵俊.基于BERT变种模型的情感分析实现[J].现代计算机,2022,28(18):52-56. 被引量：1
7申喜凤,李美婷,张维宁,南嘉乐,孙媛媛,付玉伟,高东平.基于多特征融合的医疗社区问题文本聚类研究[J].中国数字医学,2022,17(12):28-34.
8赵志杰,张艳艳,毛翔宇.基于改进Adam优化算法的中文短文本分类方法[J].电子测量技术,2022,45(23):132-138. 被引量：3
9王宇飞,张智雄,赵旸,张梦婷,李雪思.中文科技论文标题自动生成系统的设计与实现[J].数据分析与知识发现,2023,7(2):61-71. 被引量：1
10李晓瑛,刘懿,李爱花,杨雪梅,唐小利.生物医学领域多源文献数据学科映射方法优化研究[J].数字图书馆论坛,2023,19(3):1-9.

1王丹丹.网络级联抗毁攻击信息层次化分类仿真研究[J].计算机仿真,2020,37(2):329-333.
2张雷东,王嵩,李冬梅,朱湘宁,焦艳菲.多种算法融合的产品销售预测模型应用[J].计算机系统应用,2020,29(9):244-248. 被引量：4
3周雄飞.湘西旅游公路景观资源利用研究[J].公路工程,2020,45(3):223-228. 被引量：4
4王志捷.基于“三位一体”构建方法及“7C”写作原则的实际英语外贸函电撰写策略浅析[J].校园英语,2020(28):44-45.
5林蔚,杨冰,林宝仁.基于tensorflow的糖尿病视网膜病变筛查系统研究[J].中国医疗器械信息,2020,26(19):26-27.
6郝旭东,孙伟,程定一,张国强,匡洪辉.基于Q强化学习的综合能源服务商现货市场申报策略研究[J].电力建设,2020,41(9):132-138. 被引量：3
7易尧,焦铬.基于聚类算法的企业设备状态智能监控系统设计[J].电脑与信息技术,2020,28(5):49-52.
8吕迪,徐坤,李慧云,潘仲鸣.融合类人驾驶行为的无人驾驶深度强化学习方法[J].集成技术,2020,9(5):34-47. 被引量：2
9鲜焱,吕佳.基于核均值漂移聚类的改进局部协同训练算法[J].重庆师范大学学报（自然科学版）,2020,37(4):106-113. 被引量：3

情报理论与实践

2020年第10期

浏览历史

内容加载中请稍等...

基于Stacking集成学习的大规模文本层次分类方法被引量：12

参考文献14

二级参考文献167

共引文献325

同被引文献139

引证文献12

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于Stacking集成学习的大规模文本层次分类方法 被引量：12

参考文献14

二级参考文献167

共引文献325

同被引文献139

引证文献12

二级引证文献34

相关作者

相关机构

相关主题

浏览历史

基于Stacking集成学习的大规模文本层次分类方法被引量：12