基于并行卷积网络信息融合的层级多标签文本分类算法被引量：3

Hierarchical Multi-label Text Classification Algorithm Based on Parallel Convolutional Network Information Fusion

下载PDF

导出

摘要自然语言处理是人工智能与机器学习领域的重要方向,它的目标是利用计算机技术来分析、理解和处理自然语言。自然语言处理的一个重点研究方向是从文本内容中获取信息,并且按照一定的标签体系或标准将文本内容进行自动分类标记。相比于单一标签文本分类而言,多标签文本分类具有一条数据属于多个标签的特点,使得更难从文本信息中获得多类别的数据特征。层级多标签文本分类又是其中的一个特别的类别,它将文本中的信息对应划分到不同的类别标签体系中,各个类别标签体系又具有互相依赖的层级关系。因此,如何利用其内部标签体系中的层级关系更准确地将文本分类到对应的标签中,也就成了解决问题的关键。为此,提出了一种基于并行卷积网络信息融合的层级多标签文本分类算法。首先,该算法利用BERT模型对文本信息进行词嵌入,接着利用自注意力机制增强文本信息的语义特征,然后利用不同卷积核对文本数据特征进行抽取。通过使用阈值控制树形结构建立上下位的节点间关系,更有效地利用了文本的多方位语义信息实现层级多标签文本分类任务。在公开数据集Kanshan-Cup和CI企业信息数据集上的结果表明,该算法在宏准确率、宏召回率与微F1值3种评价指标上均优于主流的TextCNN,TextRNN,FastText等对比模型,具有较好的层级多标签文本分类效果。 Natural language processing(NLP)is an important research direction in the field of artificial intelligence and machine learning,which aims to use computer technology to analyze,understand,and process natural language.One of the main research areas in NLP is to obtain information from textual content and automatically classify and label textual content based on a certain labeling system or standard.Compared to single-label text classification,multi-label text classification has the characteristic that a data element belongs to multiple labels,which makes it more difficult to obtain multiple categories of data features from textual information.Hierarchical classification of multi-label texts isa special category,whichdivides the information contained in the text into different category labeling systems,and each category labeling system has an interdependent hierarchical relationship.Therefore,the use of the hierarchical relationship in the internal labeling system to more accurately classify the text into corresponding labels becomes the key to solving the problem.To this end,this paper proposes a hierarchical classification algorithm for multi-label texts based on the fusion of parallel convolutional network information.First,the algorithm uses the BERT model for word integration in textual information,then it enhances the semantic features of textual information using a self-attention mechanism and extracts the features of textual data using different convolutional kernels.The multi-faceted semantic information of the text is more effectively used for the task of a hierarchical classification of multi-label texts by using a threshold-controlled tree structure to establish inter-node relationships between higher and lower bits.The results obtained on the Kanshan-Cup public dataset and the CI enterprise information dataset show that the algorithm outperforms TextCNN,TextRNN,FastTex and other comparative models in three evaluation measures,namely macro-precision,macro-recall,and micro F1 value,and has a better cascade multi-label text classification effect.

作者易流耿新宇白静 YI Liu;GENG Xinyu;BAI Jing(School of Computer Science,Southwest Petroleum University,Chengdu 610000,China)

机构地区西南石油大学计算机科学学院

出处《计算机科学》 CSCD 北大核心 2023年第9期278-286,共9页 Computer Science

基金四川省科技计划项目(2022NSFSC0555)。

关键词层级多标签文本分类预训练模型注意力机制卷积神经网络树形结构 Hierarchical multi-label text classification Pre-training model Attention mechanism Convolutional neural network Tree structure

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1郑诚,洪彤彤,薛满意.用于短文本分类的BLSTM_MLPCNN模型[J].计算机科学,2019,46(6):206-211. 被引量：9
2段丹丹,唐加山,温勇,袁克海.基于BERT模型的中文短文本分类算法[J].计算机工程,2021,47(1):79-86. 被引量：68

二级参考文献10

1宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
2刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：9
3饶高琦,于东,荀恩东.基于自然标注信息和隐含主题模型的无监督文本特征抽取[J].中文信息学报,2015,29(6):141-149. 被引量：4
4李理,应三丛.基于FPGA的卷积神经网络Softmax层实现[J].现代计算机（中旬刊）,2017(9):21-24. 被引量：16
5孙昭颖,刘功申.面向短文本的神经网络聚类算法研究[J].计算机科学,2018,45(B06):392-395. 被引量：14
6高云龙,左万利,王英,王鑫.基于集成神经网络的短文本分类模型[J].吉林大学学报（理学版）,2018,56(4):933-938. 被引量：12
7陈巧红,王磊,孙麒,贾宇波.卷积神经网络的短文本分类方法[J].计算机系统应用,2019,28(5):137-142. 被引量：13
8冯勇,屈渤浩,徐红艳,王嵘冰,张永刚.融合TF-IDF和LDA的中文FastText短文本分类方法[J].应用科学学报,2019,37(3):378-388. 被引量：30
9吴彦文,黄凯,王馨悦,林娴.一种融合主题模型的短文本情感分类方法[J].小型微型计算机系统,2019,40(10):2082-2086. 被引量：19
10杨飘,董文永.基于BERT嵌入的中文命名实体识别方法[J].计算机工程,2020,46(4):40-45. 被引量：96

共引文献74

1郭子晨,李昆阳,娄嘉鹏.基于深度学习的多通道多任务学习判决预测模型[J].北京电子科技学院学报,2022,30(4):105-114.
2Zhixiang Ji,Xiaohui Wang,Changyu Cai,Hongjian Sun.Power entity recognition based on bidirectional long short-term memory and conditional random fields[J].Global Energy Interconnection,2020,3(2):186-192. 被引量：7
3金宁,赵春江,吴华瑞,缪祎晟,李思,杨宝祝.基于BiGRU_MulCNN的农业问答问句分类技术研究[J].农业机械学报,2020,51(5):199-206. 被引量：17
4彭俊利,谷雨,张震,耿小航.融合单词贡献度与Word2Vec词向量的文档表示[J].计算机工程,2021,47(4):62-67. 被引量：15
5刘昌澍,李响,詹瑾瑜,江维,李博智,曹扬,杨瑞.基于TextCNN和LightGBM的导游违规行为检测[J].计算机技术与发展,2021,31(5):143-149. 被引量：1
6邢照野,刘晓群.基于改进ERNIE模型的中文文本分类方法[J].信息与电脑,2021,33(8):87-89. 被引量：3
7王永鹏,周晓磊,马慧敏,曹吉龙,无.联合知识的融合训练模型[J].计算机系统应用,2021,30(7):50-56. 被引量：1
8田沛霖,符海滕,马力禹,罗琳.融合对抗训练和CNN-BiGRU神经网络的新闻文本分类模型[J].图书情报导刊,2021,6(8):38-45. 被引量：3
9李瑜泽,栾馨,柯尊旺,李哲,吾守尔·斯拉木.知识感知的预训练语言模型综述[J].计算机工程,2021,47(9):18-33. 被引量：4
10陈国心.基于自然语言处理的评教文本分类与分析[J].西安航空学院学报,2021,39(3):91-96.

同被引文献17

1张功成,杨东升,郭帅,王龙,吕成福.基岩潜山三元主导油气成藏模式——兼论南海北部深水区勘探新领域[J].天然气地球科学,2023,34(12):2045-2061. 被引量：1
2陈宇,许莉薇.基于优化LM模糊神经网络的不均衡林业信息文本分类算法[J].中南林业科技大学学报,2015,35(4):27-32. 被引量：4
3陈宇,王明月,许莉薇.基于DE-ELM的林业信息文本分类算法[J].计算机工程与设计,2015,36(9):2412-2415. 被引量：5
4陈广胜,李思阳,张凡,李丹.基于林业主题的PageRank算法优化的研究[J].黑龙江大学自然科学学报,2016,33(4):533-538. 被引量：2
5宋明惠,陈俊华,朱晨笛,仝铠溦.协同过滤算法在专业推荐中的应用——以北京林业大学信息学院为例[J].科技资讯,2019,17(8):216-217. 被引量：2
6马中良.中国石化石油勘探开发研究院无锡石油地质研究所实验地质技术之源-储协同演化模拟实验技术[J].石油实验地质,2021,43(2). 被引量：3
7张佳薇,谈志强,李明宝,郑岳涵.融合双频段信息的林业无线传感网节点测距算法[J].科学技术与工程,2021,21(23):9782-9789. 被引量：1
8张航,周传杰,张林,陈节涛,徐春梅,彭道刚.基于概率神经网络−小波神经网络−DS信息融合的电厂引风机故障诊断[J].发电技术,2022,43(6):951-958. 被引量：4
9杜心宇.中国石化石油勘探开发研究院无锡石油地质研究所实验地质技术之液滴形状分析仪[J].石油实验地质,2023,45(3). 被引量：1
10朱峰.中国石化石油勘探开发研究院无锡石油地质研究所实验地质技术之核磁共振岩心分析技术[J].石油实验地质,2023,45(4). 被引量：2

引证文献3

1邓辉.基于深度学习的林业信息文本分类算法研究[J].信息与电脑,2024,36(4):65-67.
2李国元,柴明锐,王文静,郭鑫,刘文奎.基于模糊逻辑法的石油勘探开发数据自动集成方法[J].石油化工自动化,2024,60(3):51-54.
3胡文涛,魏丹,付童童,张鹏德,高洁.基于神经网络信息融合的油气藏信息存储系统设计[J].石油化工自动化,2024,60(3):72-75.

1翟大臣,全秀丽,刘涵冰,贾宁.煤矿智能化与网络信息融合的实现——基于人工智能技术的分析和应用[J].中文科技期刊数据库（全文版）工程技术,2023(7):141-144.
2魏大学.以生为友同成长[J].云南教育（小学教师）,2022(12):44-45.
3程楠.MRI诊断股骨头坏死的临床价值[J].中国伤残医学,2023,31(12):47-50.
4冯慷.基于XML技术的异构网络信息融合共享系统[J].电子设计工程,2023,31(10):182-185. 被引量：2
5刘敏茹.基于情境的小学数学多元化作业设计[J].数学大世界（中旬）,2022(11):35-37. 被引量：1
6张羽敏,贺元启,郑晓平.境外风电项目成本控制与管理研究[J].建筑经济,2023,44(S01):240-244.
7高靖超,彭丽徽,张艳丰,蒋欣,洪闯.在线医疗社区健康焦虑用户画像模型构建及实证研究[J].图书情报工作,2023,67(16):124-134. 被引量：2
8Xudong Li,Wei Li,Jiangtao Qiu,Bing Feng,Xiang Liu.Research on Deformation Mode of the Longmenshan-Longriba Region Using GPS and Leveling Data[J].International Journal of Geosciences,2023,14(7):619-634.
9高郦梅.论数据交易合同规则的适用[J].法商研究,2023,40(4):31-44. 被引量：11
10肖航.低风速风力机叶片气动设计方法研究[J].新能源科技,2023,4(1):50-56.

计算机科学

2023年第9期

浏览历史

内容加载中请稍等...

基于并行卷积网络信息融合的层级多标签文本分类算法被引量：3

参考文献2

二级参考文献10

共引文献74

同被引文献17

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于并行卷积网络信息融合的层级多标签文本分类算法 被引量：3

参考文献2

二级参考文献10

共引文献74

同被引文献17

引证文献3

相关作者

相关机构

相关主题

浏览历史

基于并行卷积网络信息融合的层级多标签文本分类算法被引量：3