期刊文献+

一种融合标签信息的多标签文本分类方法

Multi-label Text Classification Model Combining the Label Information
下载PDF
导出
摘要 多标签文本分类旨在从若干标签中选取最相关的标签子集来标记一个样本点.传统的研究倾向于探讨标签间关系而忽略标签语义,造成信息提取不完整,因此如何利用标签元数据有效提取样本中的关键信息是需要解决的一个重要问题.为解决上述问题,本文首先提出从现有数据集中生成标签语义元数据的方法,利用注意力模型对样本中混杂的语义进行筛选和清洗,生成标签的语义信息,解决了标签语义获取困难的问题.其次提出combined-attention模型用以提取样本中的关键信息,此模型将标签语义和标签关系结合起来共同提取样本中的信息,并且其内部设置了自适应融合单元,将以上两种关键信息根据其在分类结果中的关键程度自适应分配权重,进一步提升了模型的分类能力.3个英文数据集上的实验结果表明本模型优于最先进的基线方法,在分类精度上最高提升了5.68%,在真实的中文法律数据集上也实现了优异的分类效果. Multi-label text classification aims to select the most relevant labels subset from candidate labels to mark a sample point.Traditional researches tend to explore the relationship between labels but ignore the label semantics,resulting in incomplete information.It is a key problem that how to use label metadata to effectively extract key information from sample.In order to solve above problems,this paper first proposes a method to generate label semantic metadata from the data set.Attention model is used to filter and clean the mixed semantics in the sample and to generate the semantic information of labels.The difficult of learning label semantics is effectively resolved;Secondly,the combined-attention model is proposed to extract the key information in samples by combining label semantics and label relations.The adaptive fusion unit is used to assign weights adaptively for label semantics and label relations based on classification contribution.The classification ability of the model is improved.The experimental results on three English data sets show that our model is superior to other advanced baseline method.The classification accuracy increased by 5.68%at most.On the real Chinese legal data set,our model also achieves excellent effect.
作者 任彦凝 陈俊霖 刘群 REN Yanning;CHEN Junlin;LIU Qun(Chongqing Key Laboratory of Computational Intelligence,Chongqing University of Posts and Telecommunications,Chongqing 400065,China)
出处 《小型微型计算机系统》 CSCD 北大核心 2024年第3期584-590,共7页 Journal of Chinese Computer Systems
基金 国家自然科学基金重点项目(61936001)资助 重庆市教委重点合作项目(HZ2021008)资助 重庆市自然科学基金项目(cstc2021ycjh-bgzxm0013)资助.
关键词 多标签文本分类 注意力 注意力头 语义生成 multi-label text classification attention attention heads semantic generation
  • 相关文献

参考文献1

二级参考文献2

共引文献8

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部