层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深...层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深层标签的样本实例较少且彼此之间语义接近,导致其难以被正确分类。针对上述的问题,文章提出了基于Bert的层次多标签文本分类方法,先利用Bert构建优越的文本表示,再以自上而下逐层的方式利用浅层级的标签信息引导深层级标签的分类,有效地提升了分类精度。实验结果表明所提模型与其它基线模型相比具有更好的分类性能。展开更多
基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基...基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。展开更多
文摘层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深层标签的样本实例较少且彼此之间语义接近,导致其难以被正确分类。针对上述的问题,文章提出了基于Bert的层次多标签文本分类方法,先利用Bert构建优越的文本表示,再以自上而下逐层的方式利用浅层级的标签信息引导深层级标签的分类,有效地提升了分类精度。实验结果表明所提模型与其它基线模型相比具有更好的分类性能。
文摘基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。