科技资源文本层次多标签分类(hierarchical multi-label text classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中。提出基于注意力机制的科技资源文本层次多标签分类算法(academic resource text hierarchical...科技资源文本层次多标签分类(hierarchical multi-label text classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中。提出基于注意力机制的科技资源文本层次多标签分类算法(academic resource text hierarchical multi-label classification based on attention,AHMCA)。通过整合文本、关键词、层次结构等特征构造注意力机制层,对HMCN-F(hierarchical multi-label classification network-feed-forward)网络进行改进,将科技资源文档逐级分类到最相关的类别中。细节上,主要利用word2vec与BiLSTM来获得文本、关键词、层次结构的嵌入向量和隐向量表示;利用层次注意力机制捕获关键词、标签层次结构与文本词向量之间的关联关系来强化重点词向量的权重,从而生成特定于层级的文档嵌入向量,替代HMCN-F中原始的文本嵌入。实验结果验证了AHMCA方法的有效性。展开更多
层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深...层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深层标签的样本实例较少且彼此之间语义接近,导致其难以被正确分类。针对上述的问题,文章提出了基于Bert的层次多标签文本分类方法,先利用Bert构建优越的文本表示,再以自上而下逐层的方式利用浅层级的标签信息引导深层级标签的分类,有效地提升了分类精度。实验结果表明所提模型与其它基线模型相比具有更好的分类性能。展开更多
文摘科技资源文本层次多标签分类(hierarchical multi-label text classification,HMTC)用于将科技资源文本分配到一个具有层级结构的标签体系中。提出基于注意力机制的科技资源文本层次多标签分类算法(academic resource text hierarchical multi-label classification based on attention,AHMCA)。通过整合文本、关键词、层次结构等特征构造注意力机制层,对HMCN-F(hierarchical multi-label classification network-feed-forward)网络进行改进,将科技资源文档逐级分类到最相关的类别中。细节上,主要利用word2vec与BiLSTM来获得文本、关键词、层次结构的嵌入向量和隐向量表示;利用层次注意力机制捕获关键词、标签层次结构与文本词向量之间的关联关系来强化重点词向量的权重,从而生成特定于层级的文档嵌入向量,替代HMCN-F中原始的文本嵌入。实验结果验证了AHMCA方法的有效性。
文摘层次多标签文本分类(Hierarchical Multi-label Text Classification, HMTC)是自然语言处理领域(Natural Language Processing, NLP)一项重要的任务。在其由浅至深的标签层次结构中,深层标签更能精确地代表文本所属的标签类别。然而,深层标签的样本实例较少且彼此之间语义接近,导致其难以被正确分类。针对上述的问题,文章提出了基于Bert的层次多标签文本分类方法,先利用Bert构建优越的文本表示,再以自上而下逐层的方式利用浅层级的标签信息引导深层级标签的分类,有效地提升了分类精度。实验结果表明所提模型与其它基线模型相比具有更好的分类性能。