[目的/意义]论文学科分类是科学计量学领域的核心问题之一,对于科研评价实践具有重要意义。[方法/过程]本研究提出了一种基于多代参考文献的单篇学术论文学科分类方法,其核心是基于对目标文献多代参考文献信息的挖掘形成较为完整的学科...[目的/意义]论文学科分类是科学计量学领域的核心问题之一,对于科研评价实践具有重要意义。[方法/过程]本研究提出了一种基于多代参考文献的单篇学术论文学科分类方法,其核心是基于对目标文献多代参考文献信息的挖掘形成较为完整的学科结构,进而为目标文献分配1~3个学科类别。为验证该方法的有效性,本研究以1999—2018年Web of Science核心合集所收录的学术论文作为研究对象,对单篇论文的学科分类效果进行比较,并从学科领域和期刊层面展开应用场景的探讨。[结果/结论]结果表明,利用多代参考文献的学科类别信息可以降低目标文献中学科分类的熵值,有效提升单篇学术论文的学科分类效果;通过运用不同的权重设置规则和多学科科学处理策略,可以在一定程度上解决多学科期刊文献的学科分类问题,并且可以为跨学科学术论文的识别提供可行方案。展开更多
基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基...基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。展开更多
近年来,科学文献呈现增速迅猛、内容复杂、主题细化等特点,给文献分类任务带来了挑战。在此背景下,推动文献自动分类技术的发展,实现科学文献在《中国图书馆分类法》上的正确分类对于信息资源的智能化管理和科学研究的效率化检索具有重...近年来,科学文献呈现增速迅猛、内容复杂、主题细化等特点,给文献分类任务带来了挑战。在此背景下,推动文献自动分类技术的发展,实现科学文献在《中国图书馆分类法》上的正确分类对于信息资源的智能化管理和科学研究的效率化检索具有重要意义。本文提出了多重特征关联和图注意力网络融合的层次分类(hierarchical text clas‐sification networks based on multiple feature correlation and graph attention network,HTCN-MCGAT)模型。该模型由三个模块组成。首先是文献表示与增强模块。为适配文献分类任务,采用表示和增强两阶段流程,重新设计BERT(bi‐directional encoder representation from transformers)预训练模型的微调阶段,使其能够从文献摘要、标题和关键词的内部字符关联以及外部文档关联两个级别实现当前文献的增强表示。其次是标签关联建模模块。使用图注意力网络实现标签语义和层次结构的关系建模。最后是层次交互分类模块。先构建文献和标签的层次融合注意力机制,实现特征空间的文献语义信息与符号空间的层次标签信息的特征关联;再基于多任务学习视角,通过全局和局部信息融合的层次分类网络实现文献分类。本文以中文医学文献作为研究对象,设计系列实验,相较于逐层和平面多分类方法,HTCN-MCGAT模型在F1-score上提高了4.34%~13.21%。此外,还通过样例分析综合验证了本文模型的有效性。本文从特征关联丰富化和层次关系建模两方面对文献分类模型展开优化,在文献分类任务中发挥了较好的应用价值,未来可以推广至更多具有层次结构的分类任务领域。展开更多
文摘[目的/意义]论文学科分类是科学计量学领域的核心问题之一,对于科研评价实践具有重要意义。[方法/过程]本研究提出了一种基于多代参考文献的单篇学术论文学科分类方法,其核心是基于对目标文献多代参考文献信息的挖掘形成较为完整的学科结构,进而为目标文献分配1~3个学科类别。为验证该方法的有效性,本研究以1999—2018年Web of Science核心合集所收录的学术论文作为研究对象,对单篇论文的学科分类效果进行比较,并从学科领域和期刊层面展开应用场景的探讨。[结果/结论]结果表明,利用多代参考文献的学科类别信息可以降低目标文献中学科分类的熵值,有效提升单篇学术论文的学科分类效果;通过运用不同的权重设置规则和多学科科学处理策略,可以在一定程度上解决多学科期刊文献的学科分类问题,并且可以为跨学科学术论文的识别提供可行方案。
文摘基于《中国图书馆分类法》(下简称《中图法》)的文献深层分类蕴含着两个经典的自然语言处理问题:极限多标签文本分类(Extreme Multi-label Text Classification,XMC)和层次文本分类(Hierarchical Text Classification,HTC)。然而目前基于《中图法》的文献分类研究普遍将其视为普通的文本分类问题,由于没有充分挖掘问题的核心特点,这些研究在深层分类上的效果普遍不理想甚至不可行。相较于同类研究,本文基于对《中图法》文献分类特点和难点的深入分析,从XMC和HTC两个角度对基于《中图法》的文献深层分类和相关的解决方案进行了考察和研究,并针对该场景下的特点进行应用和创新,不仅提高了分类的准确度,还扩展了分类的深度和广度。本文模型首先通过适用于XMC问题的轻量深度学习模型提取了文本的语义特征作为分类的基础依据,而后针对《中图法》分类中的HTC问题,利用LTR(Learning to Rank)框架融入包括层级结构信息等多元特征作为分类的辅助依据,极大化地挖掘了蕴含在文本语义及分类体系中的信息和知识。本模型兼具深度学习模型强大的语义理解能力与机器学习模型的可解释性,同时具备良好的可扩展性,后期可较为便捷地融入专家定制的新特征进行提高,并且模型较为轻量,可在有限计算资源下轻松应对数万级别的分类标签,为基于《中图法》的全深度分类奠定良好的基础。
文摘近年来,科学文献呈现增速迅猛、内容复杂、主题细化等特点,给文献分类任务带来了挑战。在此背景下,推动文献自动分类技术的发展,实现科学文献在《中国图书馆分类法》上的正确分类对于信息资源的智能化管理和科学研究的效率化检索具有重要意义。本文提出了多重特征关联和图注意力网络融合的层次分类(hierarchical text clas‐sification networks based on multiple feature correlation and graph attention network,HTCN-MCGAT)模型。该模型由三个模块组成。首先是文献表示与增强模块。为适配文献分类任务,采用表示和增强两阶段流程,重新设计BERT(bi‐directional encoder representation from transformers)预训练模型的微调阶段,使其能够从文献摘要、标题和关键词的内部字符关联以及外部文档关联两个级别实现当前文献的增强表示。其次是标签关联建模模块。使用图注意力网络实现标签语义和层次结构的关系建模。最后是层次交互分类模块。先构建文献和标签的层次融合注意力机制,实现特征空间的文献语义信息与符号空间的层次标签信息的特征关联;再基于多任务学习视角,通过全局和局部信息融合的层次分类网络实现文献分类。本文以中文医学文献作为研究对象,设计系列实验,相较于逐层和平面多分类方法,HTCN-MCGAT模型在F1-score上提高了4.34%~13.21%。此外,还通过样例分析综合验证了本文模型的有效性。本文从特征关联丰富化和层次关系建模两方面对文献分类模型展开优化,在文献分类任务中发挥了较好的应用价值,未来可以推广至更多具有层次结构的分类任务领域。