[研究目的]探索自然语言处理(Natural Language Processing,NLP)在其他学科领域的影响力,以促进技术的落地应用与创新研究。构建NLP主题分类体系与数据集,能为未来相关论文主题识别、NLP跨学科知识扩散提供有力支撑。[研究方法]利用《...[研究目的]探索自然语言处理(Natural Language Processing,NLP)在其他学科领域的影响力,以促进技术的落地应用与创新研究。构建NLP主题分类体系与数据集,能为未来相关论文主题识别、NLP跨学科知识扩散提供有力支撑。[研究方法]利用《中国图书馆分类法》以及论文间的引证关系,从中国知网采集2159篇NLP典型文献与1376篇非典型文献,可视化分析文献所属刊物、学科分类号的频次信息,提出NLP领域4层级主题分类体系,并据此构建论文多主题分类数据集“NLP-others”,进行文献的多标签分类。[研究结论]NLP在自然、社会与人文各领域均有程度不同的影响,与图书情报学的联系最为密切。相关技术甚至能拓展到处理非自然语言的序列。知识库与知识图谱、神经网络、舆情分析是被广泛提及或应用的技术;LDA、LSTM、CRF、BERT则是在其他领域应用较多的模型算法。展开更多
文摘[研究目的]探索自然语言处理(Natural Language Processing,NLP)在其他学科领域的影响力,以促进技术的落地应用与创新研究。构建NLP主题分类体系与数据集,能为未来相关论文主题识别、NLP跨学科知识扩散提供有力支撑。[研究方法]利用《中国图书馆分类法》以及论文间的引证关系,从中国知网采集2159篇NLP典型文献与1376篇非典型文献,可视化分析文献所属刊物、学科分类号的频次信息,提出NLP领域4层级主题分类体系,并据此构建论文多主题分类数据集“NLP-others”,进行文献的多标签分类。[研究结论]NLP在自然、社会与人文各领域均有程度不同的影响,与图书情报学的联系最为密切。相关技术甚至能拓展到处理非自然语言的序列。知识库与知识图谱、神经网络、舆情分析是被广泛提及或应用的技术;LDA、LSTM、CRF、BERT则是在其他领域应用较多的模型算法。