-
题名基于BERT和引文上下文的文献表征与检索方法研究
被引量:10
- 1
-
-
作者
牛海波
赵丹群
郭倩影
-
机构
北京大学信息管理系
-
出处
《情报理论与实践》
CSSCI
北大核心
2020年第9期125-131,共7页
-
文摘
[目的/意义]文章提出了一种新的基于BERT和引文上下文的文献向量表征方法,旨在有效实现对文献的语义表征及检索。[方法/过程]基于arXiv数据库中"计算语言学"领域的相关文献数据,利用引文上下文将被引文献映射到全局唯一ID,构造包含施引文献引文上下文和被引文献ID的训练语料,通过BERT预训练模型开展训练,将施引文献引文上下文与被引文献ID表征在同一向量空间,进而实现语义计算和检索。[结果/结论]与基于文献全文开展的文献检索方式相比,基于BERT和引文上下文的文献检索方法能够隐含编码被引文献引用强度、被引文献核心概念等关键信息,从而能够更好地表征被引文献。随后,文章开展了语义检索和相似文献发掘实验,结果证明该检索方法切实有效。
-
关键词
引文上下文
BERT
文献表征
语义检索
文献关系挖掘
-
Keywords
citation context
bidirectional encoder representation from transformers
semantic document representation
semantic retrieval
document relationship mining
-
分类号
G252.7
[文化科学—图书馆学]
-