-
题名一种基于论文画像的科技文献数据去重算法
- 1
-
-
作者
白文磊
常丽琼
郭军
刘宝英
甘大广
-
机构
西北大学信息科学与技术学院
西北大学京东人工智能与物联网联合研究院
万方数据有限公司
-
出处
《计算机技术与发展》
2022年第8期148-154,共7页
-
基金
国家重点研发计划项目(2017YFB1400301)。
-
文摘
快速准确地将不同数据库中重复数据过滤清除是构建数据仓库的重要技术之一。在科技文献资源服务领域,传统的数据去重方法主要是利用数据库检索技术,进行字段内容匹配,过滤内容相同的论文数据.然而,分布在不同数据库中的论文,一般有着不同的字段信息和字段类型,即使有相同的字段也会因为字段内容可能存在乱码信息,导致算法鲁棒性不强,这是传统搜索查找匹配方法面临的一个主要挑战。为解决这个问题,借鉴推荐系统中物品画像和人物画像算法的思想,该文提出了一种基于论文画像的科技文献数据去重算法。该算法通过tf-idf技术提取文章摘要中的关键字信息,再将关键字信息通过word2vec转换为词向量,进而计算出论文之间的相似程度并过滤掉重复数据。实验结果表明,在真实的大型论文数据集下,该算法能够有效去除重复信息,auc均值可达到0.98以上。
-
关键词
论文画像
数据清洗
数据去重
词频-逆文档频率
词向量
-
Keywords
paper portrait
data clean
data deduplication
tf-idf
word2vec
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-