期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于论文画像的科技文献数据去重算法
1
作者 白文磊 常丽琼 +2 位作者 郭军 刘宝英 甘大广 《计算机技术与发展》 2022年第8期148-154,共7页
快速准确地将不同数据库中重复数据过滤清除是构建数据仓库的重要技术之一。在科技文献资源服务领域,传统的数据去重方法主要是利用数据库检索技术,进行字段内容匹配,过滤内容相同的论文数据.然而,分布在不同数据库中的论文,一般有着不... 快速准确地将不同数据库中重复数据过滤清除是构建数据仓库的重要技术之一。在科技文献资源服务领域,传统的数据去重方法主要是利用数据库检索技术,进行字段内容匹配,过滤内容相同的论文数据.然而,分布在不同数据库中的论文,一般有着不同的字段信息和字段类型,即使有相同的字段也会因为字段内容可能存在乱码信息,导致算法鲁棒性不强,这是传统搜索查找匹配方法面临的一个主要挑战。为解决这个问题,借鉴推荐系统中物品画像和人物画像算法的思想,该文提出了一种基于论文画像的科技文献数据去重算法。该算法通过tf-idf技术提取文章摘要中的关键字信息,再将关键字信息通过word2vec转换为词向量,进而计算出论文之间的相似程度并过滤掉重复数据。实验结果表明,在真实的大型论文数据集下,该算法能够有效去除重复信息,auc均值可达到0.98以上。 展开更多
关键词 论文画像 数据清洗 数据去重 词频-逆文档频率 词向量
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部