期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
一种基于核心词相似度的重复数据检测框架构建
1
作者 吴善鹏 李萍 《信息系统工程》 2020年第5期30-32,共3页
针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建。通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求... 针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建。通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复。实验表明,该框架可有效用于重复数据检测,具有工程实用性。 展开更多
关键词 数据治理 重复数据检测 企业名称重复检测 相似度计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部