期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于内码序值聚类的相似重复记录检测方法 被引量:8
1
作者 鲁均云 李星毅 +1 位作者 施化吉 马素琴 《计算机应用研究》 CSCD 北大核心 2010年第3期874-878,共5页
检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多... 检测和消除相似重复记录是数据清理和提高数据质量要解决的关键问题之一,针对相似重复记录问题,提出了基于内码序值聚类的相似重复记录检测方法。该方法先选择关键字段或字段某些位,根据字符的内码序值,利用聚类思想将大数据集聚集成多个小数据集;然后,通过等级法计算各字段的权值,并将其应用在相似重复记录的检测算法中;最后,在各个小数据集中检测和消除相似重复记录。为避免关键字选择不当而造成记录漏查问题,采用多趟检测方法进行多次检测。通过实验表明,该方法具有较好的检测精度和时间效率,能很好地应用到中英文字符集,通用性很强,并能够有效地解决大数据量的相似重复记录检测问题。 展开更多
关键词 相似重复记录 内码序值 聚类 等级法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部