期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于伸缩窗口和等级调整的SNM改进方法 被引量:14
1
作者 陈爽 刁兴春 +2 位作者 宋金玉 曹建军 丁晨路 《计算机应用研究》 CSCD 北大核心 2013年第9期2736-2739,共4页
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整... 对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试,验证了方法的有效性和优越性。同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度。 展开更多
关键词 数据清洗 相似重复记录 变步长伸缩窗口 动态调整等级 基本邻近排序算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部