期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
对基于MPN的相似重复记录识别算法的改进 被引量:6
1
作者 刘伟 曹先彬 《微计算机信息》 北大核心 2005年第08X期147-149,3,共4页
相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前... 相似重复记录识别是数据清理中的一个关键问题。文章针对常用的多趟邻接排序法提出了两点改进:一是在多趟排序识别过程中直接合并有重叠的相似记录集,取消了最后计算传递闭包的环节;二是利用关键字按字典序排序的特性,在求编辑距离之前先过滤前面的公共子串,减少了相似记录比较的开销。文章最后给出了改进算法与原算法的对比试验结果。 展开更多
关键词 数据清理 相似重复记录 字符串匹配 MPN 传递闭包
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部