期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
近似重复记录的自适应距离度量检测 被引量:2
1
作者 黄健斌 姬红兵 孙鹤立 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第2期331-336,共6页
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机... 提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力. 展开更多
关键词 近似重复记录检测 记录链接 实体匹配 数据集成
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部