期刊文献+

不确定数据的重复记录检测

Duplicate Record Detection of Uncertain Data
下载PDF
导出
摘要 随着不确定数据成为研究的热点,不确定数据管理吸引了研究者的极大兴趣。目前业界已经使用概率数据库来存储和管理不确定数据。为合并多个自治概率数据库中的数据,需要对不确定数据进行集成。现有对数据集成的研究主要集中于对确定数据(关系型数据和半结构化数据)的研究,对不确定性数据的集成没有相关工作。重复记录检测是集成过程中必要和具有代表性的组成部分,文中讨论了重复检测的基础,研究了有依赖和无依赖的不确定数据重复检测,最后提出了两个不确定数据重复记录检测的模型。 As uncertain becomes a hot research, the management of uncertain data has attracted tremendous interest from research. Probabi- listic databases have been proposed to manage uncertain data. In order to combine data from multiple autonomous probabilistic databases, an integration of probabilistic data has to be performed. Existing approaches have focused on the integration of certain source data f rela- tional and semi-structure). There is no related work on the uncertain data integration. Duplicate detection is an essential and representa- tive component. In this paper,discuss the foundation Of duplicate detection. Then study duplicate detection of uncertain data with (with- out) dependency. At last,present two models of duplicate record detection of uncertain data.
出处 《计算机技术与发展》 2012年第8期60-62,66,共4页 Computer Technology and Development
基金 国家自然科学基金(60873025)
关键词 不确定数据 重复记录 数据整合 比较向量 决策模型 uncertain data duplicate record data integration comparison vector decision model
  • 相关文献

参考文献15

二级参考文献87

共引文献77

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部