期刊文献+

一种有效检测汉语相似重复记录的方法

An Efficient Approach for Detecting Approximately Duplicate Chinese Records
下载PDF
导出
摘要 从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。 This paper expounds an efficient approach for detecting approximately duplicate Chinese records from aspects of the selection of sort properties,matching methods,similarity computation,detection and treatment of approximately duplicate records,and test results,etc.
作者 邹亚会
出处 《科技情报开发与经济》 2011年第21期133-135,共3页 Sci-Tech Information Development & Economy
关键词 相似重复记录 匹配 排序属性 approximately duplicate records matching sort properties
  • 相关文献

参考文献6

二级参考文献39

  • 1王天江,刘芳,卢正鼎.基于聚类汇总的记录匹配算法[J].计算机工程与科学,2004,26(9):62-63. 被引量:2
  • 2韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量:32
  • 3朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量:12
  • 4张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量:12
  • 5Ahmed K, Panagiotis G, Vassilos, et al. Duplicate record detection: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (1) : 1- 16.
  • 6Anestis Sitas, Sarantos Kapidakis. Duplicate detection algorithms of bibliographic descriptions[J]. Library Hi Tech, 2008, 26(2): 287-301.
  • 7McCallum A, Nigam K, Ungar L H. Efficient clustering of high-dimensional data sets with application to reference matching[C]//Sixth ACM SIGKDD Int'l Conf Knowledge Discovery and Data Mining. New York: ACM Press, 2000: 169-178.
  • 8Chaudhuri S, Ganjam, K, Ganti V, et al. Robust and efficient fuzzy match for online data cleaning [C]// ACM SIGMOD International Conference on Management of Data. New York: ACM, 2003: 313- 324.
  • 9Jaewoo Kang. Toward the scalable integration of internet information sources[D]. Madison: Computer Sciences Department, University of Wisconsin-Madison, 2004.
  • 10Omar B, David M, Jennifer W, et al. Swoosh: a generic approach to entity resolution[J]. The VLDB Journal, 2009, 18: 255-276.

共引文献90

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部