期刊文献+

检测大型数据库中汉语相似重复记录的方法 被引量:1

下载PDF
导出
摘要 提出了一种基于信息增益选择排序属性的消除汉语相似重复记录的方法。其中,记录之间的匹配方法考虑了汉语的缩写和输入错误。实验证明,该方法是有效的。
作者 邹亚会
出处 《内蒙古科技与经济》 2011年第14期77-78,共2页 Inner Mongolia Science Technology & Economy
  • 相关文献

参考文献6

二级参考文献36

  • 1韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量:32
  • 2朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量:12
  • 3Ahmed K, Panagiotis G, Vassilos, et al. Duplicate record detection: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (1) : 1- 16.
  • 4Anestis Sitas, Sarantos Kapidakis. Duplicate detection algorithms of bibliographic descriptions[J]. Library Hi Tech, 2008, 26(2): 287-301.
  • 5McCallum A, Nigam K, Ungar L H. Efficient clustering of high-dimensional data sets with application to reference matching[C]//Sixth ACM SIGKDD Int'l Conf Knowledge Discovery and Data Mining. New York: ACM Press, 2000: 169-178.
  • 6Chaudhuri S, Ganjam, K, Ganti V, et al. Robust and efficient fuzzy match for online data cleaning [C]// ACM SIGMOD International Conference on Management of Data. New York: ACM, 2003: 313- 324.
  • 7Jaewoo Kang. Toward the scalable integration of internet information sources[D]. Madison: Computer Sciences Department, University of Wisconsin-Madison, 2004.
  • 8Omar B, David M, Jennifer W, et al. Swoosh: a generic approach to entity resolution[J]. The VLDB Journal, 2009, 18: 255-276.
  • 9Steven Euijong Whang. Generic entity resolution with negative rules[J]. The VLDB Journal. 2009, 18(6) : 1 261-1 277.
  • 10Shahri H H. Eliminating duplicates in information integration: an adaptive, extensible framework[J]. IEEE Intelligent Systems, 2006, 12(5): 63-71.

共引文献46

同被引文献14

引证文献1

二级引证文献2

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部