一种有效检测汉语相似重复记录的方法

An Efficient Approach for Detecting Approximately Duplicate Chinese Records

下载PDF

导出

摘要从排序属性的选择、匹配方法、相似度计算、检测和处理相似重复记录以及实验结果几个方面,阐述了一种有效检测汉语相似重复记录的方法。 This paper expounds an efficient approach for detecting approximately duplicate Chinese records from aspects of the selection of sort properties,matching methods,similarity computation,detection and treatment of approximately duplicate records,and test results,etc.

作者邹亚会

机构地区南京财经大学图书馆

出处《科技情报开发与经济》 2011年第21期133-135,共3页 Sci-Tech Information Development & Economy

关键词相似重复记录匹配排序属性 approximately duplicate records matching sort properties

分类号 G250.74 [文化科学—图书馆学]

引文网络
相关文献

参考文献6

1周丽娟,肖满生.基于数据分组匹配的相似重复记录检测[J].计算机工程,2010,36(12):104-106. 被引量：6
2庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
3程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
4邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
5Monge A E,Elkan C P.An efficient domain-independent algorithm for detecting approximately duplicate database records. Proceedings of the ACM SIGMOD Workshop on Research Issues on Knowledge Discovery and Data Mining . 1997
6El magarmid A K,,Ipeirotis P G,Verykios V S.Duplicate RecordDetection:A Survey. IEEE Transactions on Knowledge andData Engineering . 2007

二级参考文献39

1王天江,刘芳,卢正鼎.基于聚类汇总的记录匹配算法[J].计算机工程与科学,2004,26(9):62-63. 被引量：2
2韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
3朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
4张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
5Ahmed K, Panagiotis G, Vassilos, et al. Duplicate record detection: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (1) : 1- 16.
6Anestis Sitas, Sarantos Kapidakis. Duplicate detection algorithms of bibliographic descriptions[J]. Library Hi Tech, 2008, 26(2): 287-301.
7McCallum A, Nigam K, Ungar L H. Efficient clustering of high-dimensional data sets with application to reference matching[C]//Sixth ACM SIGKDD Int'l Conf Knowledge Discovery and Data Mining. New York: ACM Press, 2000: 169-178.
8Chaudhuri S, Ganjam, K, Ganti V, et al. Robust and efficient fuzzy match for online data cleaning [C]// ACM SIGMOD International Conference on Management of Data. New York: ACM, 2003: 313- 324.
9Jaewoo Kang. Toward the scalable integration of internet information sources[D]. Madison: Computer Sciences Department, University of Wisconsin-Madison, 2004.
10Omar B, David M, Jennifer W, et al. Swoosh: a generic approach to entity resolution[J]. The VLDB Journal, 2009, 18: 255-276.

共引文献90

1缪嘉嘉,吴刚,毛捍东,杨强,邓苏.一种基于条件概率分布的近似重复记录检测方法[J].小型微型计算机系统,2004,25(12):2164-2168. 被引量：3
2孟坚,董逸生,王永利.一种基于规则的交互式数据清洗技术[J].微机发展,2005,15(4):141-144. 被引量：4
3王志军,乐嘉锦.一种中文相似重复记录的检测方法[J].东华大学学报（自然科学版）,2005,31(2):37-40.
4肖国荣.银行零售贷款风险管理系统分析[J].福建电脑,2006,22(7):140-141.
5朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
6李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25
7韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
8刘哲,夏秀峰,宋晓燕,林桐.一种中文地址类相似重复信息的检测方法[J].小型微型计算机系统,2008,29(4):726-729. 被引量：7
9郭小瑛,曾广平.基于Web2．0的数据集成系统的设计与实现[J].微电子学与计算机,2008,25(6):34-37. 被引量：2
10张昌年.一种基于VSM的检测相似重复记录的方法[J].微电子学与计算机,2008,25(8):184-187. 被引量：10

1罗兵.对纽约时报奥运会开幕式报道的话语分析[J].青年记者,2008(32):65-66. 被引量：5
2《成才之路》连续两年进入龙源TOP10O阅读排行榜[J].成才之路,2013(9).
3本刊启事[J].成才之路,2012(19).
4叶焕倬,吴迪.相似重复记录清理方法研究综述[J].现代图书情报技术,2010(9):56-66. 被引量：21
5叶焕倬,吴迪.基于改进编辑距离的相似重复记录清理算法[J].现代图书情报技术,2011(7):82-90. 被引量：7
6朱莱.议题属性设置理论与突发事件报道[J].现代视听,2008,0(3):31-33. 被引量：2
7盛开的郁金香[J].成才之路,2012(15).
8本刊启事[J].成才之路,2012(24).
9《成才之路》投稿须知[J].成才之路,2014(21).
10朱莱,范璟.运用议题属性设置理论做好突发事件报道[J].浙江传媒学院学报,2008,15(2):33-35.

科技情报开发与经济

2011年第21期

浏览历史

内容加载中请稍等...

一种有效检测汉语相似重复记录的方法

参考文献6

二级参考文献39

共引文献90

相关作者

相关机构

相关主题

浏览历史