基于伸缩窗口和等级调整的SNM改进方法被引量：14

Amelioration method of SNM based on flexible window and ranking adjusting

下载PDF

导出

摘要对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试,验证了方法的有效性和优越性。同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度。 This paper introduced the basic SNM and analyzed its deficiency, and put forward a amelioration method of SNM. To avoid missing comparison and reduce excrescent comparison, adopting changing flexible window method, which changed the size of window dynamically. Solved the problem of subjectivity and inaccurate with fixed field weight offer by man-made by using dynamic adjusting ranking method, and according the record similarity to adjust the rank of field. And it transferred the ranking of field to weight by rank-based weights method. The experiments on the data from the information system show the ef- fectiveness and advantage of the proposed method. At the same time, these two methods are the same with other approximately duplicate records examine methods which based on sorted-merge, advancing the efficiency and accuracy.

作者陈爽刁兴春宋金玉曹建军丁晨路

机构地区解放军理工大学指挥信息系统学院总参第六十三研究所吉林陆军预备役步兵第

出处《计算机应用研究》 CSCD 北大核心 2013年第9期2736-2739,共4页 Application Research of Computers

基金中国博士后科学基金特别资助项目(201003797) 江苏省博士后科研资助计划项目(0901014B) 解放军理工大学预研基金项目(20110604)

关键词数据清洗相似重复记录变步长伸缩窗口动态调整等级基本邻近排序算法 data cleaning approximately duplicate records changing step flexible window dynamic adjusting ranking SNM algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：102
2BILENKO M, MOONEY R J. Adaptive duplicate detection using learnable string similarity measures[ C]//Proc of the 9th ACM SIGK- DD International Conference on Knowledge Discovery and Data Min- ing. Washington DC :ACM Press,2003:39-48.
3CHANDEL A, HASSANZADEH O, KOUDAS N, et al. Benchmar- king declarative approximate selection predicates [ C ]//Proc of ACM SIGMOD International Conference on Management of Data. [ S. 1. ] : ACM Press,2007:353-364.
4SARAWAGI S, COHEN W W. Semi-Markov conditional random fields for information extraction [ C ]//Advances in Neural Information Processing Systems. 2004.
5VIOLA P, NARASIMHAN M. Learning to extract information from semi-strnctured text using a discriminative context free grammar [ C]//Proc of the 28th Annual International ACM SIGIR Conference on Research and Development in information Retrieval. [ S. 1. ] : ACM Press,2005:330- 337.
6庞雄文,姚占林,李拥军.大数据量的高效重复记录检测方法[J].华中科技大学学报（自然科学版）,2010,38(2):8-11. 被引量：15
7王宏志,樊文飞.复杂数据上的实体识别技术研究[J].计算机学报,2011,34(10):1843-1852. 被引量：19
8鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8
9HERNANDEZ M A, STOLFO S J. Real-world data is dirty: data cleansing and the merge/purge problem [ J ]. Data Mining and Knowledge Discovery,1998,2( 1 ) :9-37.
10陈伟,王昊,朱文明.一种提高相似重复记录检测精度的方法[J].计算机应用与软件,2006,23(10):29-30. 被引量：8

二级参考文献162

1陈伟,丁秋林.数据清理中编辑距离的应用及Java编程实现[J].电脑与信息技术,2003,11(6):33-35. 被引量：9
2程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
3韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
4朱恒民,王宁生.一种改进的相似重复记录检测方法[J].控制与决策,2006,21(7):805-808. 被引量：12
5张永,迟忠先.位置编码在数据仓库ETL中的应用[J].计算机工程,2007,33(1):50-52. 被引量：12
6HANJia-wei,Micheline Kanber著.数据挖掘概念与技术[M].北京:机械工业出版社,2007
7Ahmed K, Panagiotis G, Vassilos, et al. Duplicate record detection: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19 (1) : 1- 16.
8Anestis Sitas, Sarantos Kapidakis. Duplicate detection algorithms of bibliographic descriptions[J]. Library Hi Tech, 2008, 26(2): 287-301.
9McCallum A, Nigam K, Ungar L H. Efficient clustering of high-dimensional data sets with application to reference matching[C]//Sixth ACM SIGKDD Int'l Conf Knowledge Discovery and Data Mining. New York: ACM Press, 2000: 169-178.
10Chaudhuri S, Ganjam, K, Ganti V, et al. Robust and efficient fuzzy match for online data cleaning [C]// ACM SIGMOD International Conference on Management of Data. New York: ACM, 2003: 313- 324.

共引文献154

1赵峰.油田开发数据质量分析[J].中国石油和化工标准与质量,2012,32(15):190-190. 被引量：1
2曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
3阳小华,李萌.基于分布特征的异常成绩检测方法[J].南华大学学报（自然科学版）,2008,22(4):7-9. 被引量：1
4王晓原,吴芳,邢丽.交通流冗余数据识别和约简方法[J].计算机应用,2009,29(4):1110-1113.
5吕威.连续SOM聚类的一致性分类算法[J].烟台大学学报（自然科学与工程版）,2009,22(3):193-197.
6李宁,李战怀.软件缺陷数据处理研究综述[J].计算机科学,2009,36(8):21-25. 被引量：11
7肖芳.异构系统中实体识别研究[J].自动化与信息工程,2009,30(3):35-37.
8张武,刘波.一种基于规则的交互式数据清洗框架的设计[J].微计算机应用,2009,30(10):64-68. 被引量：2
9袁满,张磊.数据质量多属性加权评价算法[J].齐齐哈尔大学学报（自然科学版）,2010,26(1):26-30. 被引量：2
10伍丁辉,阳小华,尹继元.基于同分布无偏样本的伪缺失值检测方法[J].计算机与现代化,2010(4):203-206. 被引量：1

同被引文献101

1赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：51
2程国达,苏杭丽.一种检测汉语相似重复记录的有效方法[J].计算机应用,2005,25(6):1362-1365. 被引量：8
3韩京宇,徐立臻,董逸生.一种大数据量的相似记录检测方法[J].计算机研究与发展,2005,42(12):2206-2212. 被引量：32
4贺玲,吴玲达,蔡益朝.高维空间中数据的相似性度量[J].数学的实践与认识,2006,36(9):189-194. 被引量：20
5毛国君,段立娟,王实,等.数据挖掘原理与算法[M].北京:清华大学出版社,2006:183.
6梁彪,胡爱群,秦中元.一种新的RFID防碰撞算法设计[J].电子与信息学报,2007,29(9):2158-2160. 被引量：37
7边肇棋,张学工.模式识别[M].北京:清华大学出版社,2007.
8Dimitri Theodoratos, Timos Sellis. Data Warehouse Cordlgu- ration[C]. Proceedings of the 23rd VLDB Conference, 1997.
9Hemandez M,Stolfo S. The Merge/Purge Problem for Large Data6ases. Proceedings of the ACM SIGMOD International Conference on Management of Data [C ]. San Jose, Califor- nia, 1995 : 127 - 138.
10李星毅,包从剑,施化吉.数据仓库中的相似重复记录检测方法[J].电子科技大学学报,2007,36(6):1273-1277. 被引量：25

引证文献14

1郭文龙.异构数据库集成中相似重复记录清洗方法[J].宜春学院学报,2014,36(3):37-39. 被引量：2
2许必宵,陈升波,韩重阳,马梦环,宫婧.改进的数据预处理算法及其应用[J].计算机技术与发展,2015,25(12):143-146. 被引量：5
3余肖生,胡孙枝.基于SNM改进算法的相似重复记录消除[J].重庆理工大学学报（自然科学）,2016,30(4):91-96. 被引量：9
4郑津杨,徐坤,李建强.用于RFID系统数据处理的排序邻居算法性能分析[J].计算机应用与软件,2016,33(12):207-210. 被引量：3
5刘雅思,程力,李晓.基于长度过滤和动态容错的SNM改进算法[J].计算机应用研究,2017,34(1):147-150. 被引量：9
6郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
7宋国兴,周喜,马博,赵凡.基于R-树索引的高维相似重复记录检测改进算法[J].微电子学与计算机,2017,34(9):97-102. 被引量：3
8宋国兴,周喜,马博,赵凡.关键属性组的相似重复记录检测方法研究[J].科学技术与工程,2017,17(19):65-71. 被引量：3
9王旭东,段敬,温志坚,楼颖稚,陈伟,孔德云,黄豆豆.基于相似重复记录的N-Gram算法的改进与应用[J].现代计算机,2018,24(17):78-82. 被引量：3
10张苗苗,苏勇.基于SNM算法的大数据量中文商品清洗方法[J].计算机与数字工程,2019,47(3):625-627. 被引量：1

二级引证文献40

1贾建伟,陈崚.基于数据摘要奇偶性的集合相似性近似算法[J].计算机科学,2016,43(6):254-256.
2苏舟,李灿,姚李孝,崔寒珺.电力负荷数据预处理研究及应用[J].电网与清洁能源,2017,33(5):40-43. 被引量：16
3郭文龙,董建怀.基于模糊综合评判和长度过滤的SNM改进算法[J].武汉工程大学学报,2017,39(4):403-408. 被引量：1
4潘腾辉,林金城,郑细烨,刘雅婷.面向数据库清洗的数据质量控制设计[J].信息技术,2017,41(10):133-136. 被引量：8
5裴生雷,贾国庆,叶利娟.用于分类决策的有序判别指标性能比较[J].计算机应用与软件,2018,35(2):279-283. 被引量：1
6马可,郑广海.一种针对关系数据库记录的相似重复记录检测算法[J].电脑知识与技术,2018,14(5):25-28. 被引量：5
7张培根,黄树成.一种用于中文数据清洗的近邻排序算法[J].计算机应用与软件,2018,35(8):286-288. 被引量：8
8陈力,费洪晓,丁海伦,成琳,翟纪宇.基于双决策树的数据采样方法[J].计算机工程与科学,2019,41(1):130-135. 被引量：9
9张苗苗,苏勇.基于SNM算法的大数据量中文商品清洗方法[J].计算机与数字工程,2019,47(3):625-627. 被引量：1
10陈亮,杜璐,胡康.基于分块和滑窗技术的相似重复记录检测算法研究[J].计算机应用与软件,2019,36(4):262-267. 被引量：7

1许必宵,陈升波,韩重阳,马梦环,宫婧.改进的数据预处理算法及其应用[J].计算机技术与发展,2015,25(12):143-146. 被引量：5
2陈伟,王昊,朱文明.一种提高相似重复记录检测精度的方法[J].计算机应用与软件,2006,23(10):29-30. 被引量：8
3陈旭辉,王馨,柯铭.一种改进的基于RFID中间件的冗余数据清洗算法[J].微电子学与计算机,2013,30(7):154-158. 被引量：10
4于璐,吴振强.基于免疫的自适应安全模型[J].微电子学与计算机,2009,26(1):113-117. 被引量：4
5戴颖,李兴国,赵启飞.一种相似重复记录检测算法的改进研究[J].计算机技术与发展,2010,20(7):13-16. 被引量：4
6陈宁宁,郑伟,徐伟.一种基于内嵌建模计算的列车自动运行等级实时调整算法[J].铁道通信信号,2015,51(12):43-45.
7郭文龙.基于SNM算法的大数据量中文地址清洗方法[J].计算机工程与应用,2014,50(5):108-111. 被引量：8
8李宁.沈阳枢纽等级转换方案设计简述[J].铁路通信信号工程技术,2013,10(4):14-18.
9王元鹏,胡晓辉,陈永,刘全.应答器故障导致CTCS等级转换的建模与仿真[J].计算机工程与应用,2016,52(8):234-239. 被引量：1
10鲁均云,李星毅,施化吉,马素琴.基于内码序值聚类的相似重复记录检测方法[J].计算机应用研究,2010,27(3):874-878. 被引量：8

计算机应用研究

2013年第9期

浏览历史

内容加载中请稍等...

基于伸缩窗口和等级调整的SNM改进方法被引量：14

参考文献12

二级参考文献162

共引文献154

同被引文献101

引证文献14

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于伸缩窗口和等级调整的SNM改进方法 被引量：14

参考文献12

二级参考文献162

共引文献154

同被引文献101

引证文献14

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于伸缩窗口和等级调整的SNM改进方法被引量：14