一种基于核心词相似度的重复数据检测框架构建

下载PDF

导出

摘要针对数据清洗过程中的重复数据问题,以企业名称的相似重复度检查为例,提出一种利用核心词相似计算的重复数据检测框架构建。通过对相似重复数据进行分词程序处理和特征属性字典映射,提取核心词,再对核心词作相似度计算,所得结果加权求和得出相似度,以相似度阈值来判别是否重复。实验表明,该框架可有效用于重复数据检测,具有工程实用性。

作者吴善鹏李萍

机构地区江苏大数据管理中心

出处《信息系统工程》 2020年第5期30-32,共3页

关键词数据治理重复数据检测企业名称重复检测相似度计算

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1邱越峰,田增平,季文贇,周傲英.一种高效的检测相似重复记录的方法[J].计算机学报,2001,24(1):69-77. 被引量：72
2郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：268

二级参考文献36

1[1]Bitton D， DeWitt D J. Duplicate record elimination in large data files. ACM Trans Database Systems, 1983, 8(2):255-65
2[2]Hernandez M， Stolfo S. The Merge/Purge problem for large databases. In: Proc ACM SIGMOD International Conference on Management of Data, 1995. 127-138
3[3]Howard B Newcombe, Kennedy J M, Axford S J, James A P. Automatic linkage of vital records. Science, 1959, 130:954-959
4[4]DeWitt D J, Naught J F, Schneider D A. An evaluation of non-equijoin algorithms. In: Proc 17th International Conference on Very Large Databases, Barcelona, Spain, 1991. 443-452
5[5]Hylton J A. Identifying and merging related bibliographic records[MS dissertation]. MIT: MIT Laboratory for Computer Science Technical Report 678， 1996
6[6]Monge A E， Elkan C P. An efficient domain-independent algorithm for detecting approximately duplicate database records. In: Proc DMKD'97, Tucson Arizona, 1997
7[7]Kukich K. Techniques for automatically correcting words in text. ACM Computing Surveys, 1992, 24(4):377-439
8[8]Wagner R A， Fischer M J. The string-to-string correction problem. J ACM, 1974, 21(1):168-173
9[9]Lowrance R， Robert A Wagner. An extension of the string-to-string correction problem. J ACM, 1975， 22(2):177-183
10[10] Sellers P H. On the theory and computation of evolutionary distances. SIAM J Applied Mathematics, 1974, 26(4):787-793

共引文献323

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：7
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：31
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5

1王颖舜,李军,简兴祥.基于Tanimoto相似的重力异常相关成像方法研究[J].物探与化探,2019,43(6):1350-1357. 被引量：1
2糜乐.名企“撞脸”引发维权官司[J].检察风云,2020,0(11):60-61.
3范会丽,彭宁,任薇.基于Hadoop平台的数据清洗研究[J].电脑知识与技术,2020,16(5):27-28. 被引量：3
4喻晴.六西格玛管理在提高器械手工清洗合格率中的应用[J].中国卫生产业,2020,17(5):26-28. 被引量：3
5无.2020创业邦30岁以下创业新贵榜单[J].创业邦,2020(6):14-16.
6李月,周江.一种基于文本相似计算的校园智能问答系统设计[J].现代信息科技,2019,3(22):9-12. 被引量：2
7王泽,林广艳,谭火彬,张铄,孟烈.基于知识图谱的学位论文送审专家推荐方法[J].山西大学学报（自然科学版）,2019,42(4):737-745. 被引量：4
8孙晓莉.实施创新教育提升中职烹饪教学质量[J].中国食品,2020,0(10):131-131.
9李慧文,杨德华,詹雪琴,钟李嘉,张园园,王颖硕,陈志敏.儿童肺炎支原体感染咽拭子核酸检测方法的比较[J].中华儿科杂志,2020,58(5):403-407. 被引量：15
10顾建军,唐德佳,沈红祥,陶键,李兴勇.一种实时检测液压油清洁度等级装备的设计与实现[J].液压与气动,2020,44(7):175-178. 被引量：8

信息系统工程

2020年第5期

浏览历史

内容加载中请稍等...

一种基于核心词相似度的重复数据检测框架构建

参考文献2

二级参考文献36

共引文献323

相关作者

相关机构

相关主题

浏览历史