实体解析中基于相似性传递的增量分组研究被引量：1

Research on incremental grouping based on transferred similarity in entity resolution

导出

摘要本文探讨一种适应于大数据集的基于相似性传递的记录增量分组方法.论文首先分析如何逐步推算出记录之间的相似性,然后提出如何基于排序键构建基准组,如何基于相似性传递增量更新基准组,以及如何基于并查集实现基准组中的增量更新,最后通过实验验证提出方法的可行性和高效性.实验结果显示,提出的方法比传统方法更能提高分组质量,提升分组效率.论文没有对属性值本身存在的数据质量问题进行详细分析研究,并没有设计排序键生成算法.提出的方法不仅能有助于解决数据清洗、信息集成与管理等技术中的记录漏配问题,而且具有较好的可扩展性可重用性和不受领域限制等优点因为它仅从纯数据处理的角度来设计算法. This paper investigates an approach to record incremental grouping based on transferred similarity for large data sets.The paper first analyzes how to gradually calculate similarity between records,then proposes how to construct reference group based on sorting key,how to incrementally update reference group based on transferred similarity,and how to perform incremental updates in reference group based on union-find,finally proves the feasibility and efficiency of the proposed method through experiments.Experimental results show that the proposed method can improve grouping quality and improve grouping efficiency more than traditional methods.There is no detailed analysis of the data quality problem existing in the attribute value itself,and there is no design of the sorting key generation algorithm.The proposed method can not only help solve the problem of missing record pairs in data cleaning,information integration and management,but also has advantages such as better scalability,reusability,and freedom from the domain,because it only designs algorithms from the perspective of pure data processing.

作者高广尚 GAO Guangshang(Research Center for Modern Enterprise Management,Guilin University of Technology,Guilin 541004,China;School of Management,Guilin University of Technology,Guilin 541004,China)

机构地区桂林理工大学现代企业管理研究中心桂林理工大学商学院

出处《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2019年第5期1287-1297,共11页 Systems Engineering-Theory & Practice

基金国家自然科学基金(71761008) 广西高校人文社会科学重点研究基地基金(16YB010)~~

关键词排序键相似性传递并查集实体解析数据质量 sorting key transferred similarityunion-find entity resolution data quality

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1王宏志.大数据质量管理:问题与研究进展[J].科技导报,2014,32(34):78-84. 被引量：34
2孙琛琛,申德荣,寇月,聂铁铮,于戈.面向实体识别的聚类算法[J].软件学报,2016,27(9):2303-2319. 被引量：8
3杨晓东,李军,王继荣,王芳.基于增量自适应的邻近排序算法优化[J].青岛大学学报（自然科学版）,2017,30(2):53-57. 被引量：2
4刘雪莉,王宏志,李建中,高宏.基于实体的相似性连接算法[J].软件学报,2015,26(6):1421-1437. 被引量：8
5高广尚.面向数据演化的实体解析述评[J].情报学报,2016,35(3):326-336. 被引量：2
6孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展,2016,53(2):231-246. 被引量：135
7Xue-Li Liu,Hong-Zhi Wang,Jian-Zhong Li,Hong Gao.EntityManager： Managing Dirty Data Based on Entity Resolution[J].Journal of Computer Science & Technology,2017,32(3):644-662. 被引量：2

二级参考文献67

1金连,王宏志,黄沈滨,高宏.基于Map-Reduce的大数据缺失值填充算法[J].计算机研究与发展,2013,50(S1):312-321. 被引量：18
2霍然,王宏志,朱鎔,李建中,高宏.基于Map-Reduce的大数据实体识别算法[J].计算机研究与发展,2013,50(S2):170-179. 被引量：9
3Bertossi L, Kolahi S, Lakshmanan L. Data cleaning and query answering with matching dependencies and matching functions. In: Abiteboul S, B6hm K, Koch C, Tan KL, eds. Proc. of the 27th Int'l Conf. on Data Engineering. Hannover: IEEE Computer Society, 2011. 268-279. [doi: 10.1145/1938551,1938585].
4Dong X, Halevy AY, Yu C. Data integration with uncertainty. In: Koch C, Gehrke J, Garofalakis MN, Srivastava D Aberer K, Deshpande A, Florescu D, Chart CY, Ganti V, Kanne CC, Klas WJ, Neuhold E, eds. Proc. of the 33rd Int'l Conf. on Very Large Data Bases. Vienna: ACM Press, 2007. 687-698.
5Ji S, Li G, Li C, Feng JH. Efficient interactive fuzzy keyword search. In: Proc. of the 18th Int'l Conf. on World Wide Web. Madrid: ACM Press, 2009. 371-380. [doi: 10.1145/1526709.1526760].
6Timothy C, Justin Z. Methods for identifying versioned and plagiarized documents. Journal of the American Society for Information Science and Technology, 2003,54(3):203-215. [doi: 10.1002/asi, 10170].
7Broder AZ, Glassman SC, Manasse MS, Zweig G. Syntaetie clustering of the Web. Computer Networks and ISDN Systems, 1997, 29(8):1157-1166. [doi: 10,1016/S0169-7552(97)00031-7].
8Li G, Deng D, Wang J, Feng JH. Pass-Join: A partition-based method for similarity joins. VLDB Endowment, 2011,5(3):253-264. [doi: 10.14778/2078331.2078340].
9Wang J, Feng J, Li G. Trie-Join: Efficient trie-based string similarity joins with edit-distance constraints. VLDB Endowment, 2010, 3(1-2):1219-1230. [doi: 10.14778/1920841.1920992].
10Xiao C, Wang W, Lin X. Ed-Join: An efficient algorithm for similarity joins with edit distance constraints. VLDB Endowment, 2008,1(1):933-944, [doi: 10.14778/1453856.1453957].

共引文献182

1邱均平,余波,杨思洛.大数据背景下一门交叉学科的兴起——论数据计量学的构建[J].中国图书馆学报,2021,47(5):48-58. 被引量：20
2李广建,陈瑜.知识融合研究的现状分析及建议[J].图书情报工作,2019,63(1):41-51. 被引量：4
3高志鹏,牛琨,刘杰.面向大数据的分析技术[J].北京邮电大学学报,2015,38(3):1-12. 被引量：49
4侯东平.一种代价最优的一致性冲突的修复方法[J].数字技术与应用,2016,0(1):76-76.
5张春丽,成彧.大数据分析技术及其在医药领域中的应用[J].标记免疫分析与临床,2016,23(3):327-333. 被引量：25
6王春凯,冯键.跨界数据融合在保险行业中的应用[J].保险理论与实践,2019,0(3):38-50.
7高继平,马峥,潘云涛,张玉华.大数据领域代表性专家识别与分析——文献计量学视角[J].科技管理研究,2016,36(16):177-182. 被引量：5
8郭路生,刘春年.大数据时代应急数据质量治理研究[J].情报理论与实践,2016,39(11):101-105. 被引量：22
9李训潮,宫钦.信令XDR数据质量智能核查方案研究[J].山东通信技术,2016,36(4):1-4.
10马晓亭.图书馆多源大数据融合研究:问题与挑战[J].新世纪图书馆,2017(1):28-31. 被引量：11

同被引文献4

1孟小峰,杜治娟.大数据融合研究:问题与挑战[J].计算机研究与发展,2016,53(2):231-246. 被引量：135
2李晓华,曾昭睿.前沿技术创新与新兴产业演进规律探析——以人工智能为例[J].财经问题研究,2019,0(12):30-40. 被引量：30
3孙琛琛,申德荣,李玉坤,肖迎元,马建红.时间约束的实体解析中记录对排序研究[J].软件学报,2020,31(3):695-709. 被引量：6
4王淞,彭煜玮,兰海,罗倩雯,彭智勇.数据集成方法发展与展望[J].软件学报,2020,31(3):893-908. 被引量：24

引证文献1

1高广尚.面向演化数据的代表性记录构建方法[J].系统工程,2022,40(3):137-148.

1李征,段垒,王亚鲁.基于用户相似性传递的协同过滤推荐方法[J].河南大学学报（自然科学版）,2019,49(1):61-68. 被引量：2
2肖慧.浅析中学语文教学中小组合作学习的问题及对策——以喀什市X中学为例[J].科教文汇,2018(1):95-97. 被引量：1
3韩吉忠.多索茶碱与头孢他啶对老年慢性肺气肿患者的治疗效果分析[J].心理月刊,2019(5):171-171. 被引量：1
4摩森康胜啤酒12罐装冷藏袋[J].绿色包装,2019(5):42-42.
5柳剑,赵太宏,肖雨龙.规范疾病诊断名称的必要性[J].中国病案,2017,18(12):23-25. 被引量：14
6张超,都玉莹,韩成,白烨.融合多线索信息的数字图像抠图方法研究[J].计算机工程与应用,2018,54(17):169-174.
7写讲话稿时,领导不给思路,该如何解决?[J].公务员文萃,2019,0(5):94-95.
8赵惠兰.饮食护理对胃溃疡患者饮食保健知识及疗效的影响[J].饮食科学,2019,0(6):82-82.
9赵广晔.基于属性聚类的传销网站账户去重方法研究[J].科技创新与应用,2019,0(18):139-140. 被引量：3
10戴小花,朱小文.乡村振兴审计大数据分析的关注点[J].中国审计,2019,0(10):44-44. 被引量：1

系统工程理论与实践

2019年第5期

浏览历史

内容加载中请稍等...

实体解析中基于相似性传递的增量分组研究被引量：1

参考文献7

二级参考文献67

共引文献182

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

实体解析中基于相似性传递的增量分组研究 被引量：1

参考文献7

二级参考文献67

共引文献182

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

实体解析中基于相似性传递的增量分组研究被引量：1