一种基于离群点检测的自动实体匹配方法被引量：10

An Outlier-Detection Based Approach for Automatic Entity Matching

下载PDF

导出

摘要实体匹配也叫记录匹配,是数据集成与数据清洗过程中的一项关键技术.其典型用例包括不同网站之间的商品匹配以及DBLP(Digital Bibliorgrophy&Library Project)与Scholar文献数据库之间的文献实体匹配.真实数据中广泛存在的数据质量缺陷,如错误值、缺失值和数据表达形式多样性等数据质量问题,使得实体匹配问题很具挑战性.目前流行的实体匹配算法可划分为三大类:基于规则的、基于概率的和基于学习的.电商数据中,对同一商品的描述可能差异巨大.对于这类充满表达多样性的实体匹配问题,通常并不存在简洁高效的匹配规则,训练精准的分类模型也很困难.针对这个问题,文中提出了一种基于离群点检测(Outlier Detection)的自动实体匹配方法,记为ODetec算法.首先计算记录序偶在匹配属性上的相似度,并将序偶映射为特征空间上的点;接着在特征空间中估算每个序偶的离群距离;最后根据离群距离和匹配约束,抽取匹配序偶.另外,ODetec算法采用主成分分析方法将多个存在相关性的匹配特征变换为彼此正交的主成分,突破了Fellegi-Sunter模型中属性之间须满足条件独立假设的限制,具备了更好的匹配效果和更为广泛的适用性.实验结论证实了ODetec方法的有效性. Entity Matching, also known as Record Matching, is a key technique in data integration and cleaning process. Its typical applications include the commercial products matching across different websites and the research paper records matching between the DBLP （Digital Bibliorgrophy Library Project） and Scholar digital libraries. The widespread data quality defects in real data, e. g. , tuple errors, missing values and representation diversities, make the entity matching problem much challenging. The popular entity matching algorithms can be categorized into rule-based, probabilistic and learning-based approaches. In e-commercial data, the descriptions of the same products may vary greatly. For the entity matching task on those datasets with representation diversity problems, it is difficult to design effective matching rules and remains challenging to train classification models. To address this issue, this paper proposes an Outlier-Detection-based approach, denoted by ODetec, for automatic entity matching. Firstly, the ODetec measures the similarities on the matching attributes for each record pair, and map the pairs into points in feature space. Then it calculates the outlier distances for each record pair in the feature space. Finally, it ranks the pairs by their outlier distances and extracts those matching candidates that meet the matching constraints. In addition, ODetec can transform multiple co-related matching features into orthogonal principal components by Principal Component Analysis, breaking through the limitation of conditional independence between attributes that is required by Fellegi-Sunter model. Thus it reaches better effect and broader applicability. Our extensive experiments on real datasets have verifiedthe effectiveness of the ODetee approach.

作者樊峰峰李战怀陈群刘海龙 FAN Feng-Feng LI Zhan-Huai CHEN Qun LIU Hai-Long(Department of Computer Science, Northwestern Polytechnical University, Xi＇an 710072)

机构地区西北工业大学计算机学院

出处《计算机学报》 EI CSCD 北大核心 2017年第10期2197-2211,共15页 Chinese Journal of Computers

基金国家"九七三"重点基础研究发展计划项目基金(2012CB316203) 国家自然科学基金(61332006 61472321 61502390)资助~~

关键词数据集成实体匹配数据质量离群点检测主成分分析 data integration entity matching data quality outlier detection principal component analysis

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1王丹,康健.中药剂量与药效的相关性研究[J].河南中医,2013,33(7):1158-1159. 被引量：10
2Qi ZHANG,Guang-ji WANG,Ji-ye A,Di WU,Ling-ling ZHU,Bo MA,Yu DU.Application of GC/MS-based metabonomic profiling in studying the lipid-regulating effects of Ginkgo biloba extract on diet-induced hyperlipidemia in rats[J].Acta Pharmacologica Sinica,2009,30(12):1674-1687. 被引量：28
3沈涛.黄连吴茱萸组方对实验性高脂模型小鼠的降脂实验研究[J].成都中医药大学学报,2007,30(1):18-19. 被引量：18
4吴江明,栾连军,程翼宇.胶束毛细管电泳法同时测定黄连-吴茱萸药对中5种生物碱的含量[J].药物分析杂志,2006,26(3):325-328. 被引量：13
5沈涛,贾波,郭力,徐世军.黄连吴茱萸配伍对大鼠高脂血症模型肝脏组织ABCA_1基因表达的影响[J].成都中医药大学学报,2011,34(1):49-51. 被引量：13
6沈涛.黄连吴茱萸配伍预防高脂饮食大鼠高脂血症形成的实验研究[J].成都中医药大学学报,2010,33(3):40-44. 被引量：13

二级参考文献31

1王浴铭,张君增,朱风云,刘伟,杨云,范全民,王.黄连配伍吴茱萸对黄连中主要化学成分的影响[J].中国中药杂志,1994,19(2):115-118. 被引量：64
2刘胜林,郭志刚,刘凌,李欣.ABCA1基因转录调节与胆固醇代谢及动脉粥样硬化的关系[J].中国分子心脏病学杂志,2004,4(5):308-312. 被引量：7
3刘卫华,李应西.浅谈中药剂量和疗效的关系[J].河南中医药学刊,1996,11(2):55-55. 被引量：3
4沈涛.黄连吴茱萸组方对实验性高脂模型小鼠的降脂实验研究[J].成都中医药大学学报,2007,30(1):18-19. 被引量：18
5Fielding JF, Fielding PE. Molecular physiology of reverse cholesterol transport [J] . J Lipid Bes, 1995, 36: 211- 228.
6Gura T. Gene linked to faulty cholesterol transporter [ J ] . Science. 1999: 285: 814.
7Repa JJ. Regulation of absorption an dABel mediated efflux of cholesterol by RXR heterodimers [ J ] . Scierice, 2000, 289: 152.
8Santamarina Fojo S, Remaley AT, Neufeld EB, et al. Regulation and intracellular trafficking of the ABCA, transporter [J] . J Lipid Res, 2001, 42: 1339-134.
9Srivastava N. ATP binding cassette transporter Al-key roles in cellular lipid transport and atherosclerosis [J] . Mol Cell Bio-ehem, 2002, 237: 155-64.
10Vaisman BL, Lambert G, Amar M, er al. ABCA1 overexpression leads to hyperalphalipoproteinemia and increased biliary cholesterol excretion in transgenic mice [ J ] . J Clin Invest, 2001, 105 (2): 303-309.

共引文献71

1吴梅青,王姣,唐海飞.吴茱萸生物碱类在心脑血管系统疾病中的研究进展[J].亚太传统医药,2020(11):194-197. 被引量：7
2葛兴森,甘雨,陈贺,李国信,张宏,秦文艳.射干提取物对AOM/DSS诱导小鼠炎症相关性肠癌模型中MAPK及PI3K的影响[J].实用中医内科杂志,2023,37(1):29-31.
3苏莞云,刘鱼刚,岳林阳,岳妍.基于数据挖掘分析《中华医典·方书》黄连-吴茱萸药对的用药规律[J].实用中医内科杂志,2023,37(1):140-143. 被引量：2
4蒋庆峰,金松子,蔡振华,宋丽明,夏锦辉.现代分析技术在中药质量控制中的应用[J].现代仪器,2007,13(3):1-8. 被引量：8
5张朋.黄连配伍吴茱萸化学成分的变化以及药理作用研究现状[J].河北中医,2008,30(7):774-777. 被引量：1
6唐于平,段金廒,郭盛,宿树兰,钱大玮,郭建明.药对量效关系研究的认识与思考[J].南京中医药大学学报,2009,25(1):21-23. 被引量：25
7张申亮.胶束电动毛细管色谱在中药化学成分分析中的应用[J].药学实践杂志,2009,27(1):21-23. 被引量：2
8张宏馨,石昌顺,王亮,廉海晨,卢淑兰,孙淑敏,杨宏莉.复方首乌颗粒对高脂血症大鼠肠系膜微循环的影响[J].时珍国医国药,2009,20(5):1174-1175. 被引量：1
9孟喜成,李杰.胶束电动毛细管色谱在药物分析中的应用进展[J].华北国防医药,2010,22(2):121-123. 被引量：2
10王启龙,孙达,黄金文,金晟,张朝晖.药根碱的研究进展[J].时珍国医国药,2010,21(7):1844-1846. 被引量：12

同被引文献64

1甄灵敏,杨晓春,王斌,Ahmed A Hussein.基于属性权重的实体解析技术[J].计算机研究与发展,2013,50(S1):281-289. 被引量：5
2陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
3宋汉辰,吴玲达,魏迎梅.离散特征点探测算法[J].系统仿真学报,2005,17(3):659-661. 被引量：1
4苏忠,林闯,封富君,任丰原.无线传感器网络密钥管理的方案和协议[J].软件学报,2007,18(5):1218-1231. 被引量：111
5肖德琴,冯健昭,周权,杨波.基于高斯分布的传感器网络信誉模型[J].通信学报,2008,29(3):47-53. 被引量：22
6张忠平,宋少英,宋晓辉.基于PCA及属性距离和的孤立点检测算法[J].计算机工程与应用,2009,45(17):139-141. 被引量：3
7杨健维,何正友,臧天磊.基于方向性加权模糊Petri网的电网故障诊断方法[J].中国电机工程学报,2010,30(34):42-49. 被引量：78
8李智勇,陈志刚,徐政,麻敏华.中国全社会用电量增长主导因素辨识[J].电力系统自动化,2010,34(23):30-35. 被引量：13
9徐文远,雍静.电力扰动数据分析学——电能质量监测数据的新应用[J].中国电机工程学报,2013,33(19):93-101. 被引量：66
10郑宇.城市计算概述[J].武汉大学学报（信息科学版）,2015,40(1):1-13. 被引量：95

引证文献10

1马智远,周凯,许中.基于数据融合技术的电能质量扰动关联分析[J].电器与能效管理技术,2019(3):56-63. 被引量：8
2李长镜,赵书良,池云仙.一种基于谱嵌入和局部密度的离群点检测算法[J].计算机科学,2019,46(3):260-266. 被引量：4
3徐耀丽,李战怀.基于概率推断的质量控制智能体[J].计算机科学,2019,46(4):8-13.
4曹卫东,王广森,王怀超.基于非主属性离群点检测的实体匹配[J].计算机工程与设计,2019,40(8):2247-2252. 被引量：1
5周刚,肖斐,艾芊,谢善益,王玥.基于多阶段近邻排序法与实体匹配法的电能质量关联分析方法[J].电器与能效管理技术,2019,0(14):14-20. 被引量：4
6徐耀丽,李战怀,陈群,王艳艳,樊峰峰.基于因子图的不一致记录对消歧方法[J].计算机研究与发展,2020,57(1):175-187. 被引量：2
7叶青,黄强,聂斌,李欢.一种自适应的高维离群点识别方法[J].广西师范大学学报（自然科学版）,2020,38(2):107-114. 被引量：1
8周晓航,周晓宇.基于汉英双语语料的语义精准抽取系统设计[J].现代电子技术,2020,43(10):156-159.
9林舒源,赖桃桃,严严,张立明,王菡子.基于非负矩阵欠逼近和剪枝技术的多结构几何模型拟合[J].计算机学报,2021,44(7):1414-1429. 被引量：2
10王誓伟,徐晓斌,梁中军.基于城市计算的分布式异常数据分级过滤算法[J].计算机集成制造系统,2021,27(9):2525-2531. 被引量：6

二级引证文献26

1张冉,宋宝燕,单晓欢,王俊陆.多源异构区块链数据质量评估模型[J].计算机与数字工程,2023,51(1):14-19.
2王林,昌艳.智能电网广域测量数据融合算法研究[J].自动化与仪表,2019,34(7):10-14. 被引量：2
3周刚,肖斐,艾芊,谢善益,王玥.基于多阶段近邻排序法与实体匹配法的电能质量关联分析方法[J].电器与能效管理技术,2019,0(14):14-20. 被引量：4
4罗晓媛,赵丽艳,刘君,邹栋.神经网络技术下多尺度时序数据离群点挖掘[J].计算机仿真,2021,38(1):231-235. 被引量：2
5胡悦,林果园,蔚国莹.基于LSTM-GRBM的云虚拟机异常检测[J].微电子学与计算机,2021,38(4):46-51. 被引量：2
6马智远,栾乐,莫文雄,许中.直流型电压暂降治理装置及其优化控制方法[J].电器与能效管理技术,2021(3):76-80. 被引量：9
7苏荣,张斌,沈晨,陈俊生.基于边缘检测与方差变点的风功率数据清洗方法[J].广东电力,2021,34(5):48-56. 被引量：3
8水泽农,张星宇,沙朝锋.基于最优输运和k-近邻的离群文档检测[J].计算机科学,2021,48(7):105-111. 被引量：1
9李学军,郭建华,赵尔敏,张振南,魏凯,袁铁江.计及边缘计算任务分配优化的电能质量分析[J].电器与能效管理技术,2021(6):92-98. 被引量：3
10彭和平,王红斌,栾乐,许中,王勇.多重时间判据电能质量扰动事件关联类型分析方法[J].中国测试,2022,48(2):154-162. 被引量：1

1离群的大雁[J].小学生作文辅导（语文园地）,2017,0(10):31-31.
2邹云峰,张昕,宋世渊,倪巍伟.基于局部密度的快速离群点检测算法[J].计算机应用,2017,37(10):2932-2937. 被引量：26
3袁能伟.浅谈Project在低年级英语中的教学[J].科学大众（智慧教育）,2017(9):69-69.
4方瑜泉.精准扶贫之匡河福利院[J].中华诗词,2017,0(9):6-6.
5胡莹芳.项目教学法在《牛津高中英语》Project板块中的运用[J].中小学外语教学,2017,40(10):7-11. 被引量：5
6张露,林开司,张志宏.具有几何约束匹配的SIFT图像盲检测研究[J].重庆科技学院学报（自然科学版）,2017,19(5):108-111.
7淳姣,姜晓,何华.国外对Google Scholar与Web of Science引文数据分析的研究述评及其启示[J].情报资料工作,2017,38(5):49-55. 被引量：2
8段毅.特朗普“美国优先论”或让美国孤单[J].环球军事,2017,0(19):1-1.
9刘晓磊.社区舞蹈在群众文化工作领域中的运用[J].群文天地,2017(5):71-73.
10李爽,陈雪.银行承兑汇票功能异化与政策调整建议研究[J].中国金融电脑,2017(9):40-44. 被引量：1

计算机学报

2017年第10期

浏览历史

内容加载中请稍等...

一种基于离群点检测的自动实体匹配方法被引量：10

参考文献6

二级参考文献31

共引文献71

同被引文献64

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种基于离群点检测的自动实体匹配方法 被引量：10

参考文献6

二级参考文献31

共引文献71

同被引文献64

引证文献10

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

一种基于离群点检测的自动实体匹配方法被引量：10