基于非主属性离群点检测的实体匹配被引量：1

Entity matching of outlier detection based on non-primary attributes

下载PDF

导出

摘要为解决互联网上不同源中同一实体描述多样性的问题,提出一种基于非主属性离群点检测的实体匹配方法。利用非主属性值消除主属性值不同带来的歧义,非主属性值可较快排除不匹配实体,极大提高匹配效率。该匹配方法在一定程度上克服了离群点匹配在传统奇异值分解中不能应用在大规模数据的弊端,其基于规则的方法对数据进行粗筛选,降低实体对的数据规模;根据离群点检测模型做进一步筛选,得到初步的实体对集;根据生成的实体对集进行采样,利用机器学习选择合适的匹配器并训练来获取匹配对。实验结果表明,该方法使准确率和召回率得到提高,其有效性得到验证。 To solve the problem of diversity of the same entity in different sources on the Internet,an entity matching method based on non-primary attribute outlier detection was proposed.Non-primary attribute values were used to eliminate the ambiguity caused by different primary attribute values.At the same time,non-primary attribute values also excluded unmatched entities quickly,which greatly improved the matching efficiency.In addition,this matching method overcame the disadvantages that outlier matching can not be applied to large-scale data in traditional singular value decomposition to a certain extent.A rule-based method was used to roughly filter the data and reduce the data size of the entity pair.Further screening was performed according to the outlier detection model to obtain a preliminary entity pair set.The set of entities was sampled.Machine learning was used to select the appropriate matcher and it was trained to get matched pair.Experimental results verify the effectiveness of the method and it greatly improves the accuracy and recall rate.

作者曹卫东王广森王怀超 CAO Wei-dong;WANG Guang-sen;WANG Huai-chao(College of Computer Science and Technology,Civil Aviation University of China,Tianjin 300300,China)

机构地区中国民航大学计算机科学与技术学院

出处《计算机工程与设计》北大核心 2019年第8期2247-2252,共6页 Computer Engineering and Design

基金民航科技重大专项基金项目(MHRD20150107、MHRD20160109) 中央高校基本业务费基金项目(3122014C017)

关键词实体匹配非主属性离群点检测粗筛选匹配器 entity matching non-primary attribute outlier detection rough filter matcher

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1杨强,李直旭,蒋俊,赵朋朋,刘冠峰,刘安,周晓方.基于非主属性值的实体匹配[J].计算机学报,2016,39(10):2075-2087. 被引量：4
2胡鑫,常文军,孙超平.基于比较可能度的多属性决策方法[J].计算机应用,2017,37(8):2223-2228. 被引量：1
3樊峰峰,李战怀,陈群,刘海龙.一种基于离群点检测的自动实体匹配方法[J].计算机学报,2017,40(10):2197-2211. 被引量：10

二级参考文献44

1吴江明,栾连军,程翼宇.胶束毛细管电泳法同时测定黄连-吴茱萸药对中5种生物碱的含量[J].药物分析杂志,2006,26(3):325-328. 被引量：13
2沈涛.黄连吴茱萸组方对实验性高脂模型小鼠的降脂实验研究[J].成都中医药大学学报,2007,30(1):18-19. 被引量：18
3李霞,张绍林,张淼,刘华.基于新距离测度的区间数排序[J].西华大学学报（自然科学版）,2008,27(1):87-90. 被引量：17
4Scannapieco M. Object matching: New challenges for record linkage. The Philosophy of Information Quality, 2014, 358 (38) : 95-106.
5Fan W, Jia X, Li J, Ma S. Reasoning about record matching rules. Proceedings of the VLDB Endowment, 2009, 2 (1) : 407-418.
6Cheatham M, Hitzler P. String similarity metrics for ontology alignment//Proceedings of the 12th International Semantic Web Conference. Sydney, Australia, 2013:294-309.
7Li M, Chen X, Li X, et al. The similarity metric. IEEE Transactions on Information Theory, 2004, 50(12): 3250- 3264.
8Dey D, Mookerjee V S, Liu D. Efficient techniques for online record linkage. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(3): 373-387.
9Aizawa A, Oyama K. A fast linkage detection scheme for multi source information integration//Proceedings of the International Workshop on Challenges in Web Information Retrieval and Integration. Tokyo, Japan, 2005:30-39.
10Wang J, Li G, Feng J. Can we beat the prefix filtering?: An adaptive framework for similarity join and search//Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. Scottsdale, USA, 2012:85-96.

共引文献12

1欧群雍,谭同德,冯学晓.基于机器学习的软件定义网络数据流子序列匹配算法[J].国外电子测量技术,2022,41(4):70-76. 被引量：2
2马智远,周凯,许中.基于数据融合技术的电能质量扰动关联分析[J].电器与能效管理技术,2019(3):56-63. 被引量：8
3李长镜,赵书良,池云仙.一种基于谱嵌入和局部密度的离群点检测算法[J].计算机科学,2019,46(3):260-266. 被引量：4
4徐耀丽,李战怀.基于概率推断的质量控制智能体[J].计算机科学,2019,46(4):8-13.
5周刚,肖斐,艾芊,谢善益,王玥.基于多阶段近邻排序法与实体匹配法的电能质量关联分析方法[J].电器与能效管理技术,2019,0(14):14-20. 被引量：4
6熊化峰,孙英华,李建波,廉文娟,刘雪庆.共享经济背景下多属性双边匹配问题求解[J].计算机工程与应用,2019,55(24):222-228. 被引量：6
7徐耀丽,李战怀,陈群,王艳艳,樊峰峰.基于因子图的不一致记录对消歧方法[J].计算机研究与发展,2020,57(1):175-187. 被引量：2
8叶青,黄强,聂斌,李欢.一种自适应的高维离群点识别方法[J].广西师范大学学报（自然科学版）,2020,38(2):107-114. 被引量：1
9周晓航,周晓宇.基于汉英双语语料的语义精准抽取系统设计[J].现代电子技术,2020,43(10):156-159.
10林舒源,赖桃桃,严严,张立明,王菡子.基于非负矩阵欠逼近和剪枝技术的多结构几何模型拟合[J].计算机学报,2021,44(7):1414-1429. 被引量：2

同被引文献16

1石海莹,李孟植.2005年海南岛沿岸风暴潮特征分析[J].海洋预报,2008,25(3):33-39. 被引量：5
2杨波,林祥,刘青明,封勇.“桑美”超强台风风暴潮增水特征分析[J].河海大学学报（自然科学版）,2013,41(4):348-353. 被引量：6
3陈仕鸿,唐丹玲,隋广军.基于SVR的广东省台风灾害损失评估[J].海洋环境科学,2013,32(6):939-943. 被引量：8
4王喜年.风暴潮预报知识讲座第四讲风暴潮预报技术(1)[J].海洋预报,2001,18(4):63-69. 被引量：8
5冯倩,刘强.基于SVM-BP神经网络的风暴潮灾害损失预评估[J].海洋环境科学,2017,36(4):615-621. 被引量：21
6杨万康,杨青莹,伊小飞,尹宝树,张峰.典型海湾风暴潮增水特征与机理研究[J].海洋通报,2017,36(5):532-537. 被引量：7
7雷森,史振威,石天阳,高松,李亚茹,钟山.基于递归神经网络的风暴潮增水预测[J].智能系统学报,2017,12(5):640-644. 被引量：11
8陈淳,王立辉,何岩雨.海岛地区风暴潮增水分布特征及应急疏散对策——以平潭综合实验区为例[J].海洋预报,2018,35(4):8-16. 被引量：1
9薛明,李醒飞,成方林.基于多种神经网络的风暴潮增水预测方法的比较分析[J].海洋通报,2019,38(3):290-295. 被引量：14
10王宏民,刘洪超,薛萍.变分模态分解在齿轮故障特征提取中的应用[J].东北林业大学学报,2019,47(8):97-102. 被引量：7

引证文献1

1张晓琪,刘强.基于SVR台风距离与最佳风暴潮增水影响因素组合的关系研究[J].海洋湖沼通报,2024,46(2):91-97.

1林沛杰.区域自媒体商业变现:流量之外,探索更多[J].国际品牌观察（媒介）,2019,0(6):43-48. 被引量：1
2徐梦竹,徐佳,邓鸿儒,袁春琦.基于全极化SAR影像的海岛地物分类[J].遥感技术与应用,2019,34(3):647-654. 被引量：3
3张赛儿.运用移动终端拓展高职钢琴学习实践的调查研究[J].明日,2019,0(37):0094-0094.

计算机工程与设计

2019年第8期

浏览历史

内容加载中请稍等...

基于非主属性离群点检测的实体匹配被引量：1

参考文献3

二级参考文献44

共引文献12

同被引文献16

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于非主属性离群点检测的实体匹配 被引量：1

参考文献3

二级参考文献44

共引文献12

同被引文献16

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于非主属性离群点检测的实体匹配被引量：1