基于卡方分布的高维数据相似性连接查询算法被引量：2

Chi-square distribution based similarity join query algorithm on high-dimensional data

下载PDF

导出

摘要为了解决高维数据相似性连接查询中存在的维度灾难和计算代价高等问题,基于p-稳态分布,将高维数据映射到低维空间。根据卡方分布的性质,证明了如果低维空间的距离大于kε,则原始空间距离大于ε的概率具有一定的下界,从而可以在低维空间以较低的计算代价进行有效过滤。在此基础上,提出了基于卡方分布的高维数据相似性连接查询算法。为了进一步提高查询效率,提出了基于双重过滤的高维数据相似性连接查询算法。利用真实数据集进行了实验,实验结果表明所提方法具有较好的性能。基于卡方分布的相似性连接查询算法召回率可以达到90%以上。基于双重过滤的相似性连接查询算法可以进一步提高性能,但是会损失一定的召回率。对时间性能要求比较高、对召回率要求不太严格的查询任务可以采用基于双重过滤的相似性连接查询算法;反之,可以采用基于卡方分布的相似性连接查询算法。 To deal with the curse of dimensionality and costly computation problems existed in high-dimensional similarity join query, the high-dimensional data were mapped to low-dimensional space based on p-stable distribution. According the definition of chi-square distribution, a theorem was proved： if the distance of two points in low-dimensional space is greater than kε, the probability that the distance of two points in original space is greater than ε has a lower bound. So the effective filtering can be performed at relative low cost in the mapped space. A novel chi-square distribution-based similarity join query algorithm on high-dimensional data was proposed. In order to further improve the query efficiency, another similarity join query algorithm based on double filtering was also proposed. Comprehensive experiments were performed. The experimental results show that the proposed approaches have good performance. The recall of the chi-square distribution-based similarity join query algorithm is larger than 90%. The double filtering based similarity join query algorithm can further improve the efficiency, but it will lose some recall rate. Chi-square distribution based similarity join query algorithm is suitable for the query tasks which are critical of the query performance but not critical of the recall; otherwise, the similarity join query algorithm based on double filtering is favorable.

作者马友忠贾世杰张永新

机构地区洛阳师范学院信息技术学院中原经济区智慧旅游河南省协同创新中心

出处《计算机应用》 CSCD 北大核心 2016年第7期1993-1997,2037,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61501216 61272015) 河南省科技攻关计划项目(152102210332 152102210331) 中原经济区智慧旅游河南省协同创新中心2015年度开放课题(2015-ZHLV-009)~~

关键词相似性连接查询高维数据卡方分布 p-稳态分布召回率 similarity join query high-dimensional data chi-square distribution p-stable distribution recall

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1庞俊,谷峪,许嘉,于戈.相似性连接查询技术研究进展[J].计算机科学与探索,2013,7(1):1-13. 被引量：15
2庞俊,于戈,许嘉,谷峪.基于MapReduce框架的海量数据相似性连接研究进展[J].计算机科学,2015,42(1):1-5. 被引量：16
3SHIM K, SRIKANT R, AGRAWAL R. High-dimensional similarity joins [ J]. IEEE Transactions on Knowledge and Data Engineering, 2002, 14(1): 156-171.
4BOHM C, BRAUNMCdLLER B, KREBS F, et al. Epsilon grid or- der: an algorithm for the similarity join on massive high-dimensional data [ C]// Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. New York: ACM, 2001:379 -388.
5KALASHNIKOV D. Super-EGO: fast multi-dimensional similarity join [J]. The VLDB Journal, 2013, 22(4): 561 -585.
6DEAN J, GHEMAWAT S. MapReduee: simplified data processing on large clusters [ C]// Proceedings of the 6th USENIX Symposium on Operating Systems Design and Implementation. San Francisco: USENIX Association, 2004:137 - 150.
7SEIDL T, FRIES S, BODEN B. MR-DSJ: distance-based self-join for large-scale vector data analysis with MapReduce [ C]//Proceed- ings of the 15th BTW Conference on Database Systems for Business, Technology, and Web. Berlin: Springer, 2013:37-56.
8FRIES S, BODEN B, STEPIEN G, et al. PHiDJ: parallel similarity self-join for high-dimensional vector data with MapReduce [ C]// Proceedings of the 30th IEEE International Conference on Data Engi- neering. Piscataway, NJ: IEEE, 2014:796-807.
9LUO W, TAN H, MAO H, et al. Efficient similarity joins on mas- sive high-dimensional datasets using MapReduce [ C]// Proceedings of the 13th IEEE International Conference on Mobile Data Manage- ment. Piscataway, NJ: IEEE, 2012: 1-10.
10LU W, SHEN Y, CHEN S, et al. Efficient processing of k nearest neighbor joins using MapReduce [ J]. Proceedings of the VLDB Endowment, 2012, 5(10) : 1016 - 1027.

二级参考文献59

1李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,8(9):8-15.
2CIO时代网.浅析大数据的特点[EB/OL]. (2012-05-08). [2013-5-20] .http://www.ciotimes.com /baike/62989.html.
3Brinkhoff T,Kriegel H P,Seeger B.Efficient processing of spatial joins using R-trees. ACM SIGMOD Int. Conf. on Management of Data . 1993
4G. Luo,J. Naughton,C. Ellman.A Non-Blocking Parallel Spatial Join Algorithm. Proc International Conference on Data Engineering . 2002
5Dittrich,J -P,B. Seeger.Data Redundancy and Duplicate Detection in Spatial Join Processing. Proceedings of the 16th International Conference on Data Engineering . 2000
6Tao Y,Papadias D.Range Aggregate Processing in Spatial Databases. IEEE Transactions on Knowledge and Data Engineering . 2004
7Zhang D,Tsotras V J,Gunopulos D.Efficient Aggregation over Objects with Extent. Proceedings of the 21th ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems . 2002
8M Zhu.Top-k spatial joins. IEEE Transactions on Knowledge and Data Engineering . 2005
9Jeffrey Dean,Sanjay Ghemawat.MapReduce:Simplified Data Processing on Large Clusters. OSDI’’04:Sixth Symposium on Operating System Design andImplementation . 2004
10Patel JM,DeWitt DJ.Partition based spatial-merge join. SIGMOD Record . 1996

共引文献31

1胡爱娜,蔡晓艳.基于MapReduce的分布式期望最大化算法[J].科学技术与工程,2013,21(16):4603-4606. 被引量：4
2曾光,陈性元,杜学绘,夏春涛.基于图相似匹配的政务网络结构一致性验证方法[J].计算机应用,2014,34(7):1909-1914.
3徐媛媛,陈华辉.基于MapReduce的增量式数据集的相似性连接[J].计算机应用研究,2014,31(11):3369-3374. 被引量：2
4马友忠,慈祥,孟小峰.海量高维向量的并行Top-k连接查询[J].计算机学报,2015,38(1):86-98. 被引量：10
5庞俊,于戈,许嘉,谷峪.基于MapReduce框架的海量数据相似性连接研究进展[J].计算机科学,2015,42(1):1-5. 被引量：16
6陈一帆,赵翔,何培俊,张维明,唐九阳.BMGSJoin:一种基于MapReduce的图相似度连接算法[J].模式识别与人工智能,2015,28(5):472-480. 被引量：4
7赵利伟,陈咸彰,诸葛晴凤.连接操作在SIMFS和EXT4上的性能比较[J].计算机科学,2016,43(6):184-187. 被引量：1
8孙德才,王晓霞.一种基于MapReduce的大数据集相似自连接算法[J].计算机科学,2017,44(5):20-25. 被引量：3
9冯林静.多核的并行相似连接[J].计算机技术与发展,2017,27(7):43-46.
10丁琳琳,李晓燕,韩百硕,刘思平,宋宝燕.MapReduce环境下面向用户偏好的top-k连接查询处理方法[J].小型微型计算机系统,2017,38(11):2511-2516.

同被引文献14

1唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J].计算机工程与应用,2008,44(13):130-133. 被引量：35
2姚登举,杨静,詹晓娟.基于随机森林的特征选择算法[J].吉林大学学报（工学版）,2014,44(1):137-141. 被引量：245
3邓生雄,雒江涛,刘勇,王小平,杨军超.集成随机森林的分类模型[J].计算机应用研究,2015,32(6):1621-1624. 被引量：20
4荣盘祥,曾凡永,黄金杰.数据挖掘中特征选择算法研究[J].哈尔滨理工大学学报,2016,21(1):106-109. 被引量：14
5万静,孙永倩,董怀国,肖宇鹏,齐坡.空间聚类与方向关系的融合技术研究[J].计算机工程与应用,2016,52(9):56-61. 被引量：5
6李刚,杨立业,刘福炎,俞敏,宋雨,文福拴.能源互联网关联数据融合的互信息方法[J].电力建设,2016,37(9):22-29. 被引量：9
7祝振媛,李广建.“数据—信息—知识”整体视角下的知识融合初探——数据融合、信息融合、知识融合的关联与比较[J].情报理论与实践,2017,40(2):12-18. 被引量：53
8金泽芬芬,侯志强,余旺盛,王鑫.基于协方差矩阵的多特征融合跟踪算法[J].光学学报,2017,37(9):220-232. 被引量：10
9程汝娇,徐鸿雁.基于RFM模型的半监督聚类算法[J].计算机系统应用,2017,26(11):170-175. 被引量：6
10张福兴,张涛,王锐,郑晓坤,张彦.考虑多源-荷-储协同优化的能源局域网系统能量管理研究[J].电网技术,2017,41(12):3942-3950. 被引量：16

引证文献2

1刘凯,郑山红,蒋权,赵天傲.基于随机森林的自适应特征选择算法[J].计算机技术与发展,2018,28(9):101-104. 被引量：8
2王兰,杜学敏.局域网络信息系统特征级开源目标融合仿真[J].计算机仿真,2020,37(1):267-271. 被引量：2

二级引证文献10

1蔡俊鹏,吴炳福,陈德旺.基于机器学习的高速列车转向架振动信号监测[J].计算机技术与发展,2019,29(8):130-135. 被引量：3
2于澍,曹琦,刘涛.基于随机森林的微博互动特征分析[J].计算机技术与发展,2019,29(10):51-54. 被引量：2
3王诚,高蕊.基于特征约简的随机森林改进算法研究[J].计算机技术与发展,2020,30(3):40-45. 被引量：4
4夏汉庸,尹和军,徐教煌,王嘉伟,黄毅.基于机器学习的多施工参数盾构施工姿态预测[J].测绘通报,2021(1):157-160. 被引量：11
5张新生,张琪.基于改进RFFS和GSA-SVR的长输油管道腐蚀深度预测研究[J].系统工程理论与实践,2021,41(6):1598-1610. 被引量：9
6张伟.基于文本挖掘的网络信息搜索目标预测系统[J].电子设计工程,2022,30(5):145-149. 被引量：1
7王诚,唐振坤.基于随机森林算法的负载预警研究及并行化[J].计算机技术与发展,2022,32(11):204-207. 被引量：1
8牛保民,行久红.基于网格技术的大数据样例选择算法研究[J].信息与电脑,2023,35(8):114-116.
9张瑜,崔琳,盛红雷,赵恩来,李明.基于非均匀分簇的网络多通道数据融合共享系统[J].电子设计工程,2024,32(12):187-190.
10王松,周长敏,周学广.基于截枝随机森林模型的TMS特征选择方法研究[J].计算机科学与应用,2020,10(2):276-288.

1陈猛,楚广琳.数据流分类研究综述[J].科技信息,2012(22):239-240.
2王涛,李舟军,颜跃进,陈火旺.人工智能数据流挖掘分类技术综述[J].中国学术期刊文摘,2008,14(10):8-8.
3徐媛媛,陈华辉.基于MapReduce的增量式数据集的相似性连接[J].计算机应用研究,2014,31(11):3369-3374. 被引量：2
4张小川,于旭庭,张宜浩.一种改进的向量空间模型的文本表示算法[J].重庆理工大学学报（自然科学）,2017,31(1):87-92. 被引量：8
5丁海勇,史文中.利用卡方分布改进N-FINDR端元提取算法[J].遥感学报,2013,17(1):122-137. 被引量：15
6孔颖.基于HTML卡方算法的垃圾邮件过滤器设计[J].浙江科技学院学报,2010,22(6):525-529.
7郭新志,钟家民.一种改进的双重过滤模型算法[J].安阳工学院学报,2009,8(2):59-60.
8黄璞,唐振民.最小距离鉴别投影及其在人脸识别中的应用[J].中国图象图形学报,2013,18(2):201-206. 被引量：10
9李红梅,郝文宁,陈刚.基于改进LSH的协同过滤推荐算法[J].计算机科学,2015,42(10):256-261. 被引量：13
10周健雯,李聪聪,熊赟,朱扬勇.一种基于R*树的自相似性连接算法[J].计算机应用与软件,2014,31(8):50-53. 被引量：1

计算机应用

2016年第7期

浏览历史

内容加载中请稍等...

基于卡方分布的高维数据相似性连接查询算法被引量：2

参考文献19

二级参考文献59

共引文献31

同被引文献14

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于卡方分布的高维数据相似性连接查询算法 被引量：2

参考文献19

二级参考文献59

共引文献31

同被引文献14

引证文献2

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

基于卡方分布的高维数据相似性连接查询算法被引量：2