MapReduce框架下基于R-树的k-近邻连接算法被引量：60

Algorithm for Processing k-Nearest Join Based on R-Tree in MapReduce

下载PDF

导出

摘要针对大规模空间数据的高性能k-近邻连接查询处理,研究了MapReduce框架下基于R-树索引的k-近邻连接查询处理.首先利用无依赖并行和串行同步计算的形式化定义抽象了MapReduce并行编程模型,基于此并行计算模型抽象,分别提出了R-树索引快速构建算法和基于R-树的并行k-近邻连接算法.在索引构建过程中,提出一种采样算法以快速确立空间划分函数,使得索引构建符合无依赖并行和串行同步计算抽象,在MapReduce框架下非常容易进行表达.在k-近邻连接查询过程中,基于构建的分布式R-树索引,引入k-近邻扩展框限定查询范围并进行数据划分,然后利用R-树索引进行k-近邻连接查询,提高了查询效率.从理论上分析了所提出算法的通信和计算代价.实验与分析结果表明,该算法在真实数据集的查询上具有良好的效率和可扩展性能,可以很好地支持大规模空间数据的k-近邻连接查询处理,具有良好的实用价值. To accelerate the k-nearest neighbor join（knnJ） query for large scale spatial data,the study presents a knnJ based on R-tree in MapReduce.First,the research uses the formalization of independent parallelism and sequential synchronization（IPSS） computation to abstract MapReduce parallel program model.Next,based on this parallel model abstraction,this paper proposes efficient algorithms for bulk building R-tree and performing knnJ query based on the constructed R-tree respectively.In the process of bulk building R-tree,a sampling algorithm is provided to determine the spatial partition function rapidly,which make the process of building R-tree conform to IPSS model and can be expressed easily in MapReduce.In the process of knnJ query,the knn expanded bounding box is introduced to limit the knn query range and partition data,and then the generated R-tree is used to execute knnJ query in parallel fashion,achieving high performance.This paper analyzes the communication and computation cost in theory.Experimental results and analysis in large real spatial data demonstrate that the algorithm can efficiently resolve the large scale knnJ spatial query in MapReduce environment,and has a good practical application.

作者刘义景宁陈荦熊伟

机构地区国防科学技术大学电子科学与工程学院

出处《软件学报》 EI CSCD 北大核心 2013年第8期1836-1851,共16页 Journal of Software

基金国家自然科学基金(61070035 41271403) 国家高技术研究发展计划(863)(2011AA120306 2007AA120402) 高等学校博士学科点专项科研基金(20104307110017)

关键词云计算 MAPREDUCE k-近邻连接空间查询 R-树 cloud computing MapReduce k-nearest neighbor join spatial query R-tree

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1Bohm C, Krebs F. The k-nearest neighbor join: Turbo charging the KDD process. Knowledge Information System, 2004,6(6): 728-749. [doi: 10.1007/s10115-003-0122-9].
2Xia CY, Lu HJ, Coi BC, Hu J. Gorder: An efficient method for KDD joins processing. In: Proc. of the 30th Int'l Conf. on Very Large Data Bases (VLDB). 2004. 756-767.
3Yao B, Li FF, Kumar P. K nearest neighbor queries and KNN-joins in large relational databases (almost) for free. In: Proc. of the 26th Int'l Conf. on Data Engineering (ICDE). 2010.4-15. [doi: 10.1109/ICDE.2010.5447837].
4Yu C, Cui B, Wang SG, Su JW. Efficient index-based KNN join processing for high-dimensional data. Information and Software Technology, 2007,49(4):332-344. [doi: 10.1016/j.infsof.2006.05.006].
5Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters. Communications of the ACM, 2008,51(1):107-113 [doi: 10.1145/1327452.1327492].
6White T. Hadoop: The Definitive Guide. Sebastopol: Yahoo! Press, 2009.
7Zhang C, Li FF, Jestes J. Efficient parallel kNN joins for large data in MapReduce. In: Proc. of the 15th Int'l Conf. on Extending Database Technology (EDBT). 2012.38-49. [doi: 10.1145/2247596.2247602].
8Lu W, Shen YY, Chen S, Col BC. Efficient processing of k nearest neighbor joins using MapReduce. In: Proc. of the 38th lnt'l Conf. on Very Large Data Bases (VLDB). 2012. 1016-1027.
9Liu Y, Jing N, Chen L, Chen HZ. Parallel bulk-loading of spatial data with MapReduce: An R4ree case. Wuhan University Journal of Natural Sciences, 2011,16(6):513-519. [doi: 10.1007/s11859-011-0790-3].
10Tao YF, Papadias D. Range aggregate processing in spatial databases. IEEE Trans. on Knowledge and Data Engineering, 2004, 16(12):1555-1570. [doi: 10.1109/TKDE.2004.93].

同被引文献522

1章华,刘乃琦,郭建东.基于孩子兄弟树的FAT32文件删除恢复算法[J].计算机应用研究,2009,26(3):1116-1118. 被引量：6
2李刚成,刘赞波,曾庆光.一种基于模糊聚类的构造进化树方法[J].计算机应用,2009,29(3):836-838. 被引量：6
3钟连德,孙小端,陈永胜,贺玉龙,刘小明.高速公路事故预测模型[J].北京工业大学学报,2009,35(7):966-971. 被引量：8
4曹俐莉,张隋.国外政府热线实践与绩效评价策略分析[J].标准科学,2014(5):24-28. 被引量：3
5于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
6崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
7刘义,陈荦,景宁,刘露.海量空间数据的并行Top-k连接查询[J].计算机研究与发展,2011,48(S3):163-172. 被引量：7
8陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：340
9王习特,申德荣,聂铁铮,寇月,于戈.共享的MapReduce环境下批量作业的调度算法研究[J].计算机研究与发展,2013,50(S1):332-341. 被引量：2
10牟雁超,苏汉宸,程序,李红燕,王腾蛟.ASIC:一种适用于云数据管理的自适应辅助索引机制[J].计算机研究与发展,2013,50(S1):352-360. 被引量：1

引证文献60

1刘琼,赵荣,孙立坚.Map/Reduce框架下的粗糙集空间数据挖掘改进算法[J].测绘科学,2014,39(5):49-53. 被引量：3
2代亮,许宏科,陈婷,钱超,梁殿鹏.基于MapReduce的多元线性回归预测模型[J].计算机应用,2014,34(7):1862-1866. 被引量：17
3陈晓康,刘竹松.基于改进Kd-Tree构建算法的k近邻查询[J].广东工业大学学报,2014,31(3):119-123. 被引量：8
4李玉丹,郑晓薇.Hadoop下多模式并行分类算法及其应用研究[J].计算机工程,2014,40(12):45-49. 被引量：2
5金菁.基于MapReduce模型的排序算法优化研究[J].计算机科学,2014,41(12):155-159. 被引量：6
6李贵兵,金炜东,蒋鹏,付小利,熊定鸿,谷鹏举.面向大规模监测数据的高铁故障诊断技术研究[J].系统仿真学报,2014,26(10):2458-2464. 被引量：10
7闫广,陈卿,刘晓文,郎佳敏.到时差计算中并行相关算法实验及性能分析[J].物联网技术,2015,5(2):52-55. 被引量：1
8蒋勇,赵作鹏.基于MapReduce模型的排序算法优化研究[J].计算机科学与探索,2015,9(4):410-417. 被引量：3
9李金海,何有世.在线评论信息挖掘分析的数据来源可靠性研究[J].软科学,2015,29(4):94-99. 被引量：6
10王飞,秦小麟,刘亮,沈尧.基于数据流的k-近邻连接算法[J].计算机科学,2015,42(5):204-210. 被引量：3

二级引证文献250

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2张佳颖.探讨基于并行数据库的海量数据分析方法[J].冶金管理,2019,0(17):192-192.
3庄琛,马赟婷,钟震远,陈鑫.基于启发式算法的异常用电检测研究[J].光学与光电技术,2022,20(6):133-138. 被引量：1
4何良泽,覃宇,李力,游清泉,何鑫垒,陈争,向绍俊.十大将军县成因及其相关性的分析[J].山东青年,2019,0(4):111-112.
5李强,刘晓峰.基于模拟植物生长算法的云作业调度模型[J].系统仿真学报,2018,30(12):4649-4658. 被引量：9
6李向.基于蚁群算法优化Hadoop平台计算效能方法[J].微型电脑应用,2018,34(12):140-143. 被引量：1
7金铭.大数据与推荐系统研究[J].电脑知识与技术,2018,14(12):253-254.
8陈换新,孙群,刘雅彬,吕东儒,冯毅.空间数据研究的发展及对策[J].测绘工程,2015,24(2):10-14. 被引量：3
9何有世,李金海,马云蕾,李烁朋.基于复杂网络构建面向主题的在线评论挖掘模型[J].软科学,2015,29(10):115-119. 被引量：4
10高亮,谢健,曹天泽.基于Kd树改进的高效K-means聚类算法[J].计算技术与自动化,2015,34(4):69-74. 被引量：7

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2孟令奎,金先级,张江陵.基于部分同步计算的神经网络排序模型分析[J].计算机工程,1994,20(1):13-16.
3张皓,卫娟,于琨.一种支持热门查询的R-树索引结构方法[J].控制工程,2017,24(1):130-134.
4吴英杰,唐庆明,倪巍伟,孙志挥.基于取整划分函数的k匿名算法[J].软件学报,2012,23(8):2138-2148. 被引量：8
5邓智,何明飞,刘拿.无线传感器网络的时间同步算法分析[J].无线互联科技,2015,12(14):20-21.
6莫京兰,翁世洲,李金海.一种基于属性划分的序信息系统并行约简算法[J].工程数学学报,2014,31(5):633-644. 被引量：2
7段斌斌,孙嵩松,焦黎,周文利.一种高速嵌套CRC码的生成方法及其FPGA实现[J].计算机科学,2014,41(9):101-103.
8王志力,王彦丽,李广庆.基于Hadoop平台下Skyline查询算法优化研究[J].中国科技信息,2015(24):77-78.
9刘文海.一种改进的基于R-树混合空间聚类算法[J].长沙大学学报,2010,24(2):60-61. 被引量：1
10钟治初.Partition算法及其实现[J].计算机与现代化,2006(2):44-45.

软件学报

2013年第8期

浏览历史

内容加载中请稍等...

MapReduce框架下基于R-树的k-近邻连接算法被引量：60

参考文献10

同被引文献522

引证文献60

二级引证文献250

相关作者

相关机构

相关主题

浏览历史

MapReduce框架下基于R-树的k-近邻连接算法 被引量：60

参考文献10

同被引文献522

引证文献60

二级引证文献250

相关作者

相关机构

相关主题

浏览历史

MapReduce框架下基于R-树的k-近邻连接算法被引量：60