一种基于Spark的多路空间连接查询处理算法

A Multi-Way Spatial Join Querying Processing Algorithm Based on Spark

下载PDF

导出

摘要针对云环境下空间数据连接查询处理问题,提出了一种基于Spark的多路空间连接查询处理算法BSMWSJ.该算法采用网格划分方法将整个数据空间划分成大小相同的网格单元,并将各类数据集中的空间对象,根据其空间位置划分到相应的网格单元中,不同网格单元中的空间数据对象进行并行连接查询处理.在多路空间连接查询处理过程中,采用边界过滤的方法来过滤无用数据,即通过计算前面连接操作候选结果的MBR来过滤后续连接数据集,从而过滤掉无用的连接对象,减少连接对象的多余投影与复制,并采用重复避免策略来减少重复结果的输出,从而进一步减少后续连接计算的代价.合成数据集和真实数据集上的大量实验结果表明:提出的多路空间连接查询处理算法在性能上明显优于现有的多路连接查询处理算法. Aiming at the problem of spatial join query processing in cloud computing systems, a multi-way In th spatial join query processing algorithm BSMWSJ is proposed, which is based on Spark platform. is algorithm, the whole data space is divided into grid cells with the same size by grid partition od, and spatial objects in each type data set are distributed into these grid cells according to their spatial locations. Spatial objects in different grid cells are processed in parallel. In multi-way spatial join query processing, a boundary filtering method is proposed to filter the useless data, which calculates the MBRs of the candidate results generated by the previous join processing, and uses these MBRs to filter the subsequent join data sets. This allows it to filter out the useless spatial objects, and reduce the redundant projection and replication of spatial objects. At the same time, a duplication avoidance strategy is applied to reduce the outputs of redundant results, and further minimizes the cost of the subsequent join processing. Many experiments on synthetic and real data sets show that the proposed multi-way spatial join query processing algorithm BSMWSJ has obvious advantages and better performance than the existing multi-way spatial join query processing algorithms.

作者乔百友朱俊海郑宇杰申木川王国仁

机构地区东北大学计算机科学与工程学院杨百翰大学计算机科学系

出处《计算机研究与发展》 EI CSCD 北大核心 2017年第7期1592-1602,共11页 Journal of Computer Research and Development

基金国家自然科学基金项目(61073063 61332006) 国家海洋公益性行业科研专项经费项目(201105033)~~

关键词云计算 Spark平台多路空间连接查询边界过滤重复避免 cloud computing Spark platform multi-way spatial join query boundary filtering duplication avoidance

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1卞昊穹,陈跃国,杜小勇,高彦杰.Spark上的等值连接优化[J].华东师范大学学报（自然科学版）,2014(5):263-270. 被引量：12
2王晓军,孙惠.基于MapReduce的多路连接优化方法研究[J].计算机技术与发展,2013,23(6):59-62. 被引量：5
3汪璟玢,彭志星.多路空间连接优化算法研究[J].小型微型计算机系统,2013,34(11):2431-2436. 被引量：2
4周国亮,萨初日拉,朱永利.Spark环境下基于多维布隆过滤器的星型连接算法[J].计算机应用,2016,36(2):353-357. 被引量：1
5孙莉,李静,刘国华.列存储数据查询中的连接策略优化方法[J].计算机研究与发展,2013,50(8):1647-1656. 被引量：2

二级参考文献62

1姜素芳,陈天滋.空间连接优化方法的研究[J].计算机工程,2007,33(2):90-93. 被引量：2
2WHITET.Hadoop权威指南[M].北京:清华大学出版社.2010.5.
3江务学,张塬,王志明,等.MapReduce并行编程架构模型研究[J].微电子学与计算,20t0,27(6):168-170.
4Jiang Dawei, Tung A K H, Chen Gang. MAP- JOIN- RE- DUCE :Toward Scalab|e and Efficient Data Analysis on LargeClusters[ J]. IEEE Transactions on Knowledge and Data Engi- neering,2011,23 (9) : 1299-1311.
5Lamel R. Google' s MapReduce Programming Model-Revisi- ted[ J]. Science of Computer Programming,2008,7 (1) :208- 237.
6Ghemawat S, Gobioff H, Leung Shun-Tak. The Google file sys- tem[ J]. ACM SIGOPS Operating Systems Review,2003,37 ( 5 ) :29-43.
7Chang F, Dean J, Ghemawat S, et al. A distributed storage sys- tem for structed data[ J ]. ACM Transactions on Computer Sys- tem ,2008,26 (2) : 1-26.
8Abadi D J. Query execution in column-oriented database systems [D]. Cambridge: Massachusetts Institute of Technology, 2008.
9Stonebraker M, Abadi D J, et al. C-Store: A column?oriented DBMS [C]//Proc of the 31st VLDB. New York: ACM. 2005: 553-564.
10Dominik S, Jakub W, Victoria E, et al. Brighthouse , An analytic data warehouse for ad hoc queries [C]/ /Proc of Int Conf on Very Large Data Bases 2008. New York: ACM, 2008: 1337-1345.

共引文献17

1王晓军,邹亮亮.Hadoop迭代优化技术的研究[J].计算机技术与发展,2014,24(9):98-102.
2乔百友,邓增安,王秋杰,朱红印,孔德福,王国仁.一种基于网格索引的空间连接查询处理优化算法[J].小型微型计算机系统,2014,35(10):2243-2248. 被引量：5
3谭威,王防修,石文文,付威威.基于批量提交数据的快速查询算法研究与设计[J].武汉轻工大学学报,2014,33(3):75-79.
4李敏,倪少权,邱小平,黄强.物联网环境下基于上下文的Hadoop大数据处理系统模型[J].计算机应用,2015,35(5):1267-1272. 被引量：33
5刘青,鲍爱华,倪桂强.大数据技术专题讲座(二) 第3讲面向大数据处理的MapReduce优化技术[J].军事通信技术,2015,36(2):81-87. 被引量：1
6卓可秋,童国平,虞为.一种基于Spark的论文相似性快速检测方法[J].图书情报工作,2015,59(11):134-142. 被引量：2
7王诏远,王宏杰,邢焕来,李天瑞.基于Spark的蚁群优化算法[J].计算机应用,2015,35(10):2777-2780. 被引量：23
8王桂兰,周国亮,萨初日拉,朱永利.Spark环境下的并行模糊C均值聚类算法[J].计算机应用,2016,36(2):342-347. 被引量：11
9周国亮,萨初日拉,朱永利.Spark环境下基于多维布隆过滤器的星型连接算法[J].计算机应用,2016,36(2):353-357. 被引量：1
10胡忠奎,屈波,黄斌,黎文阳.一种基于虚拟处理区间划分的负载均衡等值连接算法[J].现代计算机,2016,0(2):3-7.

1王佳.WSN中基于改进蚁群算法的移动Agent路径规划[J].传感技术学报,2011,24(4):609-613. 被引量：4
2涂然,余真真,吴曼,于凯.基于计算智能的聚类技术及其分析研究[J].西部皮革,2017,39(12):10-10.
3杨钊,蓝贵文,陈骐,吴聪聪,张强.基于积极算法的WFS空间连接查询优化研究[J].小型微型计算机系统,2017,38(7):1549-1553. 被引量：1
4李恒,沈华伟,程学旗,翟永.网络高流量分布式拒绝服务攻击防御机制研究综述[J].信息网络安全,2017(5):37-43. 被引量：10
5杨德先,孙华,于炯,国冰磊.一种基于MBRC值的关系型数据库负载能耗预测模型[J].计算机科学,2017,44(7):161-166. 被引量：4
6谢佳,景军锋,李鹏飞,苏泽斌.图像处理在鞋面尺寸测量中的应用[J].西安工程大学学报,2017,31(3):390-394. 被引量：5
7张晶.基于Voronoi图的二维多晶体有限单元建模方法[J].新技术新工艺,2017(6):44-46. 被引量：1
8胡志刚,景冬梅,陈柏林,郑美光,杨柳.云环境下海量语义数据的查询策略[J].中南大学学报（自然科学版）,2017,48(5):1218-1226.
9王生生,王创峰,谷方明.OPRA方向关系网络的时空推理[J].吉林大学学报（工学版）,2017,47(4):1238-1243. 被引量：4
10仇阿根,刘纪平,张志然,董珍珍,马磊,钱新林.地理要素的分布式空间近似查询处理方法[J].测绘科学,2017,42(7):57-64. 被引量：1

计算机研究与发展

2017年第7期

浏览历史

内容加载中请稍等...

一种基于Spark的多路空间连接查询处理算法

参考文献5

二级参考文献62

共引文献17

相关作者

相关机构

相关主题

浏览历史