基于MapReduce的连接聚集查询算法研究被引量：7

MapReduce Based Aggregate-Join Query Algorithms

下载PDF

导出

摘要数据的指数级增长给数据管理和分析带来了严峻的挑战.连接聚集查询是数据分析中一种常用运算,而MapReduce是一种用于大规模数据集并行处理的编程模型,研究基于MapReduce的连接聚集查询算法有着学术意义和应用价值.首先在归纳和扩展现有连接算法的基础上总结出4种基于MapReduce的连接聚集查询算法;接着根据应用场景的不同又提出另外两种实现算法;同时提出I/O代价是决定基于MapReduce的连接聚集查询算法性能的主要因素;最后通过大量实验分析这6种算法在不同查询应用下的优劣,总结了它们各自的适用场景,并分析了各个算法的性能与数据特征之间的关系. The exponential growth of data has brought serious challenges to the data management and analysis.Aggregate-join query is a common data analysis operation,and MapReduce is a programming model for implementing parallel processing on large-scale datasets.Therefore the research on MapReduce-based aggregate-join query algorithms has some academic significance and application value.Through the induction and expansion of the existing join algorithms,four kinds of MapReducebased aggregate-join algorithms are proposed.And on the basis of different application scenarios, another two implementation algorithms are proposed.The opinion that the cost of reads/writes are key factors in determining the performance of the algorithms is also put forward.Experimental results show the pros and cons of six algorithms under different query applications,application scenarios of them are concluded,and relations between performance and data characteristics are analyzed.

作者陈勇旭陈梦杰刘雪冰宋杰

机构地区东北大学软件学院

出处《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期306-311,共6页 Journal of Computer Research and Development

基金国家自然科学基金项目(61202088) 辽宁省自然科学基金项目(200102059) 中央高校基本科研业务费专项资金项目(N120817001)

关键词海量数据连接聚集查询 MAPREDUCE I/O代价算法优化 massive data aggregate-join query MapReduce I/O cost algorithm optimization

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

同被引文献46

1周家帅,王琦,高军.一种基于动态划分的MapReduce负载均衡方法[J].计算机研究与发展,2013,50(S1):369-377. 被引量：11
2郑骁庆,陈华钧,吴朝晖,毛郁欣.Dynamic Query Optimization Approach for Semantic Database Grid[J].Journal of Computer Science & Technology,2006,21(4):597-608. 被引量：2
3赵春宇,孟令奎,林志勇.一种面向并行空间数据库的数据划分算法研究[J].武汉大学学报（信息科学版）,2006,31(11):962-965. 被引量：26
4王永杰,孟令奎,赵春宇.基于Hilbert空间排列码的海量空间数据划分算法研究[J].武汉大学学报（信息科学版）,2007,32(7):650-653. 被引量：18
5Jeffrey Dean,Sanjay Ghemawat.MapReduce:simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
6G,Dan.Development of Massive Astronomy Data Federation System and Research of Data Mining Algorithms-Tool Devel- opment and Algorithm Research[J].Publications of the Astro- nomical Society of the Pacific,2008,120(874);1357.
7Y.-W.Huang,N.Jing,and E.A.Rundensteiner,"Spatial Joins Using R-trees:Breadth-First Traversal with Global Op- timizations[Z].in Proceedings of the 23rd International Con- ference on Very Large Data Bases,San Francisco,CA,USA,1997.396-405.
8P.Mishra and M.H.Eich.Join processing in relational databases[J].ACM Coinput.Surv.,1992,24(1):63-113.
9Jens Dittrich,Jorge-Arnulfo Quiané-Ruiz,Alekh Jindal,Yagiz Kargin,Vinay Setty,J?rg Schad.Hadoop++: making a yellow elephant run like a cheetah (without it even noticing). Proceedings of the VLDB Endowment . 2010
10Blanas S,Patel J M,Ercegovac V,et al.A comparison of join algorithms for log processing in MapReduce. Proc of the ACM SIGMOD Int Conf on Management of Data . 2010

引证文献7

1李素若.基于MapReduce分布式连接算法优化技术研究[J].铜陵学院学报,2015,14(5):107-109.
2黄向东,郑亮帆,邱明明,张金瑞,王建民.支持时序数据聚合函数的索引[J].清华大学学报（自然科学版）,2016,56(3):229-236. 被引量：3
3梁俊杰,何利民.基于MapReduce的数据倾斜连接算法[J].计算机科学,2016,43(9):27-31. 被引量：6
4付仲良,赵星源,王楠,杨元维.面向并行空间连接的两轮映射数据划分方法[J].浙江大学学报（工学版）,2017,51(1):212-224. 被引量：1
5黄海.一种改进的数据库查询二叉树启发式算法[J].赤峰学院学报（自然科学版）,2017,33(3):38-39.
6冯诗淳,曹斌,晁德文,林博,尹建伟.结合HBase的散列概要森林索引方案[J].小型微型计算机系统,2018,39(1):100-104. 被引量：5
7尚宏佳,周萍,杨青,李优,钱俊彦,张敬伟.融合多核和MapReduce的连接聚集查询优化[J].计算机研究与发展,2015,52(S1):9-18. 被引量：1

二级引证文献16

1刘春燕,杨巍巍.云计算基于遗传粒子群算法的多目标任务调度[J].计算机技术与发展,2017,27(2):56-59. 被引量：12
2冯诗淳,曹斌,晁德文,林博,尹建伟.结合HBase的散列概要森林索引方案[J].小型微型计算机系统,2018,39(1):100-104. 被引量：5
3陈军.分布式平台等值连接优化技术分析[J].现代计算机,2018,24(5):90-92.
4郑钤,向军.一种基于负载代价的MapReduce等值连接优化算法[J].湖北民族学院学报（自然科学版）,2018,36(3):342-347.
5张元鸣,蒋建波,陆佳炜,徐俊,肖刚.面向MapReduce的迭代式数据均衡分区策略[J].计算机学报,2019,42(8):1873-1885. 被引量：13
6廖彬,张陶,李敏,于炯,国冰磊,刘炎.基于操作历史图的分布式Key-Value数据库一致性检测算法[J].计算机科学,2019,46(12):213-219. 被引量：9
7张占峰,王文礼,耿珊珊,贾芝婷.Spark数据倾斜问题研究[J].河北省科学院学报,2020,37(1):1-7. 被引量：3
8张小娟,张永恒,杨斐.基于分布式结构的数字图书馆文献集成检索方法研究[J].电子设计工程,2020,28(12):35-38. 被引量：3
9盛家,房俊,郭晓乾,王承栋.时序数据多维聚合查询服务的实现[J].重庆大学学报（自然科学版）,2020,43(7):121-128. 被引量：4
10杨华芬.云存储环境下大数据实时动态迁移算法研究[J].机械设计与制造工程,2021,50(2):117-122. 被引量：3

1王伟平,李建中,张冬冬,郭龙江.基于滑动窗口的数据流连续J-A查询的处理方法[J].软件学报,2006,17(4):740-749. 被引量：18
2尚宏佳,周萍,杨青,李优,钱俊彦,张敬伟.融合多核和MapReduce的连接聚集查询优化[J].计算机研究与发展,2015,52(S1):9-18. 被引量：1
3刘义,陈荦,景宁,熊伟.基于R-树索引的Map-Reduce空间连接聚集操作[J].国防科技大学学报,2013,35(1):136-141. 被引量：5
4韩希先,杨东华,李建中.海量数据上的近似连接聚集操作[J].计算机学报,2010,33(10):1919-1933. 被引量：3

计算机研究与发展

2013年第S1期

浏览历史

内容加载中请稍等...

基于MapReduce的连接聚集查询算法研究被引量：7

同被引文献46

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的连接聚集查询算法研究 被引量：7

同被引文献46

引证文献7

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的连接聚集查询算法研究被引量：7