基于MapReduce的混合连接算法

Hybrid Join Algorithm Based on MapReduce

下载PDF

导出

摘要运行在Hadoop上的数据仓库Hive可以让更多的用户通过SQL接口来处理Hadoop数据。然而,Hive却没有为连接操作提供有效的途径,而连接操作是一种常见且在Hadoop中非常费时的操作。为了解决连接操作在Hadoop中性能的问题,本文提出一种混合策略的连接算法HJ-A,根据当前应用场景在几种连接算法之间选择相对较合适的算法,实验结果表明,HJ-A可以在大多数的Hadoop场景中发挥很好的性能。 Hive, the database on Hadoop, enables more users to process relation data by providing sql-like interface. However, Hive does not provide an efficient approach for join, a common but expensive operator in Hadoop. In order to solve the perform-ance of join, this paper proposes a novel hybrid algorithm, HJ-A, which can help to automatically choose the relatively better one among several methods, according to the current situation. Experiments results show that HJ-A can get best performance in most situations.

作者胡龙罗军

机构地区重庆大学计算机学院

出处《计算机与现代化》 2015年第6期86-91,共6页 Computer and Modernization

关键词 MAPREDUCE HADOOP 分区连接 auto-tunning Hive MapReduce Hadoop partition join auto-tuning Hive

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Jeffrey Dean, Sanjay Ghemawat. MapReduce: Simplied data processing on large clusters[C]// Operating Systems Design and Implementation, San Francisco, 2004. 2004:137-150.
2The Apache Software Foundation. Hadoop[EB/OL]. http://hadoop.apache.org, 2014-12-20.
3Ma Lili, Liao Huaming, He Yongqiang, et al. A switch criteria for hybrid datasets merging on Top of MapReduce[C]// Proceedings of the 8th International Conference on Grid and Cooperative Computing, 2009. 2009:293-298.
4The Apache Software Foundation. Hive[EB/OL]. http://hive.apache.org/, 2014-12-20.
5Olston C, Reed B, Srivastava U, et al. Pig latin:A NotSoForeign-language for data processing[C]// SIGMOD,2008. 2008:1099-1110.
6Zaharia M, Konwinski A, Joseph A D, et al. Improving MapReduce performance in heterogeneous environments[C]// SIGMOD, 2012. 2012:29-42.
7Pavlo A, Paulson E, Rasin A, et al. A comparsion of approaches to largescale data analysis[C]// SIGMOD, 2009. 2009:165-178.
8Taniar D, Leung C H C, Rahayu W, et al. HighPerformance Parallel Database Processing and Grid Databases[M]. John Wiley & Sons, Inc., 2008.
9Yang H, Dasdan A, Hsiao R L,et al. Map-Reduce-Merge: Simplified relational data processing on large clusters[C]// SIGMOD,2007. 2007:1029-1040.
10Vernica R, Carey M J, Li C. Efficient parallel set-similarity joins using MapReduce[C]// New SIGMOD, 2010. 2010:495-506.

1肖颖.基于MapReduce框架的重分区连接的优化研究[J].计算机时代,2016(4):9-11.
2王凌.磁盘分区连接为文件夹使用[J].四川气象,2006,26(2):44-45.
3刘全中,胡正国,樊星.自律计算在服务器虚拟化管理中的应用[J].微电子学与计算机,2005,22(12):96-99. 被引量：4
4谢古城.CAN总线在技术改造中的应用——以四辊压延机温控系统的技术改造为例[J].宁夏工程技术,2005,4(1):45-47.
5孙字兴.ORACLE SQL性能调优分析[J].科教导刊（电子版）,2016,0(21):153-153.
6沙芦华,何贤江.用JDBC实现数据库动态连接和Java.applet应用程序开发[J].计算机时代,1998(9):17-19. 被引量：1
7赵宇兰.基于MapReduce的两表数据倾斜连接的优化算法[J].吉林大学学报（理学版）,2016,54(6):1383-1387. 被引量：3
8李志方.用预编译方法实现关系数据库与高级语言的嵌入式标准SQL接口的研究[J].现代计算机,1996(4):24-25.
9SQL:通用的数据库语言——创建与操作关系数据库简介[J].个人电脑,1999,5(1):137-142.
10ZHANGYanxia,GUOLei.STOCHASTIC ADAPTIVE SWITCHING CONTROL BASED ON MULTIPLE MODELS[J].Journal of Systems Science & Complexity,2002,15(1):18-34. 被引量：2

计算机与现代化

2015年第6期

浏览历史

内容加载中请稍等...

基于MapReduce的混合连接算法

参考文献18

相关作者

相关机构

相关主题

浏览历史