基于Hadoop的SQL查询引擎性能研究被引量：8

Research on SQL-on-Hadoop systems

下载PDF

导出

摘要 Apache Hadoop处理超大规模数据集有非常出色的表现,相比较于传统的数据仓库和关系型数据库有不少优势.为了让原有业务能够充分利用Hadoop的优势,SQL-on-Hadoop系统越来越受到工业界和学术界的关注.基于Hadoop的SQL查询引擎种类繁多,各有优势,其运算引擎主要包括三种:1传统的Map/Reduce引擎;2新兴的Spark引擎;3基于shared-nothing架构的MPP引擎.本文选取了其中最有代表性的三种SQL查询引擎—Hive、Spark SQL、Impala,并使用了一种类TPC-H的测试基准对它们的决策支持能力进行测试及评估.从实验结果来看,Impala和Spark SQL相对于传统的Hive都有较大的提高,其中Impala的部分查询比Hive快了10倍以上,并且Impala在完成查询所占用的集群资源也是最少的.然而若从稳定性、易用性、兼容性和性能等多个方面进行对比,并不存在各方面均最优的查询引擎,因此在构建基于Hadoop的数据仓库系统时,推荐采用Hive+Impala或者Hive+Spark SQL的混合架构. Hadoop has huge advantage over traditional data warehouse and RDBMs on storing and processing large amount of data.In order to be compatible with existing business logic,SQL-on-Hadoop systems are getting more and more attentions from both industry and academia.There are variable kinds of SQL-on-Hadoop systems with different architectures and different execution engines.Those systems are generally divided into three categories：traditional engines based on Map/Reduce,newborn engines based on Spark,and MPP engines based on shared-nothing architecture.In this paper,three SQL-on-Hadoop systems,Hive,Spark SQL and Impala,are chosen to represent each category,respectively.A TPC-H like workload is used to benchmark the efficiency and resource usage for each system.Through detailed analysis of the experimental result,both Impala and Spark SQL are faster than Hive.In some particular queries,Impala is10 Xfaster than Hive with minimum CPU/RAM usage among the three SQL systems.However,when compared in terms of stability,usability,compatibility and performance,no one can beat others at all aspects.So while building the data warehouse system based on Hadoop,it is recommended to use a hybrid architecture using Hive＋Impala or Hive＋Spark SQL.

作者吴黎兵邱鑫叶璐瑶王晓栋聂雷

机构地区武汉大学计算机学院英特尔英特尔亚太研发中心

出处《华中师范大学学报（自然科学版）》 CAS 北大核心 2016年第2期174-182,共9页 Journal of Central China Normal University：Natural Sciences

基金国家自然科学基金项目(61272112 61472287) 湖北省自然科学基金重点项目(2015CFA068)

关键词大数据 SQL-on-Hadoop 数据仓库 SPARK SQL IMPALA Hive big data SQL-on-Hadoop data warehouse Spark SQL Impala Hive

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616

二级参考文献42

1[OL].<http://hadoop.apache.org.>.
2WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
3TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
4Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
5Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
6Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
7DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.
8Fushimi S, Kitsuregawa M, Tanaka H. An overview of the system software of a parallel relational database machine// Proceedings of the 12th International Conference on Very Large DataBases(VLDB'86). Kyoto, Japan, 1986:209-219.
9Brewer E A. Towards robust distributed systems//Proceedings of the 19th Annual ACM Symposium on Principles of Distributed Computing (PODC' 00). Portland, Oregon, USA, 2000:7.
10http: //www. dbms2, com/2008/08/26/known-applications of mapreduce/.

共引文献615

1张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
2李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
3陈然.大数据时代下企业精准营销发展难题及破解[J].中国经贸导刊,2019,0(5Z):95-96. 被引量：4
4梅傲.数据治理的逻辑基础和实现路径[J].经济法论丛,2023(2):309-325. 被引量：1
5张文华.大数据对体育教育的冲击[J].贵阳学院学报（自然科学版）,2014,9(2):47-51. 被引量：19
6李满意.大数据安全[J].保密科学技术,2012(9):71-72. 被引量：19
7陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
8陈爱东,刘国华,费凡,周宇,万小妹,貟慧.满足均匀分布的不确定数据关联规则挖掘算法[J].计算机研究与发展,2013,50(S1):186-195. 被引量：18
9王习特,申德荣,聂铁铮,寇月,于戈.共享的MapReduce环境下批量作业的调度算法研究[J].计算机研究与发展,2013,50(S1):332-341. 被引量：2
10董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70

同被引文献40

1周强,陈岭,马骄阳,赵宇亮,吴勇,王敬昌.基于改进DPhyp算法的Impala查询优化[J].计算机研究与发展,2013,50(S2):114-120. 被引量：3
2董成立.谈高校科研管理及其信息管理系统[J].科技管理研究,2009,29(5):274-276. 被引量：17
3覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
4伊安·约翰逊,陈旭炎(译).智慧城市、智慧图书馆与智慧图书馆员[J].图书馆杂志,2013,32(1):4-7. 被引量：180
5孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2399
6苏显,陈捷.融合多个异构系统实现图书馆智慧服务[J].中国教育信息化（高教职教）,2012(9):51-53. 被引量：4
7申德荣,于戈,王习特,聂铁铮,寇月.支持大数据管理的NoSQL系统研究综述[J].软件学报,2013,24(8):1786-1803. 被引量：195
8葛星,沈耀,徐常亮.基于云计算的多重查询优化系统[J].计算机工程,2014,40(9):46-50. 被引量：3
9张磊,方祝和,周敏奇,黄岚.面向内存计算的连接算法[J].华东师范大学学报（自然科学版）,2014(5):180-191. 被引量：6
10马晓亭.基于用户服务价值的图书馆大数据价值分析与服务质量保证研究[J].图书馆,2014(5):95-98. 被引量：30

引证文献8

1孔德超.河南省地方文献联合目录合作平台系统建构研究[J].河南图书馆学刊,2016,36(10):113-115.
2鲍远松.基于Kudu的结构化数据存储分析方案设计[J].信息技术与标准化,2017,0(10):60-63. 被引量：2
3姚鹏飞.基于大数据技术的数据仓库体系结构设计[J].数字技术与应用,2019,37(3):141-143. 被引量：11
4唐烽钧.大数据时代下高校图书馆智慧信息服务模式初探[J].散文选刊（中旬刊）,2019,0(7):126-127.
5李翀,张彤彤,杜伟静,刘学敏.基于Hive的高可用双引擎数据仓库[J].计算机系统应用,2019,28(9):65-71. 被引量：10
6张世同.Arrow在分布式查询引擎中的应用与研究[J].现代计算机,2021,27(19):25-31.
7徐达,曾乐,王英杰.“天镜”全流程指标计算功能优化[J].计算机技术与发展,2023,33(7):20-26. 被引量：4
8莫继为.大数据背景下数据存储与分析新技术综述[J].计算机产品与流通,2018,7(5):163-165. 被引量：1

二级引证文献28

1闫博文,周兆国,文宏武.军事物流数据仓库建设研究[J].军事交通学报,2022(10):22-26.
2宋冀,徐贵阳.数据驱动下的市县级国土空间基础信息平台研究[J].现代测绘,2023,46(4):13-17.
3顾飞杨,孔莹.基于Kudu的大数据平台实时业务处理能力提升方案[J].电信科学,2019,35(10):151-156. 被引量：2
4丁明庆.试论智能交通中大数据时代新技术的应用[J].技术与市场,2019,26(12):27-29.
5江佳原.实时大数据平台的设计与实现[J].金融科技时代,2020,28(2):75-78. 被引量：3
6兰玉.数据仓库中数据结构设计方法分析[J].花炮科技与市场,2020,0(1):220-221.
7刘刚,樊重俊.SMT 车间智能化管理系统建设探讨[J].经济管理文摘,2020(7):64-65.
8彭贝,刘黎志,杨敏,张晨跃.基于Hive的空气质量大数据查询优化方法[J].武汉工程大学学报,2020,42(4):467-472. 被引量：1
9陈晓,王健,姜铭敏,刘青,许伟村.基于国产数据库历史数据迁移的研究与实践[J].民航学报,2020,4(5):107-111. 被引量：2
10杨波,王琼,魏军.面向数据中心的日志分析平台研究[J].通信电源技术,2020,37(13):133-136. 被引量：1

1陈越洲,杨树强,贾焰.基于DB2的并行数据库体系结构研究[J].计算机工程,2005,31(5):96-98. 被引量：4
2周虹.数据流上并行查询优化技术[J].佳木斯大学学报（自然科学版）,2009,27(1):42-46. 被引量：1
3周虹.数据流上基于遗传算法的并行查询优化技术[J].佳木斯大学学报（自然科学版）,2008,26(4):500-503.
4朱玉全,陈耿,宋余庆,孙志挥.Shared-nothing并行事务数据库系统中规则的挖掘与更新算法[J].小型微型计算机系统,2003,24(8):1499-1502. 被引量：3
5龙源,郑彦.一种Shared-Nothing分布式数据库的构建方法[J].计算机技术与发展,2012,22(10):79-82. 被引量：1
6李庆华,睢海燕,邓冲.基于Shared-Nothing的并行Hash连接算法效率分析[J].软件学报,2000,11(3):386-392. 被引量：3
7宋怀明,焦丽梅,孙凝晖.一种数据库中间件的配置服务的研究和实现[J].小型微型计算机系统,2007,28(3):438-442. 被引量：2
8文继荣,陈红,王珊.Shared-nothing并行数据库系统查询优化技术[J].计算机学报,2000,23(1):28-38. 被引量：21
9李霖,杨利,周兴铭.无共享多处理机系统的并行连接算法[J].计算机工程,1995,21(S1):226-231.
10关心,欧增桂,王玲.一种有效的并行数据库动态负载平衡连接算法[J].计算机工程与应用,2007,43(12):150-154. 被引量：3

华中师范大学学报（自然科学版）

2016年第2期

浏览历史

内容加载中请稍等...

基于Hadoop的SQL查询引擎性能研究被引量：8

参考文献1

二级参考文献42

共引文献615

同被引文献40

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的SQL查询引擎性能研究 被引量：8

参考文献1

二级参考文献42

共引文献615

同被引文献40

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的SQL查询引擎性能研究被引量：8