基于Hive的性能优化研究被引量：7

Performance optimization research based on Hive

下载PDF

导出

摘要主要从Map Reduce作业调度和Hive性能调优两个方面对Hive的性能优化进行研究.对于Map Reduce主要从编程模型切入,分析其执行过程,并从map端、reduce端进行参数调优.接着从Hive框架角度入手,分别从分区表和外部表以及常用数据文件的压缩、行式存储与列式存储等方面进行深入研究.实验结果表明,snappy压缩、orcfile/parquet存储格式对于列式查询,提高查询效率,对于大数据分析平台有较好的兼容性. This paper research Hive performance optimization mainly from the two aspects of MapReduce scheduling and Hive performance tuning. MapReduce programming model and its implementation process is analyzed,and parameters are tuned from the map side and reduce side. Then Hive framework is researched from the aspects of the partition table,the external surface and common data file compression, the line storage and column type storage. The experimental results show that snappy compression and orcfile/parquet storage format can improve the efficiency of query for the column type queries, and has good compatibility.

作者王康陈海光李东静

机构地区上海师范大学信息与机电工程学院南京航空航天大学计算机科学与技术学院

出处《上海师范大学学报（自然科学版）》 2017年第4期527-534,共8页 Journal of Shanghai Normal University(Natural Sciences)

关键词数据仓库作业调优性能优化压缩存储格式 data warehouse job optimization performance optimization compression storage format

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1高莉莎,刘正涛,应毅.基于应用程序的MapReduce性能优化[J].计算机技术与发展,2015,25(7):96-99. 被引量：4
2李建江,崔健,王聃,严林,黄义双.MapReduce并行编程模型研究综述[J].电子学报,2011,39(11):2635-2642. 被引量：187

二级参考文献58

1宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
2J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
3J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
4W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.
5A Geist,A Beguelin,et al.PVM:Parallel Virtual Machine:A Users' Guide and Tutorial for Networked Parallel Computing[M].Cambridge:MIT Press,1995.1-299.
6A Verma,N Zea,et al.Breaking the mapreduce stage barrier .Proc of IEEE International Conference on Cluster Computing .Los Alamitos:IEEE Computer Society,2010.235-244.
7H C Yang,A Dasdan,et al.Map-Reduce-Merge:Simplified relational data processing .Proc of ACM SIGMOD International Conference on Management of Data .New York:ACM,2007.1029-1040.
8S V Valvag,D Johansen.Oivos:Simple and efficient distributed data processing .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2008.113-122.
9Z Vrba,P Halvorsen,et al.Kahn process networks are a flexible alternative to mapreduce .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2009.154-162.
10Apache hadoop .http://lucene.apache.org/hadoop/,2010-10-15/2010-12-28.

共引文献189

1桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
2亢丽芸,王效岳,白如江.MapReduce原理及其主要实现平台分析[J].现代图书情报技术,2012(2):60-67. 被引量：17
3李建敦,彭俊杰,张武.云存储中一种基于布局的虚拟磁盘节能调度方法[J].电子学报,2012,40(11):2247-2254. 被引量：10
4许丞,刘洪,谭良.Hadoop云平台的一种新的任务调度和监控机制[J].计算机科学,2013,40(1):112-117. 被引量：52
5应毅,任凯,刘正涛.基于云计算技术的数据挖掘[J].微电子学与计算机,2013,30(2):161-164. 被引量：20
6应毅,任凯,曹阳.基于改进的MapReduce模型的Web挖掘[J].科学技术与工程,2013,21(5):1205-1209. 被引量：10
7肖淇,秦云川,阳王东,李肯立.一种基于MapReduce的防火墙策略冲突并行化检测及消解模型[J].计算机科学,2013,40(3):50-54. 被引量：6
8赵青松,陈林,孙波,朱艳,姜海燕.基于Hadoop的云环境下作物生长模型算法的实现与测试[J].农业工程学报,2013,29(8):179-186. 被引量：11
9吴建军.网络舆情的云计算监测模式分析与实现[J].电讯技术,2013,53(4):476-481. 被引量：4
10宋杰,郝文宁,陈刚,靳大尉,赵水宁.基于MapReduce的分布式ETL体系结构研究[J].计算机科学,2013,40(6):152-154. 被引量：9

同被引文献53

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
2刘兵兵,孟小峰,史英杰.CloudBM:云数据管理系统测试基准[J].计算机科学与探索,2012,6(6):504-512. 被引量：7
3刘娟,豆育升,何晨,唐红.基于调度器的Hadoop性能优化方法研究[J].计算机工程与设计,2013,34(1):190-194. 被引量：4
4谭洁清,毛锡军.Hadoop云计算基础架构的搭建和hbase和hive的整合应用[J].贵州科学,2013,31(5):32-35. 被引量：14
5李金诺.浅谈石油行业大数据的发展趋势[J].价值工程,2013,32(29):172-174. 被引量：35
6叶亮.“大数据”背景下我国交通数据管理应用的转型与发展[J].交通与运输,2013,29(H12):65-68. 被引量：23
7陈娜,张金娟,刘智琼,徐歆壹.基于Hadoop平台的电信大数据入库及查询性能优化研究[J].移动通信,2014,38(7):58-63. 被引量：9
8倪宁.大数据时代下电子商务平台的探索和研究——以淘宝网为例[J].江苏商论,2014(5):13-14. 被引量：18
9林子雨.大数据技术原理与应用课程建设经验分享[J].大数据,2018,4(6):29-37. 被引量：20
10陈磊,封朝永.HBase下时态信息索引策略研究[J].广东工业大学学报,2014,31(3):102-108. 被引量：3

引证文献7

1陈昉,杜战朝,倪翊龙,邵高峰,李丹丹,徐高.民用建筑“四节一环保”数据建模与存储方法研究[J].建筑科学,2020,36(S02):382-389. 被引量：2
2王洪亮,穆龙新,时付更,刘凯铭,钱育蓉.分散存储油气生产动态大数据的优化管理与快速查询[J].石油勘探与开发,2019,46(5):959-965. 被引量：9
3刘凯铭,王洪亮,石兵波,钱育蓉.基于Hadoop的油气水井生产大数据分析与应用[J].科学技术与工程,2020,20(11):4464-4471. 被引量：8
4何雪锋.大数据分析与可视化课程建设经验分享[J].现代计算机,2020,26(13):66-69. 被引量：3
5马亚铭,陶利民,刘子琦.基于Hadoop的电商大数据平台性能调优[J].软件导刊,2020,19(5):186-189. 被引量：1
6亢华爱.基于Hive的离线数据处理方法[J].现代商贸工业,2022,43(5):185-186.
7韦统边,司帅锋,温丽梅,唐莹,苏德.整车大数据存储与计算优化实现[J].电子测试,2022,36(14):56-58.

二级引证文献22

1JIA Deli,LIU He,ZHANG Jiqun,GONG Bin,PEI Xiaohan,WANG Quanbin,YANG Qinghai.Data-driven optimization for fine water injection in a mature oil field[J].Petroleum Exploration and Development,2020,47(3):674-682. 被引量：3
2陈昉,杜战朝,倪翊龙,邵高峰,李丹丹,徐高.民用建筑“四节一环保”数据建模与存储方法研究[J].建筑科学,2020,36(S02):382-389. 被引量：2
3裴翊淞,林晨,付勇,孙欢,赵彦杰.绿色建筑技术在会展中心机电工程中的应用研究[J].建筑经济,2022,43(S01):906-909. 被引量：3
4贾德利,刘合,张吉群,龚斌,裴晓含,王全宾,杨清海.大数据驱动下的老油田精细注水优化方法[J].石油勘探与开发,2020,47(3):629-636. 被引量：48
5陈强,代仕娅.大数据、AI平台支撑下的智慧金融产品研发与实践[J].软件导刊,2021,20(2):31-39. 被引量：4
6周玲玲.油田基层生产数据管理方法改进途径探析[J].中国管理信息化,2021,24(6):126-127.
7李攀,刘庆杰,周兆军,刘颖,李寒莉.大数据技术的震后救援信息处理平台研制与应用[J].科学技术与工程,2021,21(15):6154-6164. 被引量：2
8任利明,张连进,王俊杰,兰雪梅,唐青松,温梦晗,文雯.7000 m以深复杂断裂成组气藏开发早期评价技术--以川西北双鱼石构造栖霞组气藏为例[J].天然气工业,2021,41(7):73-81. 被引量：10
9周若男.基于大数据的油气生产数据智能化分析与预警[J].信息系统工程,2021,34(5):33-35.
10谯英,李代先,周少丹.油田勘探开发云平台数据存储模型研究与实践[J].西安石油大学学报（自然科学版）,2021,36(6):128-133. 被引量：9

上海师范大学学报（自然科学版）

2017年第4期

浏览历史

内容加载中请稍等...

基于Hive的性能优化研究被引量：7

参考文献2

二级参考文献58

共引文献189

同被引文献53

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Hive的性能优化研究 被引量：7

参考文献2

二级参考文献58

共引文献189

同被引文献53

引证文献7

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

基于Hive的性能优化研究被引量：7