基于MTR与Impala结合的数据查询优化研究被引量：1

Research on Data Query Optimization Based on MTR and Impala

下载PDF

导出

摘要以大数据的查询技术为中心,研究了当前一些主流的查询方法以及在此基础上的优化改进。MapReduce是一种编程模型,将存储在HDFS中的文件分块再整合以达到加速实现数据查询的目的,在此方法的基础上优化得出Map-Trim-Reduce编程模型,然后与Impala查询引擎相结合,利用M印-Trim-Reduce处理复杂数据的长处弥补Impala的短处,提前处理Impala的预处理数据,达到提高大数据查询效率的目的。 This paper takes the large data query technology as the center,and researches some main current query methods and the optimization based on them.MapReduce is a programming model,which integrates the file blocks stored in the HDFS to achieve the purpose of accelerating the realization of data query.Based on this method,an improved Map-Trim-Reduce programming model is obtained,and then it is combined with the Impala query engine.Use Map-Trim-Reduce to deal with the advantages of complex data to make up for the shortcomings of Impala,and deal with the Impala preprocessing data,so as to improve the efficiency of large data query.

作者袁文翠舒昝赵建民

机构地区东北石油大学

出处《微型电脑应用》 2016年第6期29-31,共3页 Microcomputer Applications

基金中国石油科技创新基金研究项目(2013D-5006-0203) 黑龙江省科技攻关项目(GZ09A120) 黑龙江省教育厅科学技术研究项目(12521050)

关键词大数据 Map-Trim-Reduce mpala Big Data Map-Trim-Reduce Impala

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1郭超,刘波,林伟伟.基于Impala的大数据查询分析计算性能研究[J].计算机应用研究,2015,32(5):1330-1334. 被引量：12
2Cloudera Company.CDH5和 Impala 文档[EB/OL].http://wwwxloudera.com/content/www/en-us/doCumentat ion/enterprise/latest/topics/impala.html.

二级参考文献13

1颜开. 新一代数据分析利器:Google Dremel原理分析[R].2012.
2MELNIK S,GUBAREV A,LONG Jing-jing,et al. Dremel:interactive analysis of Web-scale datasets[J].Proceedings of the VLDB Endowment,2010,3(1):330-339.
3Cloudera Company. CDH4和Impala文档[EB/OL].http://www. cloudera. com/content/support /en/documentation. html.
4Cloudera Impala:Real-time queries in apache Hadoop,for real[EB/OL].(2012-10). http://blog. cloudera. com/blog/2012/10/cloudera-impala-real-time-queries-in-apache-hadoop-for-real/.
5Apache Hadoop[EB/OL].http://hadoop. apache. org.
6Apache Hive[EB/OL].http://hive. apache. org/.
7DEAN J,GHEMAWAT S. MapReduce:simplified data processing on large clusters[C] //Proc of the 6th Symposium on Operating Systems Design and Implementation. 2004.
8DITTRICH J,RICHTER S,SCHUH S. Efficient OR Hadoop:why not both?[J].Datenbank Spektrum,2013,13(1):17-22.
9HDFS architecture guide[EB/OL].(2013-08-04). http:// hadoop. apache. org/docs/ r1. 2. 1/hdfs_de-sign. html.
10Intel. Optimizing Hadoop deployments[EB/OL].(2010-05-23). http://communities. intel. com/ servlet/JiveServletdownloadBody/5645-102-1-8759.

共引文献11

1刘凯,张立民,范晓磊,孙永威.基于改进Hadoop的受限玻尔兹曼机云计算实现[J].燕山大学学报,2015,39(2):145-151.
2任春华,廖雪花,唐思娩,严余松,孙尉筌.基于Hive和Impala的物流运力供应链数据仓库研究[J].物流技术,2016,35(1):124-126. 被引量：3
3田秀劳,柳华勃,廖聪,井光文,梁小江,王贝贝,张正军,徐嘉驰.Phoenix＋HBase存储仓库在流动人口统计中的应用[J].西安邮电大学学报,2017,22(1):111-115.
4张锐.基于Hive数据仓库的物流大数据平台的研究与设计[J].电子设计工程,2017,25(9):31-35. 被引量：9
5邱婷,敬敏.基于TPC-H模型的大数据平台查询性能对比研究[J].信息化研究,2018,44(2):9-13.
6万辉,李华光,朱晓华,徐明强.海洋空间情报大数据应用发展[J].中国航海,2019,42(3):76-81. 被引量：2
7丁岩,杨万祥,汪清,杨乐,胡晓.大数据统一SQL引擎研究与设计[J].科技视界,2019,0(29):1-4. 被引量：4
8曹成,陶继群,郑湃.基于Kudu的电力辅助设备实时监控业务解决方案[J].科技创新与应用,2021(8):130-134. 被引量：2
9曹雪朋.基于Django的数据分析系统设计与实现[J].信息与电脑,2023,35(15):141-143.
10胡跃华.基于天地图的朔黄铁路通信运维数据分析系统设计与实现[J].石家庄铁道大学学报（自然科学版）,2019,32(1):98-103. 被引量：2

同被引文献2

1王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：614
2郭超,刘波,林伟伟.基于Impala的大数据查询分析计算性能研究[J].计算机应用研究,2015,32(5):1330-1334. 被引量：12

引证文献1

1邱婷,敬敏.基于TPC-H模型的大数据平台查询性能对比研究[J].信息化研究,2018,44(2):9-13.

1LS Mtron公司部署Siemens PLM Software[J].CAD/CAM与制造业信息化,2012(6):6-6.
2伦敦轨道交通采用Verint公司IP视频监控解决方案[J].A&S（安全&自动化）,2010(3):32-32.
3孙玉强,李银银,顾玉宛.双重并行环境下最短路径的研究[J].计算机测量与控制,2017,25(3):195-196.
4王莉.浅析Vb中trim函数的重要性[J].福建电脑,2009,25(2):182-182. 被引量：3
5李凤.试论面向异构类型的大数据查询优化措施[J].数码世界,2017,0(2):45-45.
6波兰将连续下调移动接续费[J].中国信息化,2012(16):12-12.
7贾冰,王晟.应用于IP网络故障恢复的多拓扑生成算法研究[J].信息通信,2010,23(3):8-11. 被引量：1
8老万.Windows开启SSD的TRIM[J].电脑爱好者,2016,0(8):70-70.
9张晓冉,舒昝.面向ETL数据处理过程的优化研究[J].自动化与仪器仪表,2016(7):109-110. 被引量：3
10沈建苗.解决Android设备变慢问题[J].电脑爱好者,2014,0(14):54-55.

微型电脑应用

2016年第6期

浏览历史

内容加载中请稍等...

基于MTR与Impala结合的数据查询优化研究被引量：1

参考文献2

二级参考文献13

共引文献11

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MTR与Impala结合的数据查询优化研究 被引量：1

参考文献2

二级参考文献13

共引文献11

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MTR与Impala结合的数据查询优化研究被引量：1