期刊文献+

基于Hadoop的交互式大数据分析查询处理方法 被引量:5

An Interactive Processing Method of Analysis and Query for Big Data Based on Hadoop
下载PDF
导出
摘要 基于Hadoop的交互式大数据分析查询处理方法旨在快速分析查询大数据集的信息,最重要的特征就是查询速度快。该方法能够运行在上千节点的集群上,适于半结构化/嵌套数据的分析、兼容现有的SQL环境和Apache Hive。文中主要利用此方法实现连接HDFS、Hive以及Hbase进行查询测试,还完成了同时从不同数据源上关联查询数据。在同一Hadoop集群环境中,将该方法与Spark SQL对于10万、20万、50万、100万、500万条数据进行查询速度对比测试。经过多次实验后得出,基于Hadoop的交互式大数据分析查询处理方法速度快、效率高,能够帮助企业用户快速、高效地进行Hadoop数据查询和企业级大数据分析。 An interactive processing method of analysis and query of big data based on Hadoop aims to analyze and query large data fast, whose important feature is the rapid query speed. The method is able to run on a cluster with thousands of nodes, suitable for analyzing semi-structured or nested data,combining with existing SQL environment and Apache Hive. The main purpose is to use the method to connect HDFS, Hive and Hbase for query, also achieving to query data from different data sources. Furthermore,in the same Hadoop clus- tering environment,the method and Spark SQL is compared in the query speed for data with 100 000,200 000,500 000 ,one million and five million. Several experiments show the method is fast and efficient, and enables business users to query data and analyze enterprise Ha- doop big data quickly and efficiently.
出处 《计算机技术与发展》 2016年第8期134-137,142,共5页 Computer Technology and Development
基金 2015陕西省信息化技术研究项目课题(2015-002)
关键词 HADOOP集群 大数据处理 交互式查询 快速 SQL Hadoop clustering big data processing interactive query fast SQL
  • 相关文献

参考文献9

二级参考文献237

  • 1魏红宁.基于SPRINT方法的并行决策树分类研究[J].计算机应用,2005,25(1):39-41. 被引量:18
  • 2车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005,19(2):1-6. 被引量:115
  • 3董静,孙乐,冯元勇,黄瑞红.中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-85. 被引量:55
  • 4Michael Miller姜进磊,孙瑞志,向勇等译.云计算[M].北京:机械出版社.2009.
  • 5Jeffrey Dean, Sanjay Ghemawat. MapReduce: Symplified Date Processing on Large Clusters[J]. New York:ACM,2008, 51(1):107-113.
  • 6韩家炜,坎伯.数据挖掘概念与技术[M].北京:机械工业出版社.2008.
  • 7John Shafer, Rakesh Agrawal,Manish Mehta. SPRINT:A Scalable Parallel Classifier for Data Mining [C].U.S:IBM Almaden Research Center,1996:544-555.
  • 8[OL].<http://hadoop.apache.org.>.
  • 9WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
  • 10TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.

共引文献3113

同被引文献37

引证文献5

二级引证文献26

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部