期刊文献+

Hadoop小文件编程处理的性能优化 被引量:1

Small File Performance Optimization Programming Processing Based on Hadoop
下载PDF
导出
摘要 针对Hadoop在处理海量小文件时,存在的性能问题进行了源码分析。研究了默认的输入格式TextInputFormat导致性能低下的原因,阐释使用CombineFileInputFormat作为输入格式的编程方法及其对性能提升的原因。以垃圾邮件训练集分析为例,介绍了海量小文件编程处理性能优化的具体实现方法。实验表明CombineFileInputFormat输入格式对计算性能的提升起到了显著的作用。 This paper analyzes the problem from code analysis,studies the poor performance reason that use default input format-TextInputFormat,explains the programing method and the performace improvement reason that use CombineFileInputFormat as input format.Then the paper uses training set analysis of spam mail as example,to introduces how to optimize programming processing performance for massive amounts of small file.
作者 刘斌
出处 《工业控制计算机》 2018年第12期47-48,共2页 Industrial Control Computer
基金 安徽科技学院自然科学基金研究项目(ZRC2014422) 安徽省高等教育振兴计划重大教学改革研究项目(2015zdjy121)
关键词 文件 编程框架 云计算 HADOOP File programing frame cloud computing Hadoop
  • 相关文献

参考文献3

二级参考文献67

  • 1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量:70
  • 2宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量:151
  • 3王鹏.云计算的关键技术与应用实例[M].北京:人民邮电出版社,2009.
  • 4J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.
  • 5J L Wagener.High performance fortran[J].Computer Standards & Interfaces,Elsevier,1996,18(4):371-377.
  • 6W Gropp,E Lusk,et al.Using MPI:Portable Parallel Programming with the Message Passing Interface[M].Cambridge:MIT Press,1999.1-350.
  • 7A Geist,A Beguelin,et al.PVM:Parallel Virtual Machine:A Users' Guide and Tutorial for Networked Parallel Computing[M].Cambridge:MIT Press,1995.1-299.
  • 8A Verma,N Zea,et al.Breaking the mapreduce stage barrier .Proc of IEEE International Conference on Cluster Computing .Los Alamitos:IEEE Computer Society,2010.235-244.
  • 9H C Yang,A Dasdan,et al.Map-Reduce-Merge:Simplified relational data processing .Proc of ACM SIGMOD International Conference on Management of Data .New York:ACM,2007.1029-1040.
  • 10S V Valvag,D Johansen.Oivos:Simple and efficient distributed data processing .Proc of IEEE International Conference on High Performance Computing and Communications .Piscataway:IEEE,2008.113-122.

共引文献257

同被引文献12

引证文献1

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部