Hadoop中处理海量小文件的方法被引量：1

Methods of Dealing With Massive Small Files in Hadoop

下载PDF

导出

摘要针对Hadoop中提供底层存储的HDFS对处理海量小文件效率低下、严重影响性能的问题.设计了一种小文件合并、索引和提取方案,并与原始的HDFS以及HAR文件归档方案进行对比,通过一系列实验表明,本文的方案能有效减少Namenode内存占用,提高HDFS的I/O性能. HDFS provides the underlying storage for Hadoop, however, the HDFS deals with massive small files inefficiently and decreases system performance seriously. To solve this problem, we designed a file merging, indexing and retrieval solution. Then through a series of experiments compared to the original HDFS and HAR solution, it can be shown that our scheme can effectively reduce the memory usage of Namenode and improve the I / O performance of HDFS.

作者李旭李长云张清清胡淑新周玲芳

机构地区湖南工业大学计算机与通信学院

出处《计算机系统应用》 2015年第11期157-161,共5页 Computer Systems & Applications

基金 2013年度科技部科技支撑计划(2013BAJ10B14-5)

关键词 HADOOP HDFS 小文件 HDFS的I/O性能 Hadoop HDFS small files I/O performance of HDFS

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Hadoop official site.http://hadoop.apache.org,2012.
2HDFS official wiki.http://en.wikipedia.org/wiki/HDFS.
3Small-Files-Problem,http://www.cloudera.com/blog/2009/02/ the-small-files-problem/.
4White T.周敏奇,王晓玲,金澈清,钱卫宁译.Hadoop权威指南.第2版.北京:清华大学出版社,2011.
5George L.HBase:The Definitive Guide:Random Access to Your Planet-Size Data.O'Reilly,Ireland (2011).
6赵晓永,杨扬,孙莉莉,陈宇.基于Hadoop的海量MP3文件存储架构[J].计算机应用,2012,32(6):1724-1726. 被引量：28
7Liu XHs Han JZ,Zhong YQ,Han CD.Implementing WebGIS on Hadoop:a case study of improving small file I/O performance on HDFS.Proc.of the 2009 IEEE Conf.on Cluster Computing and Workshops.2009.1-8.
8Dong B,Qiu J,Zheng QH,Zhong X,Li JW,Li Y.A Novel Approach to Improving the Efficiency of Storing and Accessing Small Files on Hadoop:A Case Study by PowerPoint Files.In Proc.of IEEE SCC2010.pp.65-72.
9Hadoop archives.http://hadoop.apache.org/common/ docs/rO.20.2/hadoop_archive.
10Sequence file.http://wiki.apache.org/hadoop/SequenceFile.

二级参考文献12

1巨鲸网[EB/OL].[2011-11-08].http://topl00.on/.
2WHITE T. Hadoop: The definitive guide[ M]. [ S. 1. ] : O'Reilly Media, 2009.
3Small files problem[ EB/OL]. [ 2011- 11 - 10]. http://www, cloud- era. conr/blog/2009/02/the-small-files-problem/.
4MACKEY G, SEHRISH S, WANG JUN. Improving metadata man- agement for small files in HDFS[ C]//Proceedings of 2009 IEEE In- ternational Conference on Cluster Computing and Workshops. Piscat- away: IEEE Press, 2009:1 -4.
5LIU XUHUI, HAN JIZHONG, ZHONG YUNQIN, et al. Implemen- ting WebGIS on Hadoop: A case study of improving small file I/O performance on HDFS[ C]//2009 IEEE International Conference on Cluster Computing and Workshops. Piscataway: IEEE Press, 2009: 1-8.
6DONG BO, QIU JIE, ZHENG QINGHUA, et al. A novel approach to improving the efficiency of storing and accessing small files on Ha- doop: a case study by PowerPoint flies[ C]// Proceedings of the 2010 IEEE International Conference on Services Computing. Wash- ington, DC: IEEE Computer Society, 2010:65 -72.
7Hadoop sequence file[ EB/OL]. [ 2011- 11- 12]. http://hadoop, a- pache, org/common/docs/current/api/org/apache/hadoop/io/Se- quenceFile, htm.
8MP3文件格式[EB/OL].[2011-11-13].http://en.wikipedia.org/wiki/MP3.
9CouchDB[ EB/OL]. [ 2011 - 11 - 14]. http://couchdb, apache, org/ docs/overview, html.
10Memcached[ EB/OL]. [ 2011 - 11 - 15]. http://memcached, org/.

共引文献27

1赵晓永,杨扬,孙莉莉.一种采用声学指纹去重的海量MP3文件存储架构[J].计算机应用研究,2013,30(2):472-475. 被引量：1
2赵晓永,杨扬,王宁.基于声学指纹的海量MP3文件近似去重方法[J].计算机工程,2013,39(7):73-75. 被引量：2
3朱晓丽,赵志刚.一种基于HBase的海量图片存储技术[J].信息系统工程,2013,26(8):22-24. 被引量：14
4刘高军,王帝澳.基于Redis的海量小文件分布式存储方法研究[J].计算机工程与科学,2013,35(10):58-64. 被引量：22
5时倩,方睿,岳亮,彭榆峰.基于Hadoop的海量小文件存储方法的研究[J].数字技术与应用,2014,32(1):50-50. 被引量：1
6江建举,仵博,孟宪军,冯延蓬,何国坤.基于Hadoop平台的海量文件存储策略研究[J].深圳职业技术学院学报,2014,13(3):67-70. 被引量：1
7蔡杰.基于Hadoop的校园智能视频分析系统应用[J].消费电子,2014,0(20):9-9.
8王剑,黄朝光.海量农业科学数据存储体系架构与方法研究[J].广东农业科学,2015,42(2):152-156. 被引量：6
9魏强,孔广黔,吴云.基于Hadoop的海量医疗小文件处理系统[J].计算机与数字工程,2015,43(4):733-737. 被引量：3
10肖体伟.基于Hadoop的云端异常流量检测与分析平台[J].电子技术应用,2015,41(5):116-118. 被引量：4

同被引文献13

1阎芳,李元章,张全新,谭毓安.基于对象的OpenXML复合文件去重方法研究[J].计算机研究与发展,2015,52(7):1546-1557. 被引量：17
2沈良好,吴庆波,杨沙洲.基于Ceph的分布式存储节能技术研究[J].计算机工程,2015,41(8):13-17. 被引量：7
3肖玉泽,张利军,潘巍,张小芳,李战怀.HDFS下海量小文件高效存储与索引方法[J].小型微型计算机系统,2015,36(10):2218-2223. 被引量：5
4游小容,曹晟.海量教育资源中小文件的存储研究[J].计算机科学,2015,42(10):76-80. 被引量：16
5杨飞,朱志祥,梁小江.基于Ceph对象存储集群的高可用设计与实现[J].微电子学与计算机,2016,33(1):60-64. 被引量：15
6邹振宇,郑烇,王嵩,杨坚.基于HDFS的云存储系统小文件优化方案[J].计算机工程,2016,42(3):34-40. 被引量：9
7郎泓钰,任永功.基于Redis内存数据库的快速查找算法[J].计算机应用与软件,2016,33(5):40-43. 被引量：26
8钱能武,郭卫斌,范贵生.基于关联规则挖掘的分布式小文件存储方法[J].华东理工大学学报（自然科学版）,2016,42(5):708-714. 被引量：8
9王瑞通,李炜春.大数据基础存储系统技术研究[J].计算机技术与发展,2017,27(8):66-72. 被引量：21
10詹玲,朱承浩,万继光.Ceph文件系统的对象异构副本技术研究与实现[J].小型微型计算机系统,2017,38(9):2011-2016. 被引量：3

引证文献1

1徐敏,胡聪,王萍,张翠翠,王鹏.基于软件定义存储的小文件性能优化研究[J].信息技术,2021,45(4):35-39. 被引量：1

二级引证文献1

1华南,朱彦霞.基于fastNTsync算法的海量小文件同步优化方法研究[J].计算机时代,2023(10):17-21.

1金海,张江陵.多处理机I／O性能的研究[J].数据采集与处理,1994,9(2):115-120. 被引量：1
2张荣芸.浅析缓存预取技术[J].现代计算机,2011,17(12):38-40. 被引量：3
3朱光耀.Hadoop中海量小文件的处理分析[J].科技资讯,2012,10(28):13-13.
4于海军.多种方法轻松合并MP3[J].网迷,2002(12):67-67.
5一刀.WinRAR两个鲜为人知的用法[J].电脑,2004(2):67-67.
6王志军.利用重命名合并文件夹[J].网友世界,2010(2):32-32.
7徐令毅.论数据库文件的合并[J].电脑开发与应用,1996,9(1):61-63.
8合并多篇文本文档[J].电脑爱好者（普及版）,2010(A02):30-30.
9视频文件巧合并：MediaJoin[J].电脑爱好者,2005(7):40-40.
10张璐,杨东芳.数据库中小文件的实时存储与优化[J].河南科技,2015,34(3):8-10.

计算机系统应用

2015年第11期

浏览历史

内容加载中请稍等...

Hadoop中处理海量小文件的方法被引量：1

参考文献13

二级参考文献12

共引文献27

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Hadoop中处理海量小文件的方法 被引量：1

参考文献13

二级参考文献12

共引文献27

同被引文献13

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Hadoop中处理海量小文件的方法被引量：1