一种面向HDFS中海量小文件的存取优化方法被引量：3

Optimization of massive small files storage and accessing on HDFS

下载PDF

导出

摘要为了解决HDFS(Hadoop distributed file system)在存储海量小文件时遇到的NameNode内存瓶颈等问题,提高HDFS处理海量小文件的效率,提出一种基于小文件合并与预取的存取优化方案。首先通过分析大量小文件历史访问日志,得到小文件之间的关联关系,然后根据文件相关性将相关联的小文件合并成大文件后再存储到HDFS。从HDFS中读取数据时,根据文件之间的相关性,对接下来用户最有可能访问的文件进行预取,减少了客户端对NameNode节点的访问次数,提高了文件命中率和处理速度。实验结果证明,该方法有效提升了Hadoop对小文件的存取效率,降低了NameNode节点的内存占用率。 In order to solve the problem of NameNode memory bottleneck when HDFS stored a massive amount of small files, this paper proposed an optimization of massive small files storage and accessing on HDFS to improve the efficiency of HDFS. First, it could get the relationship between small files by analyzing a large number of history access logs, and then merged these correlative small files into a big file which would be stored on HDFS. When the client read data from HDFS, the system would prefetch the related files which were most likely to be visited next according to the relevance of small files to reduce the number of request for NameNode,＇ thereby increasing the hit rate and processing speed. The results of experiment show that this method can effectively improve the efficiency of storing and accessing mass small files on HDFS, and cuts down the memo- ry utilization of NameNode.

作者顾玉宛王文闻孙玉强

机构地区常州大学信息科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2017年第8期2319-2323,共5页 Application Research of Computers

基金国家自然科学基金资助项目(11271057 61640211) 江苏省普通高校研究生科研创新计划项目(SCZ1412800004)

关键词海量小文件文件相关性合并预取 massive small files relationship between files merge prefetch

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1张海,马建红.基于HDFS的小文件存储与读取优化策略[J].计算机系统应用,2014,23(5):167-171. 被引量：14
2刘小俊,徐正全,潘少明.一种结合RDBMS和Hadoop的海量小文件存储方法[J].武汉大学学报（信息科学版）,2013,38(1):113-115. 被引量：20
3游小容,曹晟.海量教育资源中小文件的存储研究[J].计算机科学,2015,42(10):76-80. 被引量：16
4黄启峰,郑纬民,沈美明.一种机群文件系统的缓存模型[J].小型微型计算机系统,2003,24(10):1748-1752. 被引量：2

二级参考文献28

1Liu Wei, Ou Xin-ming, Wu Min,Zheng Wei-min , Shen Meiming. A distributed naming mechanism in scalable cluster file system[C]. In z Proceeding of the Fourth International Conference on High Performance Computing in Asia-Pacific Region, Vol. I,Beijing, P.R. China, May 14-17, 2000,:37-41.
2Liu Wei, Zheng Wei-min , Shen Mei-ming, Wu Min, Ou Xinming. Using a cluster file system-TH-CluFS-to construct a scalable cluster system of web servers[C]. InzProceeding of the 3rd Asia Pacific Web Conference(APWeb2000), Xi'an, China, Oct 27-29, 2000, 248-252.
3Michael D Dahlin, Randolph Y Wang, Thomas E Anderson,David A Patterson. Cooperative cachings using remote client memory to improve file system performanceCC]. Proceedings of the First Symposium Operating Systems Design and Implementation, 1994, 267-280.
4Michael D Dahlin, Randolph Y Wang, Thomas E Anderson,David A Patterson. A quantitative analysis of cache policies for scalavle network file system[C]. Proceedings of 1994 SIGMETRICS, May 1994, 150-160.
5Elizabeth Shriver, Christopher Small, Keith A Smith. Why does file system prefetching work? CC3. Proceedings of the USENIX Technical Conference, June, 1999, 6-11.
6Kenichi Kourai, Shigeru Chiba and Takashi Masuda. Operating system support for easy development of distributed file systems CD3. Proceedings of the 10th IASTED International Conference on Parallel and Distributed Computing and Systems (PDCS'98),October 1998, 551-554.
7Wikipedia.CloudStorage.http://en.wikipedia.org/wiki/Cloud_ storage. 2012-5-9.
8White T.周敏齐,王晓玲,金澈清,钱卫宁,译.Hadoop权威指南.北京:清华大学出版社,2010.
9Ghemawat S,Gobioff H,Leung S T. The Google File System[A].New York,USA,2003.
10Dean J,MapReduce S G. Simplified Data Processing on Large Clusters[[J].Communications of the ACM,2008,(01):107-111.

共引文献45

1周国安,李强,陈新,胡旭.云环境下海量小文件存储技术研究综述[J].信息网络安全,2014(6):11-17. 被引量：16
2潘少明,赖新果,种衍文,李红.用户访问驱动的空间数据存储组织策略[J].武汉大学学报（信息科学版）,2019,44(2):296-301. 被引量：2
3冯读庆,冯钧,唐志贤,王超.面向共享交换的水利混合云存储平台[J].计算机与现代化,2014(12):27-31. 被引量：2
4张璐,杨东芳.数据库中小文件的实时存储与优化[J].河南科技,2015,34(3):8-10.
5胡勇,罗文,俞肇元,冯琳耀.多维时空场数据的多模式张量表达模型[J].武汉大学学报（信息科学版）,2015,40(7):977-982. 被引量：3
6邵田,陈广胜,景维鹏.云存储系统中文件分界点确定方法——Cut-GAR[J].计算机应用,2015,35(9):2497-2502.
7马志强,杨双涛,闫瑞,张泽广.SQL-DFS:一种基于HDFS的海量小文件存储系统[J].北京工业大学学报,2016,42(1):134-141. 被引量：7
8徐晓龙,郑永永.MapReduce和HDFS优化现状分析[J].吉林化工学院学报,2016,33(1):23-27. 被引量：1
9李娜.基于HDFS的海量文件存储优化设计[J].电脑编程技巧与维护,2016(7):63-65.
10王丽娟,蔡晓东,王迪,赵勤鲁.基于集中式管理的缓存优化方案[J].电视技术,2016,40(5):101-104. 被引量：1

同被引文献25

1崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
2董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
3刘欣,李永刚.海量数据流在桥梁健康监测中的处理方法[J].计算机工程与设计,2008,29(1):223-224. 被引量：5
4郑翠芳.几种常用无损数据压缩算法研究[J].计算机技术与发展,2011,21(9):73-76. 被引量：45
5耿晨曜,姚丹亚,张盈盈,张煦,常刚.基于Map Reduce的分布式视频处理平台[J].计算机工程,2012,38(10):280-283. 被引量：2
6孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2378
7廖彬,于炯,张陶,杨兴耀.基于分布式文件系统HDFS的节能算法[J].计算机学报,2013,36(5):1047-1064. 被引量：58
8冯亚丽,丁良奎,刘永江,王兴兆.多格式海量数据统一存取的索引结构[J].计算机应用研究,2013,30(6):1664-1667. 被引量：5
9何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：323
10向丽辉,缪力,张大方.压缩对Hadoop性能影响研究[J].计算机工程与科学,2015,37(2):207-212. 被引量：6

引证文献3

1向阳,杜君.桥梁健康监测系统中的大数据分析与研究[J].铁路计算机应用,2020,29(1):44-48. 被引量：9
2李文武,张建锋,王景林.基于EHDFS的海量小文件存储与检索方法[J].计算机工程与设计,2022,43(2):376-383. 被引量：5
3张军,苏文浩.基于LZO的Hadoop文件归档优化方法[J].计算机与现代化,2023(6):1-6.

二级引证文献14

1余传锦,陈潜,梁爱霞,何佳勇.桥梁工程大数据2020年度研究进展[J].土木与环境工程学报（中英文）,2021,43(S01):321-326. 被引量：2
2杨兴旺,唐成,易用强,梁伟军.桥梁云计算2020年度研究进展[J].土木与环境工程学报（中英文）,2021,43(S01):261-267. 被引量：2
3单德山,罗凌峰,李乔.桥梁健康监测2019年度研究进展[J].土木与环境工程学报（中英文）,2020,42(5):115-125. 被引量：30
4焦雄风,马龙,金卫峰,陈铮,张献州.运营高铁重点监测地段云评估系统设计与实现[J].铁道勘察,2021,47(4):43-47. 被引量：1
5张建龙,赵东月,栗怡文,郑旭达,王雄,伍卫国,彭家意.基于神经网络的桥梁健康监测与预警平台研究[J].计算机技术与发展,2022,32(4):205-209. 被引量：1
6李帆.云计算技术在桥梁结构健康监测中的应用[J].公路,2022,67(4):177-181. 被引量：8
7王红迁,吴昊,汪鹏,黄荣,周琳.面向医疗场景的海量文件存储系统研究[J].中国卫生信息管理杂志,2022,19(3):412-415. 被引量：1
8史晓磊,王华伟,刘宗洋,祁苗苗.铁路货车配件信息管理系统设计[J].铁路计算机应用,2022,31(6):40-43. 被引量：3
9刘智文,赵天成,张倩倩.一种基于大词表目标检测与稀疏向量的监控视频检索系统[J].智能物联技术,2022,54(6):35-40. 被引量：1
10张军,苏文浩.基于LZO的Hadoop文件归档优化方法[J].计算机与现代化,2023(6):1-6.

1韩法旺.Web日志挖掘数据预处理过程研究[J].南京工业职业技术学院学报,2012,12(2):53-56. 被引量：3
2张卫华.基于大数据技术的高校图书馆电子资源访问日志分析[J].创新科技,2017,17(3):82-84. 被引量：2
3赵鑫,石龙,张建光,刘霞,宋振源.HDFS在智慧博物馆文件存储系统中的应用[J].衡水学院学报,2017,19(4):6-10. 被引量：2

计算机应用研究

2017年第8期

浏览历史

内容加载中请稍等...

一种面向HDFS中海量小文件的存取优化方法被引量：3

参考文献4

二级参考文献28

共引文献45

同被引文献25

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种面向HDFS中海量小文件的存取优化方法 被引量：3

参考文献4

二级参考文献28

共引文献45

同被引文献25

引证文献3

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

一种面向HDFS中海量小文件的存取优化方法被引量：3