一种基于HDFS小文件存储优化方案被引量：3

A Small Files Optimized Schema Based on HDFS

下载PDF

导出

摘要 Hadoop分布式文件系统(HDFS)在大数据存储中具有优良的性能,适用于处理和存储大文件,但在海量小文件处理时性能显著下降,过多的小文件使得整个系统内存消耗过大。为了提高HDFS处理小文件的效率,改进了HDFS的存储方案,提出了海量小文件的存储优化方案。根据小文件之间的相关性进行分类,然后将同一类小文件合并上传,并生成索引文件,读取时采用客户端缓存机制以提高访问效率。实验结果表明,该方案在数据迅速增长的情况下能有效提高小文件访问效率,降低系统内存开销,提高HDFS处理海量小文件的性能。 The Hadoop distributed file system （HDFS） has excellent performance in the big data storage and is suitable for processing and storing big files, but when processing the mass small files the performance reduced significantly, too many small files consume excessive amount of memory.In order to improve the efficiency of processing small files in HDFS, this paper improved the HDFS storage solution, and proposed an optimization scheme.First, it Classified the small files according to the correlation, a set of correlated files is combined into a large file then stored in HDFS, and generate the index file, using client-side caching mechanism to improve the efficiency of access.The experimental results show that the proposed scheme can improve the store and access efficiency effectively with rapiding growth of small files, and reduce memory consumption, improve the performance of processing mass small files.

作者张晓丽滑亚慧

机构地区西安航空学院计算机学院

出处《计算技术与自动化》 2017年第3期134-138,共5页 Computing Technology and Automation

基金陕西省网络计算与安全技术重点实验室资助项目(15JS078) 西安市科技计划资助项目(CXY1518(1))

关键词 HADOOP HDFS 小文件缓存 Hadoop, HDFS small file cache

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1游小容,曹晟.海量教育资源中小文件的存储研究[J].计算机科学,2015,42(10):76-80. 被引量：16
2余思,桂小林,黄汝维,庄威.一种提高云存储中小文件存储效率的方案[J].西安交通大学学报,2011,45(6):59-63. 被引量：43

二级参考文献19

1BORTHAKUR D. The hadoop distributed file system:architecture and design [EB/OL]. [2010-08- 25]. http://hadoop, apache, org/core/docs/current/ hdfs_desigru pdf.
2MACKEY G, SEHRI S, WANG Jun. Improving metadata management for small files in HDFS [C/ OL.] // Proceedings of 2009 IEEE International Conference on Cluster Computing and Workshops. [2010- 08- 10]. http://ieeexplore, ieee. org/stamp/stamp. jsp? tp=&arnumber=5289133.
3LIU Xuhui, HAN Jizhong, ZHONG Yunqin, et al. Implementing WebGIS on hadoop: a case study of im- proving small file I/O performance on HDFS [C/OL] //Proceedings of 2009 IEEE International Conference on Cluster Computing and Workshops. [2010-08-10]. http://ieeexplore, ieee. org/stamp/stamp, jsp? tp= &arnumber= 5289196.
4DONG Bo, QIU Jie, ZHENG Qinghua, et al. A novel approach to improving the efficiency of storing and accessing small files on hadoop: a case study by PowerPoint files EC]ffProceedings of the 7th International Conference on Services Computing. Piscataway, NJ, USA: IEEE, 2010: 65-72.
5HUANG Ruwei, YU Si, ZHUANG Wei, et al. Design of privacy-preserving cloud storage framework [C]//Proceedings of the 9th International Conference on Grid and Cloud Computing. Piseataway, NJ, USA:IEEE, 2010: 128-132.
6SATTY T L. Axiomatic foundation of the analytic hierarchy process [J]. Management Science, 1986, 32 (7) - 841-855.
7HAN Jiawei, KAMBER N.Data mining: concepts and techniques [M]. San Francisco, CA, USA:Morgan Kaufmann, 2006.
8kkdelta.告诉你 Hadoop 是什么[EB/OL]. [2014-06-17]. ht-tp://www. thebigdata. cn/Hadoop/10722. html.
9周敏奇,王晓玲,金澈清,等.Hadoop权威指南(第2版)[M].北京:清华大学出版社,2011:8-20.
10White T. The small files problem [EB/OL], [2009-2-2]. ht-tp:// www. cloudera. com/blog/2009/02/the-small-files-prob-lem.

共引文献57

1陈桦,李艳明,朱美正.一种支持大量并发用户的瓦片缓存方案研究[J].计算机工程与科学,2012,34(12):144-149. 被引量：12
2刘小俊,徐正全,潘少明.一种结合RDBMS和Hadoop的海量小文件存储方法[J].武汉大学学报（信息科学版）,2013,38(1):113-115. 被引量：20
3朱媛媛,王晓京.基于GE码的HDFS优化方案[J].计算机应用,2013,33(3):730-733. 被引量：7
4张程,马武.云存储在精品课程网络服务平台中的应用探究[J].中国科技信息,2013(7):202-202. 被引量：5
5Zhongwen Gao,Zhou Shao,Kai Zhang,Wenzhi Wu,Weiwei Song.An Improved Scheduling Algorithm for Cloud Storage[J].通讯和计算机（中英文版）,2013,10(2):202-206.
6刘高军,王帝澳.基于Redis的海量小文件分布式存储方法研究[J].计算机工程与科学,2013,35(10):58-64. 被引量：22
7王涛,姚世红,徐正全,熊炼.云存储中面向访问任务的小文件合并与预取策略[J].武汉大学学报（信息科学版）,2013,38(12):1504-1508. 被引量：14
8王彬,周莲英.基于FAHP的hadoop平台移动终端云存储优化研究[J].无线通信技术,2014,23(1):32-36.
9张海,马建红.基于HDFS的小文件存储与读取优化策略[J].计算机系统应用,2014,23(5):167-171. 被引量：14
10周国安,李强,陈新,胡旭.云环境下海量小文件存储技术研究综述[J].信息网络安全,2014(6):11-17. 被引量：16

同被引文献18

1陈献辉,张治元,刘丽波.基于云计算的数据仓库ETL系统研究与优化[J].湘南学院学报,2014,35(2):26-30. 被引量：4
2葛清,许晓兵.可拓优度评价法在CRM软件供应商选择中的应用[J].科技与管理,2014,16(4):56-61. 被引量：1
3李铁,燕彩蓉,黄永锋,宋亚龙.面向Hadoop分布式文件系统的小文件存取优化方法[J].计算机应用,2014,34(11):3091-3095. 被引量：12
4罗德新,谢凯,夏巍,廖虎.一种基于GPU并行加速的快速建模方法[J].长江大学学报（自科版）（上旬）,2015,12(1):15-19. 被引量：1
5刘峰波.大数据Spark技术研究[J].数字技术与应用,2015,33(9):90-90. 被引量：3
6王新杰,雷印杰,严华,乔永钦.云计算中面向能耗降低的虚拟机多资源放置算法[J].计算机测量与控制,2015,23(12):4133-4138. 被引量：2
7李欢,卢罡,郭俊霞.基于GPU的大尺度网络零模型分组生成并行算法[J].计算机工程与设计,2016,37(1):93-99. 被引量：3
8林伟伟,吴文泰.面向云计算环境的能耗测量和管理方法[J].软件学报,2016,27(4):1026-1041. 被引量：29
9苏叶健.基于云存储的教学资源共享系统的设计[J].电子技术与软件工程,2016(16):60-61. 被引量：3
10李哲,李占山,李颖.基于GPU的约束网络模型和并行弧相容算法[J].计算机研究与发展,2017,54(3):514-528. 被引量：4

引证文献3

1苏叶健.教学资源共享平台云存储性能优化设计[J].电脑知识与技术,2018,14(11X):18-19. 被引量：3
2赵少东,王程斯.基于异构计算与实时可视化技术的综合能源大数据平台研究与应用[J].微型电脑应用,2019,35(11):96-99. 被引量：8
3陈佳.自适应加权数据融合算法在HDFS数据读取中的应用[J].计算机产品与流通,2018,0(2):148-148. 被引量：2

二级引证文献13

1王家兵.教学参考资源云服务平台构建研究[J].中国成人教育,2019(4):53-56. 被引量：8
2阮进军.基于Hadoop的温室无线传感网络数据采集与管理系统[J].绥化学院学报,2019,39(5):153-157.
3查琳.可穿戴无线传感器网络节能算法研究[J].沈阳理工大学学报,2019,38(4):41-44. 被引量：2
4孔德丽,屈会雪,卞志勇.浅析基于Hadoop的高校大数据云平台设计[J].机械制造与自动化,2020,49(1):101-102. 被引量：11
5员青泽.人工智能大数据平台及应用分析[J].电脑知识与技术,2020,16(26):171-172. 被引量：3
6郭登峰,张建华.金融大数据平台功能模块设计与实现研究[J].科学大众（科技创新）,2020(10):89-89.
7王金策,冯文奂.动态能源知识图谱下的计算能源[J].现代计算机,2021,27(7):76-79.
8王丽杰,张喜平,冯强,吴君仪.基于云边协同的新能源监控与大数据平台构建[J].分布式能源,2021,6(1):44-50. 被引量：19
9黄振宁,刘天立,乔耀华,张飞,贾明亮,刘越.基于4G网络的无人机激光雷达数据实时传输方法研究[J].现代科学仪器,2021,38(3):248-252. 被引量：1
10肖文凯.数据驱动的燃气应急抢修系统设计与实现[J].微型电脑应用,2022,38(3):143-147.

1赵效民.簇与文件的存储[J].大众软件,1996(10):29-30.
2王楠.Dos还有用?[J].电脑界（应用文萃）,2000(8):38-38.
3老流.玩转你的系统内存[J].微型计算机,2000(13):70-71.
4杨国林,袁振波.MS PASCAL共享dBASEⅢ的索引文件[J].微计算机应用,1991,12(4):40-44.
5高乃斌,虞焰智.dBASEⅢ索引文件的结构与使用[J].合肥炮兵学院学报,1989,9(4):68-71.
6沈杰.FoxBASE+实用技巧三则[J].电脑,1995(2):45-45.
7王平.FoxPro2.5索引文件的使用技巧和应注意的一些问题[J].软件世界,1995(5):20-22.
8代崴,周剑锋.B^+树索引文件研究与应用[J].软件导刊,2006,5(11):38-40. 被引量：2
9钟诚.FoxBASE+中按降序建立索引文件的方法[J].计算机系统应用,1994,3(10):48-48.
10孙春秋,张翼宗.浅谈数据库索引文件的使用[J].计算机应用研究,1989,6(5):13-15. 被引量：2

计算技术与自动化

2017年第3期

浏览历史

内容加载中请稍等...

一种基于HDFS小文件存储优化方案被引量：3

参考文献2

二级参考文献19

共引文献57

同被引文献18

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于HDFS小文件存储优化方案 被引量：3

参考文献2

二级参考文献19

共引文献57

同被引文献18

引证文献3

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于HDFS小文件存储优化方案被引量：3