基于Hadoop的优化海量录音小文件存取性能的方法被引量：1

The Approach for Optimizing Storing and Accessing Massive Recording Small Files on Hadoop

下载PDF

导出

摘要 Hadoop作为一个分布式计算框架,在处理大容量数据方面有着显著优势。然而,因其Name Node节点问题的内存有瓶颈等问题,对于处理海量小文件的存取不利。提出了一种针对海量录音小文件的优化方法,充分利用录音文件相关性的特点,通过预处理模块归类文件,把录音小文件合并成一系列的sequencefile,并建立全局索引,最后,采用缓存机制及缓存优化策略进行进一步优化。实验证明,该方法能有效提高大批量小文件的存取性能。 As a distributed calculating framework, Hadoop has its distinct advantage in processing large data. However, due to its storage bottleneck problem in NameNode. It does not work well in processing large numbers of small files. This paper proposes a optimization method on accounts of mass recording small flies. It makes full use of recording small files correlation characteristics, combining the recording small files into a series of sequence file via preprocessing module classification file and construct global index. Finally it further optimizes with cache mechanism and Cache optimization strategy. The experiment proves that the method can increase the efficiency of storing small files.

作者徐欢欢朱信忠赵建民徐慧英

机构地区浙江师范大学

出处《微型电脑应用》 2015年第2期1-3,共3页 Microcomputer Applications

基金国家自然科学基金资助项目(61272468)

关键词 HADOOP 小文件优化存储性能 Hadoop Small File Optimize Storage Performance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1汤姆·怀特.Hadoop权威指南(第二版)[M].北京:清华大学出版社,2011.
2Konstantin S,Hairing K,Sanyjy R,et al. The Hadoop Dis- tributed File System[C].//Proceedings of the 2010 IEEE 26th Symposium on Mass Storage Systems and Technol- ogies(MSST).May 03-07,2010:1-10.
3MapReduce Tutorial[OL ].http://hadoop.apache.org/docs/ r1.2.1/mapred tutorial.html.
4HadoopSequenceFile[OL].http://hadoop.apache.org/docs/ current/api/org/apache/hadoop/io/SequenceFile.html.
5Sequencefile wiki[OL ].http://wiki.apache.org/hadoop/Se- quenceFile.
6赵跃龙,谢晓玲,蔡咏才,王国华,刘霖.一种性能优化的小文件存储访问策略的研究[J].计算机研究与发展,2012,49(7):1579-1586. 被引量：20

二级参考文献10

1金海,罗飞,章勤,张浩.一个基于P2P高性能计算的高效数据传输协议[J].计算机研究与发展,2006,43(9):1543-1549. 被引量：4
2Baker M G,Hartman J H,Kupfer M D. Measurement of a distributed file system[A].New York:ACM,1991.198-212.
3Carns P H,Ligon W B,Ross B R. PVFS:A parallel file system for Linux clusters[A].Berkeley,CA:USENIX Association,2000.28-38.
4Ahn W H,Kim K,Choi Y. DFS:A de-fragmented file system[A].Piscataway,NJ:IEEE,2002.71-80.doi:10.1093/brain/awp141.
5McKusick M K,Joy W N,Leffler S J. A fast file system for UNIX[J].ACM Transactions on Computer Systems,1984,(03):181-197.doi:10.1145/989.990.
6Brandt S A,Miller E L,Long D D E. Efficient metadata management in large distributed storage systems[A].Piseataway,NJ:IEEE,2003.290-298.doi:10.1002/mus.22123.
7Luo Min,Yokota H. Comparing Hadoop and fat-btree based access method for small file I/O applications[A].Beilin:Springer-Verlag,2010.182193.
8Wang Feng. Storage management in large distributed objectbased storage system[D].Santa Cruz:University of California Santa Cruz,2006.
9Carns P,Lang S,Ross R. Small-file access in parallel file systems[A].Piscataway,NJ:IEEE,2009.1-11.
10Ganger G R,Kaashoek M F. Embedded inodes and explicit grouping:exploiting disk bandwidth for small files[A].Berkeley,CA:USENIX Association,1997.1-17.doi:10.1007/s10333-011-0289-8.

共引文献19

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：69
2王涛,姚世红,徐正全,熊炼.云存储中面向访问任务的小文件合并与预取策略[J].武汉大学学报（信息科学版）,2013,38(12):1504-1508. 被引量：14
3徐教显,王雅文.基于缓存估算模型的代码测试系统性能优化方法[J].软件,2013,34(12):10-13. 被引量：4
4程付超,苗放,陈垦.自适应的分布式文件系统元数据管理模型[J].计算机工程与设计,2014,35(3):867-874. 被引量：9
5周国安,李强,陈新,胡旭.云环境下海量小文件存储技术研究综述[J].信息网络安全,2014(6):11-17. 被引量：16
6英昌甜,于炯,鲁亮,刘建矿.基于小文件的内存云存储优化策略[J].计算机应用,2014,34(11):3104-3108. 被引量：6
7杨洪章,张军伟,刘振军,张建刚.Readdir++:一种并行网络文件系统中海量小文件读优化技术[J].小型微型计算机系统,2014,35(11):2402-2409. 被引量：1
8吴阳,冯径.面向高效文件访问的目录结构优化研究[J].软件工程师,2014(11):5-7.
9熊安萍,黄容,邹洋.一种基于混合索引的HDFS小文件存储策略[J].重庆邮电大学学报（自然科学版）,2015,27(1):97-102. 被引量：4
10李洪奇,朱丽萍,孙国玉,王露.面向海量小文件的分布式存储系统设计与实现[J].计算机工程与设计,2016,37(1):86-92. 被引量：13

同被引文献9

1陈苏婷,张燕,张艳艳.气象预警信息智能接收处理系统的设计与实现[J].计算机工程与设计,2014,35(1):339-343. 被引量：4
2周聪,王庆良,王双绪.固体介质中孤立波的传播及演化特征[J].地震,2014,34(1):112-117. 被引量：3
3刘春阳,宋雷雄,郑雪峰,涂序彦.基于XML树-表结构的多元巡检数据存储方法[J].计算机仿真,2014,31(6):133-136. 被引量：5
4侯昉,陆寄远,黄承惠.多维浮点数据的曲线拟合压缩存储方法[J].计算机工程与科学,2014,36(6):1028-1033. 被引量：1
5陈渝.基于Cache的海量图片存取优化方案[J].计算机测量与控制,2014,22(8):2669-2672. 被引量：1
6陈竹西,李小平.一种用于双负载重力货架自动存取系统的排序方法(英文)[J].Journal of Southeast University(English Edition),2015,31(1):31-37. 被引量：1
7许家林,王晓东,李丙玉,王鹤,孙强.基于DMD的红外场景模拟器图像数据传输和分割存储方法[J].红外与激光工程,2015,44(9):2622-2626. 被引量：11
8王懋.基于双负载重力货架自动存取系统的排序方法研究[J].机械设计与制造工程,2015,44(12):59-62. 被引量：1
9付红阁,姜华,张怀锋.基于Hadoop的海量统计小文件存取优化方案[J].聊城大学学报（自然科学版）,2016,29(1):102-106. 被引量：2

引证文献1

1瞿君.医院医疗信息资源存取效率规划仿真[J].计算机仿真,2017,34(1):435-438. 被引量：1

二级引证文献1

1尚想平,马亮.基于多次灰度模型的医务人员绩效考核评价方法研究[J].生产力研究,2021(8):104-108. 被引量：1

1宋继红,李梦楠,郝得智.基于Hadoop分布式文件系统的单点问题的研究[J].软件工程师,2014(12):9-10. 被引量：2
2李志敏,汤琼,彭志刚.ORACLE中大数据量下索引效率的测试与分析[J].计算机时代,2007(5):64-65.
3付红阁,姜华,张怀锋.基于Hadoop的海量统计小文件存取优化方案[J].聊城大学学报（自然科学版）,2016,29(1):102-106. 被引量：2
4有道云笔记新版发布用户突破200万[J].大众软件,2012(7):65-65.
5贺建英.电子政务平台下HDFS中高效存储上传文件的方法[J].微型电脑应用,2015,31(8):76-79.
6王来,翟健宏.基于HDFS的分布式存储策略分析[J].智能计算机与应用,2016,6(1):5-8. 被引量：8
7赵辉,杨树强,陈志坤,尹洪,金松昌.基于MapReduce模型的范围查询分析优化技术研究[J].计算机研究与发展,2014,51(3):606-617. 被引量：14
8如何增大录音文件的音量[J].电脑爱好者（普及版）,2010(A02):52-53.
9宋俊德.我国CTI技术的发展和未来[J].中国计算机用户,2003(6):22-22. 被引量：2
10软件[J].计算机应用文摘,2006(18):114-114.

微型电脑应用

2015年第2期

浏览历史

内容加载中请稍等...

基于Hadoop的优化海量录音小文件存取性能的方法被引量：1

参考文献6

二级参考文献10

共引文献19

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的优化海量录音小文件存取性能的方法 被引量：1

参考文献6

二级参考文献10

共引文献19

同被引文献9

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的优化海量录音小文件存取性能的方法被引量：1