SFFS:低延迟的面向小文件的分布式文件系统被引量：5

SFFS:Low-Latency Small-File-Oriented Distributed File System

下载PDF

导出

摘要社交网站和电子商务等网络服务发展迅速,这类服务需要存储大量图片、音乐、微博文本等小文件。传统的分布式存储系统,如HDFS(Hadoop distributed file system),是面向大文件而设计的,在存储小文件时会产生元数据开销过大,访问延迟较高等问题,不能适应存储海量小文件的应用环境。分析了TFS(Taobao file system)的系统架构和读写流程,发现TFS在每次读/写过程中至少要建立3次网络连接,增大了读写延迟。针对海量小文件存储带来的挑战和TFS存在的问题,提出了一种新的低延迟、高可用的面向海量小文件的分布式存储方案,并实现了分布式文件系统SFFS(small-file file system)。性能测试表明,SFFS和TFS相比,写延迟降低了76.6%,读延迟降低了约10%。通过对系统结构的分析,相比于TFS,SFFS在中心节点的负载更轻,失效恢复更快,在可用性方面更有优势。 SNS （social networking services） and E-commerce services developed rapidly. Such services need store numerous small files like pictures, music files and macro blog texts. Traditional distributed storage systems, such as HDFS （Hadoop distributed file system）, are designed for large files, which will have problems such as too much over-head with metadata and high latency when dealing with large number of small files. This paper analyzes the architec-ture and read-write flow of TFS （Taobao file system）, and finds that TFS has to build several network connections when writing or reading a small file, which increases the read-write latency. Aiming at the challenge of storing numerous small files and the problems of TFS, this paper proposes SFFS （small-file file system）, a low-latency high availability small-file-oriented distributed storage. The performance experiments show that the write latency of SFFS decreases 76.6%, and the read latency of SFFS decreases about 10%compared with TFS. SFFS also has a higher availability than TFS since the center node in SFFS has lighter load and can recover more quickly.

作者王鲁俊龙翔吴兴博王雷

机构地区北京航空航天大学计算机学院

出处《计算机科学与探索》 CSCD 2014年第4期438-445,共8页 Journal of Frontiers of Computer Science and Technology

基金国家自然科学基金Grant No.61272167 国家高技术研究发展计划(863计划)Grant No.2011AA01A204 国家科技重大专项"核高基"项目Grant No.2012ZX01039-004~~

关键词小文件低延迟高可用分布式存储 small file low-latency high availability distributed storage

分类号 TP302 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献15

1Beaver D, Kumar S, Li H C, et al. Finding a needle in hay- stack: Facebook' s photo storage[C]//Proceedings of the 9th USENIX Symposium on Operating Systems Design and Imple- mentation (OSDI '10), Vancouver, Canada, Oct 4-6, 2010. Berkeley, CA, USA: USENIX, 2010.
2Mackey G, Sehrish S, Wang Jun. Improving metadata man- agement for small files in HDFS[C]//Proceedings of the 2009 IEEE International Conference on Cluster Computing and Workshops (CLUSTER '09), New Orleans, USA, 2009. Piscataway, NJ, USA: IEEE, 2009: 1-4.
3Baker M, Hartman J, Kupfer M, et al. Measurements of a distributed file system[C]//Proceedings of the 13th ACM Symposium on Operating Systems Principles (SOSP '91). New York, NY, USA: ACM, 1991 : 198-212.
4Cloudera small file problem[EB/OL]. [2013-08-16]. http:// blog.cloudera.com/blog/2009/02/the-small-files-problem/.
5White T. Hadoop: the definitive guide[M]. [S.1.]: O'Reilly Media, Inc, 2009.
6Patil S, Gibson G A. Scale and concurrency of GIGA+: file system directories with millions of files[C]//Proceedings of the 9th USENIX Conference on File and Storage Technologies (FAST), San Jose, USA, Feb 15-17, 2011. Berkeley, CA, USA: USENIX, 2011.
7TFS MetaServer[EB/OL]. [2013-08-16]. http://code.taobao. org/p/t fs/wiki/metaservedr/.www.redisbook.com/en/latest/. Castillo X, Siewiorek D P. A workload dependent software.
8Karger D, Lehman E, Leighton 1", et al. Consistent hashing and random trees: distributed caching protocols for relieving hot spots on the World Wide Web[C]//Proceedings of the 29th Annual ACM Symposium on Theory of Computing, E1 Paso, USA, May 4-6, 1997.New York, NY, USA: ACM, 1997: 654-663.
9DeCandia G, Hastorun D, Jampani M, et al. Dynamo: Am- azon's highly available key-value store[C]//Proceedings of the 21st ACM SIGOPS Symposium on Operating Systems Principles (SOSP "07), Stevenson, USA, Oct 14-17, 2007. New York, NY, USA: ACM, 2007: 205-220.
10Redis design and implements[EB/OL]. [2013-08-16]. http:// www.rcdisbook.com/en/latest/.

同被引文献33

1贾茜茜.基于软PLC技术的仿真系统设计与应用[J].自动化与仪器仪表,2016(2):211-213. 被引量：9
2李晓恺,代翔,李文杰,崔喆.基于纠删码和动态副本策略的HDFS改进系统[J].计算机应用,2012,32(8):2150-2153. 被引量：10
3王铃惠,李小勇,张轶彬.海量小文件存储文件系统研究综述[J].计算机应用与软件,2012,29(8):106-109. 被引量：20
4孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2391
5李森.浅析基于SaaS架构的多租户技术[J].电子设计工程,2013,21(20):41-44. 被引量：4
6邵秀丽,王亚光,李云龙,刘一伟.Hadoop副本放置策略[J].智能系统学报,2013,8(6):489-496. 被引量：7
7周江,王伟平,孟丹,马灿,古晓艳,蒋杰.面向大数据分析的分布式文件系统关键技术[J].计算机研究与发展,2014,51(2):382-394. 被引量：74
8张威,鲍丽娜.可快速定位的视频流媒体大数据存储系统[J].科学技术与工程,2014,22(1):239-243. 被引量：4
9尹向东,杨杰,屈长青.云计算环境下分布式文件系统的负载平衡研究[J].计算机科学,2014,41(3):141-144. 被引量：10
10周国安,李强,陈新,胡旭.云环境下海量小文件存储技术研究综述[J].信息网络安全,2014(6):11-17. 被引量：16

引证文献5

1吴德胜,孙恺悦.网络传播下的大数据发展[J].新闻研究导刊,2017,8(8):115-115.
2程晗,汪学明.基于Redis的海量智慧医疗小文件存储架构设计[J].计算机应用与软件,2018,35(4):86-90. 被引量：7
3周长俊,宗平.Hadoop备份数据存放策略的改进[J].计算机技术与发展,2019,29(1):11-16. 被引量：3
4李军锋,肖叶枝,温满华,何双伯,周青云.基于直播视频数据高性能分布式储存系统设计实现[J].电子设计工程,2019,27(5):57-60. 被引量：2
5张祥俊,伍卫国.基于FastDFS的数字媒体系统设计与实现技术研究[J].计算机技术与发展,2019,29(5):6-11. 被引量：5

二级引证文献17

1朱东红,吴东丽,郭剑,阙艳红,刘立业,刘兴良,张会可,郭渊杰.气象自动观测集成平台设计[J].软件,2018,39(7):182-190. 被引量：3
2张紫璇,叶桦,仰燕兰,陈晓涛,宋尧.基于Android的建筑古籍电子书库的研究与实现[J].信息技术与信息化,2019(6):176-180.
3王岩.基于Java的大数据集中碎片数据实时标记方法[J].电子设计工程,2020,28(9):46-49.
4张杰,刘凯,周立军.采用Redis高并发应用系统设计与实现方法[J].计算机与数字工程,2020,48(5):1222-1226. 被引量：14
5郭东新,张伟,荆忠航.基于HDFS+HBase+Redis的海量车辆小图片的存储与检索系统设计[J].现代计算机,2020,26(18):140-145. 被引量：2
6滕爱国,单新文,王鹏飞,陶晔波,闾龙,顾玉皎.基于Hadoop平台电力数据服务匹配查询性能研究[J].计算机技术与发展,2020,30(9):182-187. 被引量：1
7张安民,侯泽北,李兆兴,张殿君.面向e-航海时空数据处理的负载均衡算法[J].测绘科学,2020,45(10):41-47. 被引量：1
8王明芬,林婷.基于WAF的网络运维系统设计[J].电信快报（网络与通信）,2020(11):26-29. 被引量：2
9孙静,钟经伟,李志强,邹光球,何晔,唐欣.医疗数据存储机制研究综述[J].价值工程,2021,40(11):248-250. 被引量：2
10刘艳,曹晓倩.海量视频数据分布式存储性能优化方法研究[J].计算机应用研究,2021,38(6):1734-1738. 被引量：7

1淘宝排行榜[J].计算机应用文摘,2010(18):57-57.
2INTERNET ——Taobao Launches New Search Engine[J].China International Business,2010(11):12-12.
3行情导购[J].网络与信息,2011,25(2):13-13.
4朱莉（整理）.三步成为网店卖家[J].计算机应用文摘,2007,23(06X):48-49.
5淘宝防钓有妙招[J].电脑爱好者（普及版）,2011(A01):226-226.
6巧用淘宝箱免费工具[J].电脑爱好者（普及版）,2011(A01):228-228.
7阿里巴巴向淘宝网投资人民币20亿元[J].中国计算机用户,2008(25):27-27.
8行情导购[J].网络与信息,2010,24(9):11-11.
9欧阳凌翔.解读淘宝网的C2C电子商务模式[J].信息与电脑,2008(7):37-41. 被引量：6
10风雨夜归人.一元让你买个够——网上购物实战经验谈[J].电脑应用文萃,2005(1):90-91.

计算机科学与探索

2014年第4期

浏览历史

内容加载中请稍等...

SFFS:低延迟的面向小文件的分布式文件系统被引量：5

参考文献15

同被引文献33

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

SFFS:低延迟的面向小文件的分布式文件系统 被引量：5

参考文献15

同被引文献33

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

SFFS:低延迟的面向小文件的分布式文件系统被引量：5