面向大数据分析的分布式文件系统关键技术被引量：72

Key Technology in Distributed File System Towards Big Data Analysis

下载PDF

导出

摘要大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段．信息规模的扩大和数据结构的多样化，使海量数据存储成为大数据分析研究的热点．传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求．设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover．该系统采用基于目录划分和一致性Hash映射的名字空间管理方法，解决了元数据扩展性问题；通过改进的两阶段提交协议，保证了多元数据服务器下分布式元数据操作的一致性；提出了基于共享存储池的高可用机制，通过热备和全局状态恢复机制提高了元数据的可靠性．评测结果表明，Clover的元数据处理能力随服务器的数量线性增长，增加单个服务器的元数据操作性能平均提升了5．13％～159．32％．由于名字空间管理和分布式事务的开销，多元数据服务器会导致复杂操作的性能下降，但是这种下降的幅度很小（小于10％）．与HDFS相比，Clover的文件读写带宽与之接近，并能够保证在元数据服务器失效后文件系统快速恢复，适合于构建高可扩展和高可用的存储系统． With the arrival of big data period, data analysis and processing are becoming a more important technology which the data center and Internet companies depend on. Mass data storage is a hotspot topic in big data analysis with the expansion of information and variety of data structure. Traditional distributed file systems are lack of the new demands in scalability, reliability and performance. In this paper, a cluster file system towards big data analysis is designed, which is named Clover. Clover uses the namespace management based on directory sharding and consistent hashing to solve the problem of metadata extension. It provides metadata consistency for distributed transactions through a modified two-phase commit protocol. Moreover, Clover presents a highly available mechanism based on the shared storage pool. It achieves metadata reliability with hot standby and global state recovery mechanism. The evaluation results reveal that Clover could improve metadata performance linearly with the average value from 5.13% to 159.32% by adding one metadata server. Namespace management and distributed transactions would cause the degradation of performance on multiple metadata servers, but the influence is negligible （less than 10%）. Comparing with HDFS, Clover could keep the similar throughput and quickly recover from metadata server failures. Practical application tests show that Clover is suitable for building high scalable and high available storage system.

作者周江王伟平孟丹马灿古晓艳蒋杰

机构地区中国科学院计算技术研究所计算机应用研究中心中国科学院大学中国科学院信息工程研究所腾讯公司数据平台部

出处《计算机研究与发展》 EI CSCD 北大核心 2014年第2期382-394,共13页 Journal of Computer Research and Development

基金国家"八六三"高技术研究发展计划基金项目(2013AA013204) 中国科学院先导专项基金项目(XDA06030200) 国家自然科学基金项目(60903047) 国家科技支撑计划基金项目(2012BAH46B03)

关键词大数据海量数据存储分布式文件系统元数据可扩展性高可用性 big data mass data storage distributed file system metadata scalability high availability

分类号 TP333 [自动化与计算机技术—计算机系统结构] TP316.4 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献28

1Sandberg R,Goldberg D,Kleiman S. Design and implementation of the Sun network filesystem[A].Berkeley,CA:USENIX Association,1985.119-130.
2Shvachko K,Kuang H,Radia S. The Hadoop distributed file system[A].Piscataway,NJ:IEEE,2010.1-10.
3White T. Hadoop:The Definitive Guide[M].Cambridge:O'Reilly Media,2009.
4Ghemawat S,Gobioff H,Leung S. The Google file system[A].New York:ACM,2003.29-43.
5Dean J,Ghemawat S. MapReduce:Simplified data processing on large clusters[A].Berkeley,CA:USENIX Association,2004.137-150.
6Schmuck F,Haskin R. GPFS:A shared disk file system for large computing clusters[A].Berkeley,CA:USENIX Association,2002.231-244.
7Weil S A,Brandt S A,Miller E L. Ceph:A scalable,high performance distributed file system[A].Berkeley,CA:USENIX Association,2006.307-320.
8Douceur J R,Howell J. Distributed directory service in the Farsite file system[A].Berkeley,CA:USENIX Association,2006.321-334.
9冯幼乐,朱六璋.CEPH动态元数据管理方法分析与改进[J].电子技术（上海）,2010(9):1-3. 被引量：6
10Thusoo A,Sarma J S,Jain N. Hive:A warehousing solution over a map-reduce framework[A].{H}Berlin:Springer-Verlag,2009.1626-1629.

二级参考文献24

1J. Menon, D. A. Pease, R. Rees, et al. IBM storage tank-A heterogeneous scalable SAN file system. IBM Systems Journal,2003, 42(2): 250～267
2P. J. Braam. The Lustre Storage Architecture. Medford, MA:Cluster File Systems, Inc. 2004
3Uresh Vahalia. UNIX Internals: The New Frontiers. Englewood Cliffs, NJ: Prentice-Hall, 1996
4J. Gray. Notes on data base operating systems. In: R. Bayer, R.M. Graham, G. Seegmuller, eds, Operating Systems: An Advanced Course, Lecture Notes on Computer Science 60. New York: Springer-Verlag, 1978. 393～481
5T. Haerder, A. Reuter. Principles of transaction-oriented database recovery. ACM Computing Surveys, 1983, 15(4): 287～317
6M.K. McKusick, T. J. Kowalski. FSCK-The UNIX file system check program. In: 4.4 BSD System Manager's Manual.Sebastopol : O ' Reilly , 1994
7S. Tweedie. Journaling the Linux ext2fs file system. The 4th Annual LinuxExpo, Durham, 1998
8J. Gray, A. Reuter. Trans. Processing: Concepts and Techniques. New York: Morgan Kaufman, 1993
9G. Ganger, M. McKusick, C. Soules, et al. Soft updates: A solution to the metadata update problem in file systems. ACM Trans. Computer Systems, 2000, 18(2): 127～153
10L. Soares, O. Krieger, D. Silva. Meta-data snapshotting: A simple mechanism for file system consistency. Int'l Workshop on Storage Network Architecture and Parallel I/O s held with 12th Int'l Conf. Parallel Architectures and Compilation Techniques,New Orleans, 2003

共引文献15

1海深,周燕艳.嵌入式文件系统一致性设计[J].铜陵学院学报,2006,5(4):79-80.
2LIU Yuling YU Hongfen SONG Weiwei.Design and Implementation of Two-Level Metadata Server in Small-Scale Cluster File System[J].Wuhan University Journal of Natural Sciences,2006,11(6):1939-1942.
3海深,陆阳,袁菲.嵌入式存储系统恢复机制的设计与实现[J].计算机工程,2006,32(24):277-279. 被引量：1
4田俊峰,于洪芬,宋玮玮.小规模集群文件系统中两级元数据服务器的设计与实现[J].小型微型计算机系统,2007,28(6):1026-1030.
5张军伟,贾瑞勇,贾亚军,张建刚,许鲁.蓝鲸集群文件系统中资源交互一致性协议[J].计算机工程,2008,34(11):7-9.
6WU Hongli YIN Baolin ZHAO Xiao XIANG Gang.Maintaining Consistency Based on Timely Updating Records List in Workflow Data[J].Wuhan University Journal of Natural Sciences,2008,13(4):481-484.
7吴红莉,尹宝林,向刚,赵霞.分布式存储环境下工作流相关数据的一致性更新[J].系统仿真学报,2009,21(8):2252-2257.
8海深,周燕艳.嵌入式文件系统故障恢复机制设计[J].计算机工程与设计,2009,30(9):2114-2116. 被引量：1
9周燕艳,海深.基于FAT16元数据一致性的设计[J].铜陵学院学报,2010,9(5):74-75.
10薛志强,刘鹏,文艾,周游,许闯.分布式文件系统管理策略研究[J].电脑知识与技术,2011,7(1):11-12. 被引量：5

同被引文献771

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：79
2王丽萍,李宁宁,马皓宇,阎晓冉,吴嘉杰.三峡水库蓄水时机群决策方法研究[J].水力发电学报,2020(7):61-72. 被引量：6
3王晓玲,谢怀宇,王佳俊,陈文龙,蔡志坚,刘宗显.基于Bootstrap和ICS-MKELM算法的大坝变形预测[J].水力发电学报,2020,39(3):106-120. 被引量：31
4闫佰忠,孙剑,王昕洲,韩娜,刘博.基于多变量LSTM神经网络的地下水水位预测[J].吉林大学学报（地球科学版）,2020,50(1):208-216. 被引量：37
5丁斌.基于WebGIS的黄河下游工情和险情会商系统[J].华北水利水电学院学报,2008,29(5):15-17. 被引量：4
6徐振宇.地理空间元数据库的研究与实现[J].安徽地质,2002,12(2):145-150. 被引量：8
7何惠.中国水文站网[J].水科学进展,2010,21(4):460-465. 被引量：23
8刘艳俊,敖杰刚,徐齐行.基于MongoDB云计算下GML分布式集群环境搭建研究[J].测绘标准化,2012,28(1):3-5. 被引量：6
9吴广君,王树鹏,陈明,李超.海量结构化数据存储检索系统[J].计算机研究与发展,2012,49(S1):1-5. 被引量：30
10崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141

引证文献72

1蒋云钟,冶运涛,赵红莉,梁犁丽,曹引,顾晶晶.水利大数据研究现状与展望[J].水力发电学报,2020,39(10):1-32. 被引量：79
2苏洋,刘晓军,唐勇,黄洋.游戏大数据平台研究与实践[J].电信科学,2014,30(10):21-26. 被引量：8
3尤海浪,钱锋,黄祥为,胡亮亮.基于大数据挖掘构建游戏平台个性化推荐系统的研究与实践[J].电信科学,2014,30(10):27-32. 被引量：19
4何昆.银行自助设备备付金预测模型探索[J].中小企业管理与科技,2015,0(1):53-55. 被引量：1
5唐亚鹏.基于自适应加权数据融合算法的数据处理[J].计算机技术与发展,2015,25(4):53-56. 被引量：17
6丁洁,王磊,沈荻帆,周又玲.一种大数据异常检测系统的研究与实现[J].海南大学学报（自然科学版）,2015,33(1):24-27. 被引量：8
7周文琼.大数据环境下的电力客户服务数据分析系统[J].计算机系统应用,2015,24(4):51-57. 被引量：26
8梁军,聂瑞华.面向对象存储的文件系统Lustre[J].计算机工程与设计,2015,36(6):1666-1670. 被引量：7
9宋星卓.基于学科分布的大数据中外文献比较[J].经济师,2015(8):39-42.
10祁军.面向大数据的分布式系统设计关键技术研究[J].通讯世界,2015,21(8):22-23. 被引量：1

二级引证文献449

1桂鹍鹏,蒋鑫,宋欣,丁益.5G通信技术在智慧水利中的应用前景分析[J].人民长江,2021,52(S02):283-288. 被引量：10
2刘玉菲,吕蓓茹,彭玲,吴同,刘赛.城中村建筑物识别训练样本数据集[J].全球变化数据学报（中英文）,2020,4(2):181-187. 被引量：3
3薛霜思,曹晖,贾立新,李欢,谭浚楷,石天卓.矿用电机分布式远程智能在线监测系统设计[J].煤炭学报,2023,48(S01):368-380. 被引量：1
4张党育,武斌,贾靖,赵立松,李玉宝.基于微震数据及模型的煤矿水害“双驱动”预警体系构建与应用[J].煤炭科学技术,2023,51(S01):242-255.
5胡懋仁.实践、人的本质及其他——重温马克思和恩格斯的有关论述[J].北京航空航天大学学报（社会科学版）,2000,13(1):30-34.
6ISO 14021-99环境标志和环境宣言——自我环境声明(第二类环境标志)[J].世界标准信息,2000(5):1-4.
7林伟川.微分多项式的唯一性问题[J].纺织高校基础科学学报,2000,13(1):29-32. 被引量：3
8颜卫人.变系数时滞Smith方程的振动准则[J].纺织高校基础科学学报,2000,13(1):33-36.
9王营冠,罗正明.非弹性核反应对质子束能量沉积的影响[J].物理学报,2000,49(8):1639-1643. 被引量：2
10李浩然.城市配电网智能分布式馈线自动化系统研究[J].自动化与仪器仪表,2019(1):10-14. 被引量：7

1英特尔发布面向平板电脑的全新凌动处理器Z2760[J].微电脑世界,2012(11):16-16.
2刘恋,郑彪,龚奕利.分布式文件系统中元数据操作的优化[J].计算机应用,2012,32(12):3271-3273. 被引量：6
3王铃惠,李小勇,张轶彬.海量小文件存储文件系统研究综述[J].计算机应用与软件,2012,29(8):106-109. 被引量：20
4苏小红,张明杰,马培军,王亚东.CMAC神经网络碰撞问题解决方法的研究[J].计算机研究与发展,2006,43(5):862-866.
5英特尔 “屌丝”逆袭进行时[J].电脑爱好者,2013(6):22-23.
6张越.新选择戴尔Venue 8[J].个人电脑,2014(5):21-21.
7番番.强化资源管理器[J].电脑迷,2014,0(11):36-36.
8曹操.Bay Trail英特尔继续平板梦[J].电脑爱好者,2013(22):100-101.
9耿建光,李隆春,邓家禔.设计优化与过程自动化协同优化平台[J].航空制造技术,2004,47(9):49-53. 被引量：1
10庞丽萍,何飞跃,徐婕,岳建辉.PVFS寄生式元数据管理的设计与实现[J].计算机工程,2004,30(20):66-67. 被引量：1

计算机研究与发展

2014年第2期

浏览历史

内容加载中请稍等...

面向大数据分析的分布式文件系统关键技术被引量：72

参考文献28

二级参考文献24

共引文献15

同被引文献771

引证文献72

二级引证文献449

相关作者

相关机构

相关主题

浏览历史

面向大数据分析的分布式文件系统关键技术 被引量：72

参考文献28

二级参考文献24

共引文献15

同被引文献771

引证文献72

二级引证文献449

相关作者

相关机构

相关主题

浏览历史

面向大数据分析的分布式文件系统关键技术被引量：72