纠删码存储系统中基于网络计算的高效故障重建方法被引量：6

An Efficient Failure Reconstruction Based on In-Network Computing for Erasure -Coded Storage Systems

下载PDF

导出

摘要目前分布式存储系统的规模越来越大,不论存储设备是磁盘还是固态盘,系统都始终面临着数据丢失的风险.传统分布式存储系统大多采用基于三副本的高可靠性技术,但为了追求较低的存储开销,大量系统正在转向基于纠删码的可靠性方法.但是在纠删码方案下,重建故障数据需要读取多个存储设备,这将导致大量的网络传输和存储I/O操作,增大系统恢复开销.为了能够在不损失其他性能的同时降低恢复开销,利用软件定义网络(software defined networking, SDN)技术,提出一种基于网络计算的高效故障重建方案——网络流水线(in-network pipeline, INP),其中SDN控制器利用网络的全局拓扑信息构造重建树,系统依据重建树进行数据传输,并在交换机上完成部分计算,减少向后传输的网络流量,从而消除网络瓶颈,提升恢复性能.测试评估了不同网络带宽下INP的恢复效率.实验结果表明:与传统的纠删码系统相比,INP总是能大幅减少网络流量,并且在一定带宽条件下,能够接近正常读的时间开销. Nowadays,the scale of distributed storage systems is getting increasingly larger.No matter whether the storage devices are disks or solid-state drives,the system is always faced with the risk of data loss.Traditional storage systems maintain three copies of each data block to ensure high reliability.Today,a number of distributed storage systems are increasingly shifting to the use of erasure codes because they can offer higher reliability and lower storage overhead.The erasure codes,however,have an obvious shortcoming in the reconstruction of an unavailable block,because they need to read multiple disks,which results in a large amount of network traffic and disk operations and ultimately high recovery overhead.In this paper,INP(in-network pipeline),an effective failure reconstruction scheme based on in-network computing that utilizes SDN(software defined networking)technology is presented in order to reduce the overhead of recovery without sacrificing any other performance.We use the global topology information for network from SDN controller to establish the tree of reconstruction,and transmit data according to it.The switches do part of the calculation that can reduce the network traffic,therefore to eliminate the bottleneck of the network,and to enhance the recovery performance.We evaluate the recovery efficiency of INP in different network bandwidths.Compared with the common erasure code system,it greatly reduces the network traffic and in a certain bandwidth,the degraded read time is the same as that of normal reading.

作者唐英杰王芳谢燕文 Tang Yingjie;Wang Fang;Xie Yanwen(Wuhan National Laboratory for Optoelectronics(Huazhong University of Science and Technology),Wuhan 430074;Key Laboratory of Information Storage System(Huazhong University of Science and Technology),Ministry of Education,Wuhan 430074;Shenzhen Huazhong University of Science and Technology Research Institute,Shenzhen,Guangdong 518000)

机构地区武汉光电国家研究中心(华中科技大学) 信息存储系统教育部重点实验室(华中科技大学) 深圳华中科技大学研究院

出处《计算机研究与发展》 EI CSCD 北大核心 2019年第4期767-778,共12页 Journal of Computer Research and Development

基金国家自然科学基金项目(61772216) 武汉应用基础研究计划项目(2017010201010103) 深圳市科技计划项目(JCYJ20170307172248636) 中央高校基本科研业务费专项资金国防预研项目(31511010202)~~

关键词分布式存储系统纠删码软件定义网络恢复开销网络计算 distributed storage system erasure code software defined networking(SDN) recovery overhead in-network computing

分类号 TP309.3 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012,49(1):1-11. 被引量：91

二级参考文献38

1Layman P, Varian H R. How much information 2003? [EB/OL]. [2010 10-18]. http://www2, sims. berkeley. edu/research/proiects/how-mueh-info-2003.
2Pinheiro E, Weber W D, Barroso L A. Failure trends in a large disk drive population [C] //Proc of the 5th USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2007 : 17-28.
3Schroeder B, Gibson G A. Disk failures in the real world: What does an MTTF of 1,000,000 hours mean to you? [C] //Proc of the 5th USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2007: 1-16.
4Bairavasundaram L N, Goodson G R, Pasupathy S, et al. An analysis of latent sector errors in disk drives [C]//Proc of 2007 ACM SIGMETRICS Int Conf on Measurement and Modeling of Computer Systems. New York: ACM, 200: 289-300.
5Hafner J M, Deenadhayalan V, Rao K, et al. Matrix methods for lost data reconstruction in erasure codes [C] // Proc of the 4th USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2005: 183-196.
6Hafner J M, Deenadhayalan V, Kanungo T, et al. Performance metrics for erasure codes in storage systems, RJ 10321 [R]. San Jose, [A] IBM Research, 2004.
7Li M, Shu J, Zheng W. GRID Codes: Strip based erasure codes with high fault tolerance for storage systems [J].ACM Transon Storage, 2009, 4(4): 1-22.
8Blaum M, Brady J, Bruek J, et al. EVENODD: An efficient scheme for tolerating double disk failures in RAID architectures [J].IEEE Trans on Computer, 1995, 44 (2) 192-202.
9Corbett P, English B, Goel A, et al. Row-diagonal redundant for double disk failure correction [C] //Proc of the 3rd USENIX Conf on File and Storage Technologies. Berkeley, CA: USENIX Association, 2004:2-15.
10Xu L, Bruck J. X-code: MDS array codes with optimal encoding[J]. IEEE Trans on Information Theory, 1999, 45 (1) : 272-276.

共引文献90

1许方亮,王意洁,裴晓强.NTar:基于网络拓扑的纠删码树型修复方法[J].计算机研究与发展,2013,50(S2):37-44. 被引量：2
2黄显霞,李挥,张宇蒙,侯韩旭,周泰,郭涵,张华宇.基于二元再生码的大数据存储系统研究[J].计算机研究与发展,2013,50(S2):54-63. 被引量：1
3万武南,索望,陈运,王拓.基于X-RDP阵列码的一种数据分布策略[J].通信学报,2013,34(S1):67-75. 被引量：2
4杨进,王亮明,唐德玉.RS纠删码在电子健康档案云存储中的应用[J].广东药学院学报,2012,28(4):448-450.
5宋秀丽,陈龙,肖敏.云存储中支持XOR旋转编码的可恢复性验证方案[J].重庆邮电大学学报（自然科学版）,2012,24(6):682-686. 被引量：1
6范捷,易乐天,舒继武.拜占庭系统技术研究综述[J].软件学报,2013,24(6):1346-1360. 被引量：100
7李琳琳,王庆超,姚超,李钊.云存储中的数据冗余策略研究[J].无线电工程,2013,43(9):1-3. 被引量：5
8万武南,王拓,索望.一种三容错数据布局[J].电子与信息学报,2013,35(10):2341-2346. 被引量：2
9万武南,索望,王拓,杨威.一种新的三容错最大距离可分阵列码[J].小型微型计算机系统,2013,34(10):2267-2271. 被引量：1
10郑胜,李通.一种应用于大规模存储系统的数据分布算法[J].计算机科学,2013,40(11A):270-273. 被引量：2

同被引文献31

1罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012,49(1):1-11. 被引量：91
2张明武,杨波,TAKAGI Tsuyoshi.抗主密钥泄露和连续泄露的双态仿射函数加密[J].计算机学报,2012,35(9):1856-1867. 被引量：7
3杜芸芸.一种面向纠删码技术的云存储可靠性机制[J].计算机应用与软件,2014,31(2):312-316. 被引量：6
4陈丽娟,吴甜恬,柳惠波,黄国英,许晓慧.基于需量管理的两阶段大用户储能优化模型[J].电力系统自动化,2019,43(1):194-200. 被引量：38
5王意洁,许方亮,裴晓强.分布式存储中的纠删码容错技术研究[J].计算机学报,2017,40(1):236-255. 被引量：55
6陈亮,张景中,滕鹏国,王晓京.随机二元扩展码:一种适用于分布式存储系统的编码[J].计算机学报,2017,40(9):1980-1995. 被引量：4
7傅颖勋,文士林,马礼,舒继武.纠删码存储系统单磁盘错误重构优化方法综述[J].计算机研究与发展,2018,55(1):1-13. 被引量：15
8李文杰,陈静锋,郭崇慧,石研,樊新,刘剑锋.基于AP聚类和集合覆盖模型的农电营业区域电费缴纳点选址研究[J].数学的实践与认识,2018,48(7):102-110. 被引量：6
9孙源,臧婷婷,姜峰.大数据背景下企业电力用户负荷特性分析[J].统计与决策,2018,0(8):186-188. 被引量：7
10刘科研,吴心忠,石琛,贾东梨.基于数据挖掘的配电网故障风险预警[J].电力自动化设备,2018,38(5):148-153. 被引量：44

引证文献6

1方小松,周子成.生长抑素、垂体后叶素治疗食管静脉曲张破裂出血的疗效比较[J].第三军医大学学报,2000,22(5):469-469.
2严新成,陈越,巴阳,贾洪勇,朱彧.云环境下支持可更新加密的分布式数据编码存储方案[J].计算机研究与发展,2019,56(10):2170-2182. 被引量：24
3包涵,王意洁,许方亮.基于生成矩阵变换的跨数据中心纠删码写入方法[J].计算机研究与发展,2020,57(2):291-305. 被引量：6
4李慧,李贵洋,胡金平,周悦,江小玉,韩鸿宇.基于分布式存储的OHitchhiker码[J].计算机工程与设计,2020,41(7):1941-1946. 被引量：1
5杨浩,李竣业.电力用户多渠道自动缴费习惯预判预警系统设计[J].信息技术,2021,45(3):155-160.
6张钦宇,张智凯,安丽荣,杨君一,张瑞.面向天基数据中心的编码修复数据流调度[J].移动通信,2023,47(7):21-26.

二级引证文献31

1陈力,臧笑宇,黄锋涛.数据篡改攻击下配电网数据传输加密研究[J].信息技术,2020,44(6):56-59. 被引量：10
2陈建兵,梁立,叶志霞.有限拓扑的编码算法[J].云南师范大学学报（自然科学版）,2020,40(5):42-46.
3梁永坚,韦田,黎锐杏.融合多特征的云存储中分类分级数据加密方法[J].网络安全技术与应用,2021(2):35-36. 被引量：1
4王学周.多跳网络中多通道敏感数据全同态加密方法研究[J].内蒙古民族大学学报（自然科学版）,2021,36(1):25-30.
5蒋岑,吴迪.隐蔽无线通信网络传输信息云存储密文检索[J].计算机仿真,2021,38(6):125-128. 被引量：14
6张人上,邱久睿.基于混沌系统的扩频通信多源异构数据加密算法[J].火力与指挥控制,2021,46(8):162-166. 被引量：25
7张旭华,李欣.树结构网络数据链路层节点缓存资源协同存储算法[J].自动化技术与应用,2021,40(10):77-80.
8钟丽娜,郑新波,莫建坤,罗志恒,陈波,易哲,黄龙,朱伟杰,冯剑锋,罗焕泉.输血信息管理系统上全自动血型配血分析仪数据的构建与应用[J].检验医学与临床,2021,18(21):3164-3167. 被引量：3
9赵文瑄,Byung-Won Min.大数据中心处理系统性能优化问题研究[J].自动化与仪器仪表,2021(11):107-110.
10钟丽娜,郑新波,莫建坤,罗志恒,陈波,易哲,黄龙,朱伟杰,冯剑锋,罗焕泉.云密钥及移动签署管理系统在输血信息管理系统中的应用与思考[J].国际检验医学杂志,2021,42(23):2935-2938. 被引量：1

1王淑霞,余春雷.基于Fano图的局部循环码构造[J].信息通信,2019,32(1):30-31.
2李文生.多层螺旋CT不同重建方法在骨关节创伤中的应用效果比较[J].健康之路,2018(10):5-5.
3何功银,唐清善.视频中控平台设计与可靠性方法研究[J].电子世界,2019,0(2):46-48. 被引量：1
4孙佳,肖杨.网络环境下计算机数据安全问题的探讨探索构架[J].数码世界,2018(11):240-240.
5陈卫亮,刘江祖,张金永.提高计算机网络可靠性的方法研究[J].电脑迷,2018(5):35-36.
6吴若乾,周勇,陈振武.基于渗流理论的城市交通网络瓶颈识别研究[J].城市交通,2019,17(1):96-101. 被引量：5
7黄会荣.循证护理在小儿手足口病合并脑炎护理中的应用效果分析[J].世界最新医学信息文摘,2018,18(75):280-280. 被引量：3
8谭鹏,杨洪耕,马晓阳,徐方维.计及风电场侧谐波阻抗影响的谐波发射水平评估[J].电力自动化设备,2019,39(4):167-173. 被引量：16
9马平,张勇,苏攀杰,刘胜旺.基于ARM嵌入式AGV的避障系统设计[J].机床与液压,2019,47(5):61-64. 被引量：4
10王和康,王洋,王锦鹏,母宝红,须成忠.基于多云服务器的企业网盘设计与实现[J].集成技术,2019,8(2):23-36. 被引量：2

计算机研究与发展

2019年第4期

浏览历史

内容加载中请稍等...

纠删码存储系统中基于网络计算的高效故障重建方法被引量：6

参考文献1

二级参考文献38

共引文献90

同被引文献31

引证文献6

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

纠删码存储系统中基于网络计算的高效故障重建方法 被引量：6

参考文献1

二级参考文献38

共引文献90

同被引文献31

引证文献6

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

纠删码存储系统中基于网络计算的高效故障重建方法被引量：6