云计算数据中心HDFS差异性存储节能优化算法被引量：26

HDFS Differential Storage Energy-Saving Optimal Algorithm in Cloud Data Center

下载PDF

导出

摘要摘要在云计算的基础设施———数据中心内,Hadoop分布式文件存储系统(Hadoop Distributed File System,HDFS)以高容错性、高可靠性、高可扩展性的优势被广泛使用.但HDFS中遵循机架感知的存储策略没有考虑数据间的差异性和使用频度,所有数据以相同副本数复制后分散存储在不同的DataNode节点中,这势必会开启过多的DataNode而导致数据中心能耗过高.针对这一问题,突破现有HDFS对数据块的恒定副本个数存储的限制,提出保证数据块可用性的可变副本存储策略.建立了分布式文件存储超图模型,数学表述了数据块、文件和DataNode间的多对多关系.基于模型提出一种■横贯超边计算方法实现数据中心HDFS可变■重极小覆盖集选择,从而确定保证数据可用性的最小数量DataNode开启集合,实现数据中心存储单元节能.在原问题的可行域中会存在多个最优解的情况,即在满足数据块■覆盖的条件下,存在开启DataNode数目最少且相等的多种方案,因此该问题是一个多态函数优化问题,该文提出采用贪心萤火虫算法加以求解.算法性能测试实验通过Hadoop环境下的WordCount、TeraSort和Grep三种典型计算实例运算实验,进行了数据可用性实验,HDFS集群存储负载均衡实验,集群能耗分析以及数据中心网络性能试验.实验结果表明,可变■数据副本最小覆盖集算法在保证数据块和文件可用的条件下,可以实现更少的DataNode开启,有效节省HDFS集群能耗,并且通过开启DataNode的合理配置,缓解了网络传输拥塞. In Data center, as the infrastructure of Cloud, Hadoop Distributed File System (HDFS) have been widely used for handling large amounts of data due to their excellent performance in terms of fault tolerance, reliability and scalability. Large size of files stored in the HDFS - based datacenter are split into a number of small size of data blocks, and the default size of each data block is 64M. In order to improve the reliability of data blocks, HDFS creates multiple replicas for each data block in the datacenter. The replicas and the original data blocks will be stored in different data nodes according to the rack-aware storage strategy. With this strategy, if any kind of failure happens to a data node, the availability of data hosted on this physical machine can be guaranteed since its replicas can still be retrieved from other data nodes. However, these storage systems usually adopt the same replication and storage strategy to guarantee data availability, i.e. creating the same number of replicas for all data sets and randomly storing them across data nodes. Such strategies do not fully consider the difference requirements of data availability on different data sets. More servers than necessary should thus be used to store replicas of rarely-used data, which will lead to increased energy consumption. With the increasing number of datacenters built around the world to maintain cloud computing capabilities, huge amount of electricity bills have to face. To address this issue, this paper studies the HDFS differential storage energy-saving optimal algorithm applying in Cloud Data center. Breaking through the limitation of the constant number of replicas in existing storage methods, we propose a variable number of active replicas storage strategy for each data block according to user requirements of data availability. Firstly, this paper develops a novel hypergraph-based storage model for Cloud data centers, which can precisely represent the many-to-many relationship among files, data blocks, data racks, and data nodes. Based on the hypergraph-based storage model, a κ-transverse hyperedge algorithm is proposed to calculate the minimum set of data nodes variable κ covering. Because of just running the minimum number of required data nodes, it can not only save energy for the datacenter, but also maintain full functionality. Analyzing this optimal problem, there is more than one optimal solution in the feasible region. That is, there are multi-solutions with the minimum and equal number of active data nodes to satisfy the data blocks κ-coverage constraints. It is a polymorphic function optimizal problem, and this paper proposed a greedy firefly algorithm to solve it. We have also implemented our proposed algorithm in a HDFS based prototype datacenter with WordCount, TeraSort, and Grep cloud computing cases for performance evaluation, and the four different aspects, namely, data availability, load balance, energy consumption and network performance of the data center are analyzed. Experimental results show that the variable hypergraph coverage based strategy can not only reduce energy consumption with less number of data nodes active, but can also relieve the delivery congestion problem in data center network.

作者杨挺王萌张亚健赵英杰盆海波 YANG Ting;WANG Meng;ZHANG Ya-Jian;ZHAO Ying-Jie;PEN Hai-Bo(School of Electrical and Information Engineering, Tianjin University, Tianjin 300072)

机构地区天津大学电气自动化与信息工程学院

出处《计算机学报》 EI CSCD 北大核心 2019年第4期721-735,共15页 Chinese Journal of Computers

基金国家自然科学基金(61571324) 天津市自然科学基金重点项目(16JCZDJC30900) 国家国际科技合作专项(2013DFA11040)资助~~

关键词云计算数据中心分布式文件存储系统节省能量超图 κ横贯 cloud data center distributed file storage system energy-saving hypergraph κ-transverse

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1郭华东,王力哲,陈方,梁栋.科学大数据与数字地球[J].科学通报,2014,59(12):1047-1054. 被引量：136
2冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258. 被引量：727
3宋宝燕,王俊陆,王妍.基于范德蒙码的HDFS优化存储策略研究[J].计算机学报,2015,38(9):1825-1837. 被引量：18
4谷立静,周伏秋,孟辉.我国数据中心能耗及能效水平研究[J].中国能源,2010,32(11):42-45. 被引量：111

二级参考文献36

1董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
2姜传贤,孙星明,易叶青,杨恒伏.基于JADE算法的数据库公开水印算法的研究[J].系统仿真学报,2006,18(7):1781-1784. 被引量：9
3赛迪顾问股份有限公司.2009-2010年中国数据中心IT应用市场研究年度报告[R].北京,2010.
4赛迪顾问股份有限公司.2009-2010年中国X86服务器市场研究年度报告[R].北京,2010.
5赛迪顾问股份有限公司.2009-2010年中国Non-X86服务器市场研究年度报告[R].北京,2010.
6洪钊峰,大公.2008-2009年服务器新技术应用状况调查[EB/OL].http://server.it168.com/a2009/0116/2631000000263296-1.shtml,2009-01-19.
7U.S.Environmental Protection Agency.Report to Congress on Server and Data Center Energy Efficiency-public law 109-431[R].Washington,2007.
8Koomey,J.G..Estimating total power consumption by servers in the U.S.and the world[EB/OL].http://enterprise.amd,com/Downloads/svrpwrusecompletefinal.pdf,2007-02-15.
9X. Feng,J. C. Zhao,K. Xu.Link prediction in complex networks: a clustering perspective[J].The European Physical Journal B.2012(1)
10Vaidya, Jaideep,Atluri, Vijayalakshmi,Warner, Janice,Guo, Qi.Role Engineering via Prioritized Subset Enumeration[J].IEEE Transactions on Dependable and Secure Computing.2010(3)

共引文献986

1张旭昱,李琛.基于“隐私悖论”的社交媒体用户隐私保护探究[J].新媒体研究,2023,9(7):50-53.
2娄豪,李晓东,刘晶,金鑫.物流用户隐私信息保护系统[J].北京电子科技学院学报,2019,27(4):18-25. 被引量：1
3操凡.云环境下金融通信信息安全的加密技术研究[J].中国新通信,2020,22(3):44-45.
4刘闯,郭华东,Paul F.Uhlir,葛全胜,周翔,石瑞香,龚克,Mable Imbuga,顾行发,Mika Odido,廖小罕,陈军,Tomoko Doko,陈文波,Simon Hodson,Jean-Bernard Minster,Edith Madela-Mntla,Nordin Hasan,江东,诸云强,王长林,Peter Wittenburg,褚文博,徐新良,何书金,吕婷婷,R.B.Singh,Vladimir Tikunov,王桥.发展中国家数据出版基础设施与共享政策研究[J].全球变化数据学报（中英文）,2017(1):3-11. 被引量：9
5陈熠,王仲,任瑞瑞.大数据时代下对个性化服务的伦理思考[J].计算机产品与流通,2019,0(12):261-262.
6武根峰,钟安琪,毛晓峰,李冉,唐艳南.数据中心制冷空调系统能效评价指标研究[J].暖通空调,2024,54(S01):278-280.
7武根峰,李冉,张持,毛晓峰,唐艳南,刘广兰.数据中心余热利用实例分析与研究[J].暖通空调,2023,53(S01):428-429. 被引量：2
8张玉燕,孙海峰,郑竺凌,王安光,任群.上海地区水冷地板送风冷通道封闭数据中心机房气流组织优化研究[J].暖通空调,2022,52(S01):209-215. 被引量：3
9陈飞虎,周新力,廖曙光.重力热管双循环空调在夏热冬冷地区应用的节能率分析[J].暖通空调,2021,51(S01):152-155. 被引量：2
10杜超,张梅奎.开展远程医学随访服务的应用研究[J].科技新时代,2019,0(3):43-45.

同被引文献246

1包沙如拉,孙鹏.海云协同媒体服务的副本分发管理子系统设计[J].网络新媒体技术,2020(3):56-60. 被引量：1
2张自力,秦其明,董开发,张泽勋,贾兵.基于ArcSDE的空间数据库设计与实现[J].微计算机信息,2007,23(33):133-135. 被引量：18
3宋杰,王大玲,鲍玉斌,申德荣.基于页面Block的Web档案采集和存储[J].软件学报,2008,19(2):275-290. 被引量：12
4廖贤达,姚学民,黄学忠.行业气象服务要点探讨[J].气象研究与应用,2008,29(4):86-89. 被引量：33
5贺玲,蔡益朝,杨征.高维数据聚类方法综述[J].计算机应用研究,2010,27(1):23-26. 被引量：42
6陈斌,白晓颖,马博,黄俊飞.分布式系统可伸缩性研究综述[J].计算机科学,2011,38(8):17-24. 被引量：10
7黄立勤,柳燕煌.基于MapReduce并行的Apriori算法改进研究[J].福州大学学报（自然科学版）,2011,39(5):680-685. 被引量：19
8王皓,李小勇.分布式存储系统中客户端的设计与实现[J].微型电脑应用,2012,28(2):9-12. 被引量：7
9王晶,方伟,陈静怡,吴杰.云计算环境下的自适应资源管理技术综述[J].计算机工程与设计,2012,33(6):2127-2132. 被引量：11
10钱琼芬,李春林,张小庆,李腊元.云数据中心虚拟资源管理研究综述[J].计算机应用研究,2012,29(7):2411-2415. 被引量：54

引证文献26

1赵欣灿,朱云,毛伊敏.基于MapReduce的Apriori算法增量挖掘[J].计算机应用研究,2020,37(S02):73-75. 被引量：6
2方勤敏,刘小燕,刘少山.我国南方林区树木采种现状及发展趋势研究[J].湖南林业科技,2000,27(1):1-4. 被引量：1
3蒲勇霖,于炯,鲁亮,李梓杨,卞琛,廖彬.基于Storm平台的数据迁移合并节能策略[J].通信学报,2019,40(12):68-85. 被引量：7
4王雪蓉,万年红.云模式事件混沌关联特征提取的物联网大数据聚类算法[J].计算机应用研究,2021,38(2):391-397. 被引量：8
5邹昊东,王鹏飞,陶晔波,陈海洋,吉明涛,钱柱中.面向大数据处理的数据中心节能调度策略研究[J].电力信息与通信技术,2021,19(3):34-42. 被引量：3
6颜烨,张学文,王立婧.基于迭代MapReduce的混合云大数据分析[J].计算机工程与设计,2021,42(4):1028-1035. 被引量：4
7罗莉霞,蒋盛益.基于MapReduce的相似矩阵并行构造[J].计算机工程与设计,2021,42(5):1368-1375. 被引量：1
8刘苏英.分布式文件存储系统在电子通信大数据存储中的应用[J].九江学院学报（自然科学版）,2021,36(2):78-80. 被引量：3
9任如广.基于云计算的数据备份系统研究与设计[J].信息与电脑,2021,33(13):165-167.
10蒲勇霖,于炯,鲁亮,李梓杨,卞琛,廖彬.Storm平台下的线程重分配与数据迁移节能策略[J].软件学报,2021,32(8):2557-2579. 被引量：9

二级引证文献72

1任建桥,宋威,刘泽才.电力数据库信息密度划分的存储风险监测方法研究[J].仪器仪表用户,2024,31(4):110-112.
2程群,陈为刚,巩峰,王伟.基于纠删码的海洋无线传感器网络丢包恢复方法[J].电子测量与仪器学报,2020,32(11):84-92. 被引量：2
3帅爱华,陈烨.基于代码保护的分布式系统可信数据自动筛选系统研究[J].自动化与仪器仪表,2019,0(12):26-29. 被引量：2
4李梓杨,于炯,王跃飞,卞琛,蒲勇霖,张译天,刘宇.Flink环境下基于负载预测的弹性资源调度策略[J].通信学报,2020,41(10):92-108. 被引量：5
5霍延军.基于大数据的RFID物联网聚类分析原型系统研究[J].单片机与嵌入式系统应用,2020,20(11):17-20. 被引量：2
6颜海涛,郭慈,曾冠华.企业级大数据平台超远距离异地双活研究[J].信息通信,2020(11):58-60.
7蒲勇霖,于炯,鲁亮,李梓杨,国冰磊,廖彬.基于Storm平台的数据恢复节能策略[J].计算机研究与发展,2021,58(3):479-496. 被引量：3
8孙想,吴华瑞,郭旺,李庆学,彭程.数字乡村大数据平台设计与应用[J].江苏农业科学,2021,49(18):181-188. 被引量：9
9潘启龙,唐继新,牛长海,杨桂芳,郝建,陈健全.南方林区高空作业装备现状、发展趋势及对策探讨[J].林业科技通讯,2021(9):13-17.
10孙克玉.Apriori算法在广播电视发射故障诊断中的应用[J].电脑编程技巧与维护,2022(1):48-50. 被引量：1

1柯荣芳.浅论电力系统中电气自动化控制技术的运用[J].信息周刊,2018,0(27):94-94.
2李吉霖.好运连年的秘诀[J].政工导刊,2018,0(2):64-65.
3董亮,雷良育,李雪原,刘兵,郑慧峰.基于古卡变换的锂电池主动均衡电路设计[J].电源技术,2018,42(12):1835-1836. 被引量：3
4谷海彤,崔卓,吴晓强,蔡妙妆,李韫莛.一种计量自动化系统的无线传感器网络路由优化算法研究[J].能源与环保,2018,40(3):189-193. 被引量：1
5曾光辉,唐国强.大数据环境下并行数据传输完整度控制方法[J].计算机测量与控制,2018,26(6):176-179. 被引量：2
6林清滢,徐林,陆锡聪.兼顾网络带宽的节能云数据副本布局算法[J].科学技术与工程,2019,19(5):172-178. 被引量：1
7刘红锐,杜春峰,李博,陈仕龙,郭奕旋.一种基于混合斩波电路的蓄电池组高速能量均衡器的研究[J].电工技术学报,2018,33(A02):472-478. 被引量：11
8王旸,蔡淑琴,邹新文,陈梓桐.质量嵌入的大数据产品生产系统超图模型及其生产线决策研究[J].计算机科学,2019,46(2):11-17.
9高元照,李炳龙,陈性元.基于MapReduce的HDFS数据窃取随机检测算法[J].通信学报,2018,39(10):11-21. 被引量：2
10王丹丹,徐汀荣.基于方向梯度的WSN三维覆盖策略[J].计算机应用与软件,2017,34(9):138-141. 被引量：1

计算机学报

2019年第4期

浏览历史

内容加载中请稍等...

云计算数据中心HDFS差异性存储节能优化算法被引量：26

参考文献4

二级参考文献36

共引文献986

同被引文献246

引证文献26

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

云计算数据中心HDFS差异性存储节能优化算法 被引量：26

参考文献4

二级参考文献36

共引文献986

同被引文献246

引证文献26

二级引证文献72

相关作者

相关机构

相关主题

浏览历史

云计算数据中心HDFS差异性存储节能优化算法被引量：26