一种优化的Hadoop数据放置策略被引量：1

An Optimized Hadoop Data Placement Strategy

下载PDF

导出

摘要 Hadoop分布式文件系统(HDFS)的默认数据块放置策略均衡了数据存储的可靠性和读写速度,却没有考虑发挥集群的最佳性能。针对该问题提出了一种优化后的数据块放置算法。该算法为数据块设计2个指标,即被查询率与平均读取时间,用于评估集群执行任务对数据块的需求量。在符合HDFS默认数据放置算法基本规则的前提下,通过对数据块的需求量进行分析,然后重新计算数据块的放置位置,将需求量最多的数据转移到能够最快处理它们的节点上。通过实验数据证明:该算法可以使集群整体性能提高20%以上。优化后的数据块放置算法是有效的,并且不会增加对集群带宽的占用。 The default data chunk placement strategy of Hadoop Distributed File System(HDFS)balances the reliability of data storage and read/write speed,but does not consider the optimal performance of the cluster.The paper proposes an optimized data placement algorithm to address this issue.Two indicators for data chunks,namely query rate and average read time are designed in this algorithm,to evaluate the demand of data chunks for cluster execution tasks.On the premise of meeting the basic rules of HDFS default placement algorithm,the data with the highest demand are transferred to the node that can process them the fastest,by analyzing the demand of chunks and recalculating their placement.Experimental data show that the algorithm can improve the overall performance of the cluster by more than 20%.The optimized data chunk placement algorithm is effective and will not increase the utilization of cluster bandwidth.

作者吴岳 WU Yue(State Forestry and Grassland Administration Industrial Development Planning Institute,Beijing 100010,China)

机构地区国家林业和草原局产业发展规划院

出处《软件工程》 2023年第7期44-47,共4页 Software Engineering

关键词 HDFS 数据块放置策略性能优化 HDFS data chunks placement strategy performance optimization

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1石方夏,高屹.Hadoop大数据技术应用分析[J].现代电子技术,2021,44(19):153-157. 被引量：21
2张黎平,段淑萍,俞占仓.基于Hadoop的大数据处理平台设计与实现[J].电子测试,2022,36(20):74-75. 被引量：7
3周晴红.基于Hadoop的海量数据存储平台设计[J].无线互联科技,2022,19(17):69-72. 被引量：1
4王思霖.基于Hadoop的日志数据处理系统[J].信息与电脑,2022,34(7):26-28. 被引量：2
5乔永峰,孙承秀,孙玉强.虚拟机环境下Hadoop集群部署与简化配置的研究与实现[J].工业控制计算机,2021,34(9):130-131. 被引量：5
6苟子安,张晓,吴东南,王艳秋.分布式存储系统中的日志分析与负载特征提取[J].计算机应用,2020,40(9):2586-2593. 被引量：13
7吴金坛,章超,李树楠.大数据计算与存储分离技术实验分析[J].电脑知识与技术,2020,16(27):24-27. 被引量：1
8袁爱平,陶志勇,邓河,陈为满.云计算环境中HDFS数据块存储策略研究[J].电脑知识与技术,2020,16(26):33-35. 被引量：5
9李玥.基于HDFS的动态负载均衡方法研究[J].信息与电脑,2021,33(3):68-72. 被引量：1

二级参考文献29

1张平.并行计算模型MapReduce的工作原理探究[J].吉林广播电视大学学报,2021(6):154-157. 被引量：3
2马一力,傅湘林,韩晓明,许鲁.存储与计算的分离[J].计算机研究与发展,2005,42(3):520-530. 被引量：21
3蔡静.Hadoop平台的研究及其改进[J].计算机光盘软件与应用,2014,17(5):146-147. 被引量：2
4肖玉泽,张利军,潘巍,张小芳,李战怀.HDFS下海量小文件高效存储与索引方法[J].小型微型计算机系统,2015,36(10):2218-2223. 被引量：5
5王伟,陶然.基于虚拟化技术的Hadoop集群搭建与应用[J].软件导刊,2016,15(4):50-54. 被引量：3
6张丽媛.一种分布式文件系统—HDFS[J].电脑编程技巧与维护,2016(21):11-13. 被引量：1
7杨云海,章芬芬.使用虚拟机搭建Hadoop3.0集群安装环境[J].现代信息科技,2018,2(10):99-101. 被引量：2
8郭帅.浅析大数据特点及发展趋势[J].信息与电脑,2016,28(2):25-26. 被引量：7
9李强,孙震宇,孙功星.一种面向HDFS的数据随机访问方法[J].计算机工程与应用,2017,53(10):1-7. 被引量：5
10Xiaonian Wu,Chuyun Zhang,Runlian Zhang,Yujue Wang,Jinhua Cui.A Distributed Intrusion Detection Model via Nondestructive Partitioning and Balanced Allocation for Big Data[J].Computers, Materials & Continua,2018(7):61-72. 被引量：4

共引文献46

1陆明远,张帆.基于私有区块链的分布式信息安全系统设计[J].电子设计工程,2021,29(7):54-57. 被引量：7
2李卫兵,曾泽熠,曾强.面向混合数据源的企业数据库私有云设计[J].电力大数据,2021,24(2):27-33. 被引量：2
3石方夏,高屹.Hadoop大数据技术应用分析[J].现代电子技术,2021,44(19):153-157. 被引量：21
4赵文瑄,Byung-Won Min.大数据中心处理系统性能优化问题研究[J].自动化与仪器仪表,2021(11):107-110.
5李晶,黄杰,袁慧,朱国威,张先飞,王新年.大数据环境下网络威胁可视化分析系统设计与实现[J].中南民族大学学报（自然科学版）,2022,41(1):79-86. 被引量：11
6刘海,宋阳阳,王宝,孙瑞霜,苏云飞,于改露.基于Hadoop的购物行为分析系统的设计与实现[J].河南科技,2021,40(28):25-27. 被引量：2
7刘海,王晓钰,王政为,乔昭源,王星祎.基于Hadoop的大数据职位分析系统的设计与实现[J].信息与电脑,2022,34(1):110-112. 被引量：1
8尹正,周圣文,张刚.基于非结构化的数据管理探究[J].信息通信技术与政策,2022(3):92-96. 被引量：2
9汪普庆,邓春华,陈鑫源.激光点云数据库分布式存储模型构建[J].激光杂志,2022,43(2):129-133.
10奚增辉,王卫斌,苏鹏涛,姚嵘,沈邵骏.基于高斯混合模型聚类的低电压用户缴费特征提取[J].电子设计工程,2022,30(12):171-175.

同被引文献4

1李耘书,滕飞,李天瑞.基于微操作的Hadoop参数自动调优方法[J].计算机应用,2019,39(6):1589-1594. 被引量：3
2郑灵逸,李擎.一种基于HiveSQL的增加任务并行度与建立中间表组合的优化查询方法[J].现代计算机,2021,27(36):55-59. 被引量：3
3黄志,苏传程,苏晓红.大数据环境下Spark性能优化分析研究与应用[J].气象科技,2022,50(1):51-58. 被引量：9
4朱锐,王宏志,崔双双,张恺欣,燕钰.面向元宇宙的云边端协同大数据管理[J].大数据,2023,9(1):63-77. 被引量：6

引证文献1

1王冀彬,杨海龙,冯凯,孙欣,张敏达,雷克伦,肖智文,张逸飞,吴佳熙.面向大数据场景的系统性能优化实践[J].大数据,2024,10(4):21-33.

1刘晓玉,刘韵婷,郭辉.基于堆叠循环沙漏网络的多视角立体重建[J].通信与信息技术,2023(3):37-42.
2谢芳.基于TLD-KCF算法的运动视频目标跟踪技术研究[J].现代科学仪器,2023,40(1):160-165. 被引量：1
3郝宽公,董兵,杨轲,吴悦,彭自琛.基于弹道下降方式的无人机风险评估与航路规划[J].科学技术与工程,2023,23(10):4367-4374.
4饶潇潇.医之行止以德为纲[J].中国医学人文,2023,9(6):5-7.
5孙秀婕,葛欣竹,唐征.Spark大数据技术在电信行业中的应用探究[J].电信快报,2023(6):16-20.
6杨睿豪.金融化对非金融上市企业投资效率的成因分析[J].商展经济,2023(12):69-71.
7朱欣怡,张宇.基于NDN的移动自组织网络协助边缘缓存策略[J].系统工程与电子技术,2023,45(7):2227-2235.
8陈艳欣,林韦康,康乐.Talon Smart愈创锰抗皮肤衰老作用研究[J].广东化工,2023,50(12):67-70.
9无.习近平用典[J].老人世界,2023(4):67-67.
10胡正兴,朱建军,张其生,张步勇,柴帅,钱创造,孟雨航,赵亚峰.大功率甲醇发动机爆震的仿真分析与研究[J].可再生能源,2023,41(5):578-585. 被引量：2

软件工程

2023年第7期

浏览历史

内容加载中请稍等...

一种优化的Hadoop数据放置策略被引量：1

参考文献9

二级参考文献29

共引文献46

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种优化的Hadoop数据放置策略 被引量：1

参考文献9

二级参考文献29

共引文献46

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种优化的Hadoop数据放置策略被引量：1