-
题名基于预测模型的HDFS集群负载均衡优化与研究
被引量:2
- 1
-
-
作者
于磊春
陈健美
刘响
胡杨
-
机构
江苏大学计算机科学与通信工程学院
-
出处
《计算机应用与软件》
北大核心
2018年第5期149-156,201,共9页
-
文摘
针对HDFS集群默认负载均衡策略中判定阈值的设定具有主观性、滞后性以及衡量指标单一性等问题,通过分析HDFS集群架构搭建、HDFS集群处理对象以及集群本身动态实时变化等特点,结合研究一些负载均衡策略中阈值改进算法,提出一种基于预测模型估算文件属性并结合集群属性综合计算阈值的方法,并将该方法计算出的阈值代入相应的负载均衡策略中进行负载优化。通过实验结果分析表明,提出的基于预估模型估算文件属性具有很高的准确性,并且基于预估模型的负载均衡策略对于集群负载的调整具有高效性,同时能够进一步缩短集群的作业执行响应时间,提高集群作业效率。
-
关键词
hdfs集群
预测模型
文件属性
集群属性
阈值
负载均衡
-
Keywords
hdfs cluster
Prediction model
File attributes
Cluster attributes
Threshold
Load balancing
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种跨HDFS集群的文件资源分布式高效存储方法
被引量:4
- 2
-
-
作者
戴威
-
机构
国网江苏省电力有限公司电力科学研究院
-
出处
《电子设计工程》
2019年第21期14-17,22,共5页
-
基金
江苏省科技厅项目(047800HK32180006)
-
文摘
针对传统文件资源存储方法存在存储效率低的问题,提出了一种跨HDFS集群的文件资源分布式高效存储方法。依据HDFS集群文件资源特征及存储原理,分析资源分布式存储的逻辑关系,保证文件资源存储环境安全。依据标准Hadoop布局方案,保持设备物理特性,对资源分布进行优化配置,实现文件资源存储自定义功能。通过文件合并、映射计算元数据在名字节点中内存损耗情况,设计高效存储过程,由此完成集群文件资源的分布式高效存储。在集群环境拓扑结构中进行实验验证,通过实验结果可知,该方法存储效率最高为98%,能够为文件资源安全存储提供技术支持。
-
关键词
跨hdfs集群
文件资源
分布式
高效存储
优化配置
-
Keywords
cross hdfs cluster
file resources
distributed
efficient storage
optimized configuration
-
分类号
TN18
[电子电信—物理电子学]
-
-
题名MapReduce实现的改进决策树
被引量:2
- 3
-
-
作者
柴志远
王小妮
-
机构
北京信息科技大学理学院
-
出处
《北京信息科技大学学报(自然科学版)》
2020年第6期14-18,共5页
-
基金
国家自然科学基金资助项目(61604014)。
-
文摘
针对某些数据集中不同属性对类别产生的影响程度有所不同,提出了属性权值的概念,用于改进C4.5决策树算法。通过计算得到不同属性在分类过程中对类别的重要程度,分别赋予不同属性不同的权值,以不同权值计算属性信息增益率,从而找到最佳决策属性;同时将算法运行在HDFS集群,通过Hadoop平台控制多台计算机同时处理待分类数据集,以并行的方式构造决策树。实验结果表明,改进的C4.5算法在处理不同属性对分类结果影响程度不同的数据时比传统C4.5算法具有更高的准确率,并且由于程序并行运行,能够更加高效地处理大型数据,具有很好的可扩展性。
-
关键词
C4.5算法
权值
hdfs集群
准确率
运行时间
大型数据
-
Keywords
C4.5 algorithm
weights
hdfs cluster
accuracy
running time
mass data
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-