-
题名基于索引偏移的MapReduce聚类负载均衡策略
被引量:6
- 1
-
-
作者
周华平
刘光宗
张贝贝
-
机构
安徽理工大学计算机科学与工程学院
-
出处
《计算机科学》
CSCD
北大核心
2018年第5期303-309,共7页
-
基金
国家自然科学基金(51174257)
安徽理工大学矿业企业安全管理研究中心招标项目(SK2015A084)
安徽省高校优秀青年人才支持计划项目资助
-
文摘
MapReduce作为一种分布式编程模型,被广泛应用于大规模和高维度数据集的处理中。其采用原始Hash函数划分数据,当数据分布不均匀时,常会出现数据倾斜的问题。基于MapReduce的聚类算法,需要多次迭代且不清楚各阶段Reduce的输入数据分布,因此现有的解决数据倾斜的方法并不适用。为解决数据划分的不均衡问题,提出一种当存在数据倾斜时更改剩余分区索引的策略。该方法在Map运行的过程中统计将要分给各reducer的数据量,由JobTrackcr监控全局的分区信息并根据数据倾斜模型动态修改原分区函数;在接下来的分区过程中,Partitioner把即将导致倾斜的分区索引到其余负载较轻的reducer上,使各节点的负载达到均衡。基于Zipf分布数据集和真实数据集,将所提算法与现有的解决数据倾斜的方法进行对比,结果证明,所提策略解决了MapReduce聚类中的数据倾斜问题,且在稳定性与执行时间上优于Hash和基于采样的动态分区法。
-
关键词
MAPREDUCE
数据倾斜
负载均衡
分布式聚类
索引偏移
-
Keywords
MapReduce
Data skew
I.oad balance
Distributed clustering
Index shift
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-