-
题名基于分布式流处理的自适应数据分发策略
被引量:2
- 1
-
-
作者
闾程豪
荆一楠
何震瀛
王晓阳
-
机构
复旦大学软件学院
上海市数据科学重点实验室(复旦大学)
复旦大学计算机科学技术学院
-
出处
《计算机应用与软件》
北大核心
2018年第8期24-30,共7页
-
基金
国家自然科学基金项目(61732004)
上海市科技创新行动计划项目(16DZ1100200)
-
文摘
现有的分布式流数据分发方法通常只针对某一类数据分布的特征进行优化,以降低处理的延迟时间。现实情况中,数据分布的特征往往会随着时间发生变化,导致针对特定数据分布特征进行优化的分发方法无法总是获得最低的处理延迟时间。解决上述问题可以使用一种自适应数据分发策略APS(Adaptive Partition Strategy)。在mini-batch分布式流处理模型中,APS策略选取一系列当下被广泛使用的数据分发方法作为候选,在每个minibatch上对不同候选方法的最大负载和键值分离程度进行整体评估,进而根据评估结果进行分发方法的调整。实验结果表明,在处理维基项目的真实数据集时,该策略与现有分发方法相比,最多能将处理延迟时间降低26.7%。
-
关键词
分布式数据流处理
流数据分发
负载均衡
键值分离
自适应策略
-
Keywords
Distributed stream data processing
Stream data partition
Load balance
Key splitting
Adaptive strategy
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-