-
题名数据中心网络高效数据汇聚传输算法
被引量:8
- 1
-
-
作者
陆菲菲
郭得科
方兴
谢向辉
罗兴国
-
机构
数学工程与先进计算国家重点实验室
解放军信息工程大学国家数字交换系统工程技术研究中心
信息系统工程国防科技重点实验室(国防科学技术大学)
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第9期1750-1762,共13页
-
基金
国家"九七三"重点基础研究发展规划项目青年科学家专题项目(2014CB347800)
国家自然科学基金优秀青年基金(61422214)
+1 种基金
国家自然科学基金(91430214)
国家"八六三"高技术研究发展计划项目基金(2013AA01A213)资助~~
-
文摘
在数据中心中,类MapReduce的分布式计算系统在数据的混洗阶段产生巨大流量,令数据中心的东西向网络资源成为瓶颈.将这些高度相关的数据流在接收端进行聚合是分布式计算的通用处理方式,为了降低网络通信量并有效利用带宽,文中采用网内关联性流量的汇聚传输策略,将混洗和汇聚并行化,达到进一步降低东西向网络资源消耗、缩短混洗阶段延迟的目的.目前提出的IRS-based算法在适用场景上有一定局限性,为了解决这一问题,文中首先在以服务器为中心的代表结构BCube上建立incast最小树模型,分别提出MIB-based算法和MC-based算法,仅根据已知拓扑结构和发送节点编号即可快速生成一棵近似的最小代价incast树.MIB-based算法针对发送节点强关联的情况,使高层发送节点尽可能汇聚到已有的低层发送节点构建incast树;MC-based算法针对发送节点松散关联的情况,将节点进行最大程度上的聚合,通过增加最少的汇聚点完成incast树的构建.随后将上述两种算法结合起来进一步提出适用于各种场景的M2-based算法,通过推算时间复杂度证明该算法能够满足在线构建incast树的需求.最后,详细分析了M2-based算法对其他数据中心网络结构的适应性以及网内汇聚传输能够减少作业完成时间的原理.小规模实验结果表明,在不同网络规模下,M2-based比IRS-based节省了网络中约3%的数据量,整个作业在混洗和Reduce阶段的等待时间比不采用网内汇聚缩短约2/3;在不同传输节点规模下,M2-based比IRS-based节省了网络中约19%的数据量,整个作业在混洗和Reduce阶段的等待时间比不采用网内汇聚缩短约3/4.
-
关键词
数据中心
数据汇聚
网内聚合
混洗传输
incast树
-
Keywords
data center
data aggregation
in-network aggregation
shuffle transfer
incast tree
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-