-
题名数据中心网络高效数据汇聚传输算法
被引量:8
- 1
-
-
作者
陆菲菲
郭得科
方兴
谢向辉
罗兴国
-
机构
数学工程与先进计算国家重点实验室
解放军信息工程大学国家数字交换系统工程技术研究中心
信息系统工程国防科技重点实验室(国防科学技术大学)
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第9期1750-1762,共13页
-
基金
国家"九七三"重点基础研究发展规划项目青年科学家专题项目(2014CB347800)
国家自然科学基金优秀青年基金(61422214)
+1 种基金
国家自然科学基金(91430214)
国家"八六三"高技术研究发展计划项目基金(2013AA01A213)资助~~
-
文摘
在数据中心中,类MapReduce的分布式计算系统在数据的混洗阶段产生巨大流量,令数据中心的东西向网络资源成为瓶颈.将这些高度相关的数据流在接收端进行聚合是分布式计算的通用处理方式,为了降低网络通信量并有效利用带宽,文中采用网内关联性流量的汇聚传输策略,将混洗和汇聚并行化,达到进一步降低东西向网络资源消耗、缩短混洗阶段延迟的目的.目前提出的IRS-based算法在适用场景上有一定局限性,为了解决这一问题,文中首先在以服务器为中心的代表结构BCube上建立incast最小树模型,分别提出MIB-based算法和MC-based算法,仅根据已知拓扑结构和发送节点编号即可快速生成一棵近似的最小代价incast树.MIB-based算法针对发送节点强关联的情况,使高层发送节点尽可能汇聚到已有的低层发送节点构建incast树;MC-based算法针对发送节点松散关联的情况,将节点进行最大程度上的聚合,通过增加最少的汇聚点完成incast树的构建.随后将上述两种算法结合起来进一步提出适用于各种场景的M2-based算法,通过推算时间复杂度证明该算法能够满足在线构建incast树的需求.最后,详细分析了M2-based算法对其他数据中心网络结构的适应性以及网内汇聚传输能够减少作业完成时间的原理.小规模实验结果表明,在不同网络规模下,M2-based比IRS-based节省了网络中约3%的数据量,整个作业在混洗和Reduce阶段的等待时间比不采用网内汇聚缩短约2/3;在不同传输节点规模下,M2-based比IRS-based节省了网络中约19%的数据量,整个作业在混洗和Reduce阶段的等待时间比不采用网内汇聚缩短约3/4.
-
关键词
数据中心
数据汇聚
网内聚合
混洗传输
incast树
-
Keywords
data center
data aggregation
in-network aggregation
shuffle transfer
incast tree
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名数据中心内Incast流量的网内聚合研究
被引量:3
- 2
-
-
作者
郭得科
罗来龙
李妍
胡智尧
任棒棒
-
机构
信息系统工程国防科技重点实验室(国防科学技术大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2016年第1期53-67,共15页
-
基金
国家自然科学基金优秀青年科学基金项目(61422214)~~
-
文摘
MapReduce等分布式计算系统应用在数据中心内产生了严重的东西向流量,其中以incast和shuffle为代表的关联性流量占相当大的比重,进而严重影响到上层应用的性能.这促使研究者们考虑在这些关联性流量的网内传输阶段尽可能早而不是仅在流量的接收端进行流间数据聚合.首先以新型数据中心网络结构为背景讨论流间数据聚合的可行性和增益,为最大化该增益,为incast传输建立最小代价树模型.为解决该模型,提出了2种近似的incast树构造方法,其能够仅基于incast成员的位置和数据中心拓扑结构生成一个有效的incast树,进一步解决了incast树的动态和容错问题.最后,采用原型系统和大规模仿真的方法评估了incast流量的网内聚合方法,实验结果证明该方法能大幅降低incast流量造成的传输开销,能节约数据中心的网络资源.同时,提出的模型和解决方法也适用于其他类型的数据中心网络结构.
-
关键词
网内聚合
数据中心
incast传输
shuffle传输
网络流量
-
Keywords
in-network aggregation
data centers
incast transfer
shuffle transfer
network transfer
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-