题名 分布式环境中的多作业执行调度策略与优化
被引量:6
1
作者
季航旭
姜苏
赵宇海
吴刚
王国仁
机构
东北大学计算机科学与工程学院
北京理工大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2021年第6期951-961,共11页
基金
科技部重点研发项目(2018YFB1004402)。
文摘
分布式大数据计算引擎是科研机构、互联网企业和政府部门处理大规模数据必不可少的工具,它们的使用和推广促进了各个领域的快速发展,为社会进步做出了巨大贡献。但是,在多作业处理的情况下,目前主流的大数据计算引擎在资源分配和作业调度方面仍有许多不足之处,它们通常对多作业平均划分内存资源并以先进先出FIFO的方式调度作业,这样简单的资源划分方式和作业调度机制并不能充分利用系统性能。针对此问题,从计算引擎的作业层面做出了改进:在资源划分方面,通过提取作业特征对作业的任务量进行预估,判断作业任务量和作业预分配资源间的差异,合并对集群资源浪费较高的作业,充分利用计算资源;在作业调度方面,对作业池中的作业进行特征提取,使用多路K-means算法对作业进行聚类分析,然后基于分析的结果,使用自平衡轮询调度算法对作业进行调度,达到负载均衡的目的。为了验证所提算法的有效性,使用大规模文本数据集在分布式集群环境中进行对比实验,实验结果表明,提出的作业合并算法和多作业调度算法可以减少5%~23%的作业运行时间,提高了7.5%~29%的系统吞吐量,在最好情况下可减少40%的线程启动数。
关键词
分布式
作业合并
聚类
轮询调度
Flink
Keywords
distributed
job merging
cluster
polling scheduling
Flink
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 一种分布式异构带宽环境下的高效数据分区方法
被引量:6
2
作者
马卿云
季航旭
赵宇海
毛克明
王国仁
机构
东北大学计算机科学与工程学院
东北大学软件学院
北京理工大学计算机学院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2020年第12期2683-2693,共11页
基金
国家重点研发计划项目(2018YFB1004402)
国家自然科学基金项目(61772124)。
文摘
在分布式大数据处理框架的作业运行过程中,会有大量的数据通过网络传输,数据在各节点之间传输所需的时间已成为作业运行的主要开销之一.在节点异构带宽的情况下,因为带宽瓶颈节点的存在,传统的数据分区方法效率低下.针对这个问题,建立了节点间的数据传输模型,该模型以降低数据传输时间为目标,根据各节点的上下行带宽和初始数据量大小,计算出各节点的最优数据分发比例.以该模型为基础,设计了基于带宽的数据分区方法,该数据分区方法使得各节点按最优数据分发比例来分配数据.最后在Apache Flink框架中将基于带宽的数据分区方法进行了实现,并通过实验进行了验证.实验结果表明:异构带宽条件下,基于带宽的数据分区方法可以有效减少数据分区所需的时间.
关键词
数据分区
Apache
Flink
负载均衡
异构带宽
分布式系统
Keywords
data partitioning
Apache Flink
load balancing
heterogeneous bandwidth
distributed system
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 面向Flink的负载均衡任务调度算法的研究与实现
被引量:6
3
作者
李文佳
史岚
季航旭
罗意彭
机构
东北大学计算机科学与工程学院
辽宁工业大学软件学院
出处
《计算机工程与科学》
CSCD
北大核心
2022年第7期1141-1151,共11页
基金
科技部重点研发项目(2018YFB1004402)。
文摘
Apache Flink是现在主流的大数据分布式计算引擎之一,其中任务调度问题是分布式计算系统中的关键问题。由于集群的异构性以及不同算子复杂度不同,大数据计算系统Flink中不可避免地会出现负载不均的情况,针对这种问题,提出了基于资源反馈的负载均衡任务调度算法RFTS。通过实时资源监控、区域划分和基于人工萤火虫优化的任务调度算法3个模块,把负载过重的机器中处于等待状态的任务分配给负载较轻的机器,来实现集群的负载均衡,提高系统集群利用率和执行效率。最后通过基于TPC-C和TPC-H数据集的实验结果表明,RFTS算法从执行时间和吞吐量2个方面有效提升了Apache Flink计算系统的性能。
关键词
Apache
Flink
基于资源反馈的负载均衡任务调度算法
实时资源监控
区域划分
人工萤火虫优化算法
Keywords
Apache Flink
load balancing task scheduling algorithm based on resource feedback
real-time resource monitoring
area division
glowworm swarm optimization algorithm
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 面向Flink迭代作业的动态资源分配策略
被引量:4
4
作者
岳晓飞
史岚
赵宇海
季航旭
王国仁
机构
东北大学计算机科学与工程学院
北京理工大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2022年第3期985-1004,共20页
基金
国家重点研发计划(2018YFB1004402)
国家自然科学基金(61772124)。
文摘
新兴分布式计算框架ApacheFlink支持在集群上执行大规模的迭代程序,但其默认的静态资源分配机制导致无法进行合理的资源配置来使迭代作业按时完成.针对这一问题,应该依靠用户来主动表达性能约束而不是被动地进行资源保留,故提出了一种基于运行时间预测的动态资源分配策略RABORP(resource allocation based on runtimeprediction),来为具有明确运行时限的Flink迭代作业制定动态资源分配计划并实施.其主要思想是:通过预测各个迭代超步的运行时间,然后根据预测结果在迭代作业提交时和超步间的同步屏障处分别进行资源的初始分配和动态调整,以保证可使用最小资源集,使迭代作业在用户规定的运行时限内完成.通过在不同数据集下执行多种典型的Flink迭代作业进行了相关对比实验,实验结果表明,所建立的运行时间预测模型能够对各个超步的运行时间进行准确预测,而且在单作业和多作业场景下,采用所提出的动态资源分配策略相比于目前最先进算法在各项性能指标上都有所提升.
关键词
迭代作业
运行时间预测
资源分配
运行时限
Apache
Flink
Keywords
iterative job
runtime prediction
resource allocation
runtime limit
Apache Flink
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 分布式环境下大规模维表关联技术优化
被引量:2
5
作者
赵恒泰
赵宇海
袁野
季航旭
乔百友
王国仁
机构
东北大学计算机科学与工程学院
北京理工大学计算机学院
出处
《计算机科学与探索》
CSCD
北大核心
2022年第2期337-347,共11页
基金
国家重点研发计划(2018YFB1004402,2016YFCl401900)。
文摘
分布式环境下大规模维表关联技术是当前在线大数据分析的关键技术之一,其广泛应用于实时推荐、实时分析等领域。维表关联是指将流数据和离线存储的维表数据进行关联,并根据这种关联进行数据处理。首先,对已有的维表连接技术方案进行了研究,调研了相关的优化技术和主流分布式引擎的设计路线,主要通过优化维表数据查询提高性能,但传统的优化方式受到维表规模和数据流速的限制。其次,针对已有优化技术在分布式环境下对集群整体考虑使用的不足,提出了适用于对离线的批数据和实时的流数据进行混合计算的计算模型,然后提出了一种单点读取维表数据,切分后进行分发和计算的维表关联数据方式,并优化了维表关联计算逻辑,使之能适应更高的维表规模,且不再局限于对数据的连接。最后,在流计算引擎Apache Flink上实现了提出的维表关联技术和传统维表关联技术,通过实验在阿里巴巴“双十一”产生的数据上对吞吐量和延迟进行了对比,证明了对面向分布式流计算的维表关联技术的优化的有效性。
关键词
分布式计算
维表关联
缓存技术
Apache
Flink
Keywords
distributed computing
dimension table connection
cache technology
Apache Flink
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 面向多表数据连接投影和连接顺序的优化方法
被引量:2
6
作者
宗枫博
赵宇海
王国仁
季航旭
机构
东北大学计算机科学与工程学院
北京理工大学计算机学院
出处
《计算机科学与探索》
CSCD
北大核心
2022年第1期106-119,共14页
基金
科技部国家重点研发计划(2018YFB1004402)
国家自然科学基金(61772124)。
文摘
多表连接运算是大数据处理中常见的运算。类似于数据库运算中常见的连接操作,多表连接运算的顺序会对计算资源和传输资源的消耗产生巨大影响。对多表连接顺序的优化是一个经典的优化问题,同时每次连接中表的投影结果大小也会影响节点间传输的数据体积,因此整体连接的顺序和每次连接的投影关系都会对连接效率产生显著的影响,而在传统的优化策略中,往往不会考虑到中间投影关系的取舍问题,以及基于中间投影关系而对最优连接策略产生的影响。针对这个问题,建立了一种连接关系索引,能够在构建优化连接策略中调整每次连接的投影关系,及时删除冗余列,减少对传输资源的消耗,同时基于投影关系的优化调整连接顺序的优化策略,从全局考量上尽可能地同时减少对传输资源和计算资源的消耗。该优化策略在Flink系统实现后进行了实验,结果表明有显著的优化效果。
关键词
大数据
连接优化
投影优化
Keywords
big data
join optimization
project optimization
分类号
TP311.133.1
[自动化与计算机技术—计算机软件与理论]
题名 特定胎压非承载子午线轮胎静力学分析
7
作者
费力钧
高志彬
马振风
宋宇晴
许俊龙
季航旭
机构
青岛理工大学机械与汽车工程学院
出处
《内燃机与配件》
2022年第21期35-37,共3页
文摘
子午线轮胎静态结构与应力的变化与胎压密切相关。选取新胡可(Neo-Hookean)超弹性本构模型作为外胎的材料,Nylon 66作为带束层材料,结构钢作为帘布层材料,以295/80R22.5轮胎为研究对象,建立轮胎三维有限元模型,利用ANSYS静态学分析功能实现特定胎压轮胎分析,得到轮胎的变形和应力分布。结果表明,在设置的特定胎压下,轮胎中心区域的变形和应力皆为最大,且轮胎总变形和表面应力和胎压皆存在正相关关系。胎侧结构对胎侧的应力分布与变形也存在影响。因此,合理的轮胎结构设计、正常的胎压是提高轮胎寿命、汽车操纵稳定性、安全性等性能的重要因素。
关键词
静力学分析
ANSYS
子午线轮胎
胎压
Keywords
Static analysis
ANSYS
Radial tire
Tire pressure
分类号
U463.341
[机械工程—车辆工程]