基于logistic回归模型的Hadoop本地任务调度优化算法被引量：7

Hadoop local tasks scheduling optimization algorithm based on logistic regression model

下载PDF

导出

摘要当一个工作节点有多个本地任务可执行时,默认情况下,调度器都是按照任务被发现的先后顺序来进行执行,效率低下。为了优化对本地任务的调度,提出了一种基于机器学习的Hadoop本地任务调度优化算法。选取定义与任务相关的特征向量,然后基于logistic回归模型的机器学习方式得到各向量的作用权值,将任务进行优先级排序,并通过过载规则不断更新模型。通过实验证明,提出的算法在改善map任务的数据本地性的同时,降低了作业运行时间。 For a task Tracker has multiple local tasks available,by default,the scheduler executes those tasks in succession with the order of the tasks to be found,this is inefficient. In order to optimize the local tasks scheduling,this paper presented Hadoop local tasks scheduling optimization algorithm based on machine learning. First,it selected and defined related feature vectors of the local tasks. Then,based on the way of machine learning with logistic regression model,it trained these vectors to get the weight of each vector to decide the task priority,and updated the model constantly by the overload rules. The experimental results show that the proposed algorithm improves map task data locality,at the same time it reduces job running time.

作者帅仁俊沈阳陈平潘静董亚楠

机构地区南京工业大学计算机科学与技术学院南京市卫生信息中心

出处《计算机应用研究》 CSCD 北大核心 2017年第3期727-729,755,共4页 Application Research of Computers

基金国家公益性科研专项项目(201310162 201210022) 连云港科技支撑计划资助项目(SH1110)

关键词 HADOOP MAPREDUCE 本地调度任务优先级过载规则 LOGISTIC回归模型 Hadoop MapReduce local tasks scheduling task priority overload rules logistic regression model

分类号 TP393 [自动化与计算机技术—计算机应用技术] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献7

1于倩,蔚承建,王开,朱林军.基于机器学习的MapReduce资源调度算法[J].计算机应用研究,2016,33(1):111-114. 被引量：3
2李春艳,何一舟,戴彬.Hadoop平台的多队列作业调度优化方法研究[J].计算机应用研究,2014,31(3):705-707. 被引量：10
3顾宇,周良,丁秋林.基于优先级的Three-Queue调度算法研究[J].计算机科学,2011,38(B10):253-256. 被引量：4
4徐焕良,翟璐,薛卫,任守纲.Hadoop平台中MapReduce调度算法研究[J].计算机应用与软件,2015,32(5):1-6. 被引量：11
5余正祥.基于学习方式对Hadoop作业调度的改进研究[J].计算机科学,2012,39(B06):220-222. 被引量：6
6施朝健,张明铭.Logistic回归模型分析[J].计算机辅助工程,2005,14(3):74-78. 被引量：23
7谢花林,李波.基于logistic回归模型的农牧交错区土地利用变化驱动力分析--以内蒙古翁牛特旗为例[J].地理研究,2008,27(2):294-304. 被引量：142

二级参考文献120

1摆万奇,张永民,阎建忠,张镱锂.大渡河上游地区土地利用动态模拟分析[J].地理研究,2005,24(2):206-212. 被引量：93
2许月卿.土地利用对地下水位下降的影响——以河北平原为例[J].地理研究,2005,24(2):222-228. 被引量：36
3王长科,吕宪国,蔡祖聪,罗勇.土地利用方式对白浆土氧化甲烷的影响[J].地理研究,2006,25(2):335-341. 被引量：7
4邓维斌,王国胤,王燕.基于Rough Set的加权朴素贝叶斯分类算法[J].计算机科学,2007,34(2):204-206. 被引量：43
5Dean J,Ghemawat S. MapReduee: Simplified data processing on large elusters[C]///OSDI' 04: Sixth Symposium on Operating System Design and Implementation. 2004:137-150.
6Zaharia M, Borthakur D, Sarma J S. Job seheduleing for multiuser mapreduce clusters[C]//Proceedings of the 5th European Conference IEEE. 2009 : 145-161.
7Matei Zaharia, Dhruba Borthakur and Joydeep Sen Sarma. Delay scheduling:a simple technique for achieving locality and fairness in cluster scheduleing[C]// EuroSys ' 10: Proceedings of the 5th European conference on Computer systems. 2010:265-278.
8Polo J, de Nadal D, Carrera D. Adaptive Task Scheduling for MultiJob MapReduce Environments[C] // Proceedings of the 2010 Eighth International Conference on Grid and Cooperative Computing IEEE. 2010:326-332.
9Thomas Sandholm and Kevin Lai. Dynamic proportional share scheduling in hadoop[C]//JSSPP ' 10: 15th Workshop on Job Scheduling Strategies for Parallel Processing. 2010:110-131.
10Polo J, Carrera D, Becerra Y. Performance-driven task co-scheduling for rnapr- educe environrnents[C]//Network Operations and Management Symposium(NOMS), IEEE. 2010 : 373-380.

共引文献191

1董敏,王武林.基于多维视角的县域农村居民点空间分布格局分析——以福建省为例[J].经济与社会发展,2020,18(5):13-20.
2李默涵,蔡若松.交通方式预测中Logit模型参数估计方法的应用研究[J].辽东学院学报（自然科学版）,2006,13(2):13-16. 被引量：1
3余蓉蓉,王克林,岳跃民.桂西北河池地区耕地变化及其驱动力Logistic回归分析[J].长江流域资源与环境,2010,19(2):186-191. 被引量：8
4唐宏,张新焕,杨德刚,陈大波.近60a三工河流域耕地利用动态变化与驱动力分析[J].干旱区地理,2011,34(5):843-850. 被引量：12
5蒙吉军,朱利凯,毛熙彦.近30年来毛乌素沙地土地利用变化驱动力的多尺度研究——以内蒙古乌审旗为例[J].应用基础与工程科学学报,2012,20(S1):54-66. 被引量：14
6董新华,李瑞轩,周湾湾,王聪,薛正元,廖东杰.Hadoop系统性能优化与功能增强综述[J].计算机研究与发展,2013,50(S2):1-15. 被引量：70
7苏雷,朱京海,任韶红,傅立群.景观格局变化驱动力分析的研究方法综述[J].资源环境与发展,2013(1):26-29. 被引量：7
8刘罗曼,张雪岩.曲线估计方法应用[J].沈阳师范大学学报（自然科学版）,2007,25(2):161-162. 被引量：12
9吴辉凡,许治.NSFC管理学部资助项目后评估结果的Logistic回归分析[J].科学管理研究,2008,26(1):22-25. 被引量：7
10渠爱雪,卞正富,朱传耿,马晓冬,孟召宜,李志江.徐州城区土地利用变化过程与格局[J].地理研究,2009,28(1):97-108. 被引量：46

同被引文献60

1王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：616
2孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2392
3陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35. 被引量：118
4吕婉琪,钟诚,唐印浒,陈志朕.Hadoop分布式架构下大数据集的并行挖掘[J].计算机技术与发展,2014,24(1):22-25. 被引量：21
5金伟健,王春枝.基于匹配规则的MapReduce任务调度模型[J].计算机应用,2014,34(4):1010-1013. 被引量：7
6何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：327
7周景才,张沪寅,查文亮,陈毅波.云计算环境下基于用户行为特征的资源分配策略[J].计算机研究与发展,2014,51(5):1108-1119. 被引量：35
8马莉,唐善成,王静,赵安新.云计算环境下的动态反馈作业调度算法[J].西安交通大学学报,2014,48(7):77-82. 被引量：15
9朱洁,赵红,李雯睿.基于Hadoop的三队列作业调度算法[J].计算机应用,2014,34(11):3227-3230. 被引量：3
10朱永华,沈熠,刘玲.Linux内核完全公平调度器改进的研究[J].计算机工程与应用,2014,50(21):59-62. 被引量：3

引证文献7

1王钟斐,王钟磊.一种改进的延时调度算法[J].电子设计工程,2018,26(15):23-26.
2刘黎志,邓介一,吴云韬.基于HBase的多分类逻辑回归算法研究[J].计算机应用研究,2018,35(10):3007-3010. 被引量：11
3胡红旗.基于排序优化算法的电子通信信息存储研究[J].电子设计工程,2019,27(19):80-84. 被引量：6
4陈家宇,胡建军.MobiWay应用中基于Hadoop的多目标多任务调度算法[J].计算机应用与软件,2020,37(2):240-247. 被引量：1
5刘黎志,彭贝.Spark集群中还贷问题的逻辑回归模型研究[J].武汉工程大学学报,2020,42(1):113-118.
6余韦,余凤丽,吉晶,杨猛.一种基于改进逻辑回归算法实现模型在线调参方法[J].通信技术,2020,53(8):1965-1969. 被引量：4
7余凤丽,景昕.一种融合业务经验与机器学习算法预测用户行为的方法[J].电信工程技术与标准化,2022,35(8):19-21. 被引量：1

二级引证文献23

1刘黎志,何经纬.空气质量监测大数据区间的统计问题[J].武汉工程大学学报,2019,41(2):179-183. 被引量：1
2李姚舜,刘黎志.逻辑回归中的批量梯度下降算法并行化研究[J].武汉工程大学学报,2019,41(5):499-503. 被引量：4
3高巍,孙盼盼,李大舟.Twitter情感分析中停用词处理[J].计算机工程与设计,2019,40(11):3180-3185. 被引量：3
4侯伟立.基于SSH框架的吊装起重机械化术语检索系统设计[J].自动化与仪器仪表,2020(10):93-96. 被引量：1
5吴蕊,孔前进,王世勋,孙东山,翟怡星.双模态Logistic Regression及其应用[J].计算机应用与软件,2020,37(12):244-248. 被引量：1
6柳翠,杨巍.基于逻辑回归的代发工资数据差异核对的数学建模[J].廊坊师范学院学报（自然科学版）,2020,20(4):73-78. 被引量：1
7袁敏,侯林鹏,谭正平.基于逻辑回归算法的交通事故中行人头部损伤因素研究[J].中国法医学杂志,2020,35(6):622-627.
8姚宏亮,董伟伟,王浩,杨静.意愿计算的股市突变点预测方法[J].计算机应用研究,2021,38(4):1108-1112.
9华萌萌,尹君,胡召玲,张学珍.基于机器学习的历史气候重建论文智能识别与数据挖掘初探[J].第四纪研究,2021,41(2):550-561. 被引量：3
10刘苏英,张晴晴.基于Hadoop的高效率海量电子通信信息存储方法[J].安阳师范学院学报,2021(2):32-35. 被引量：2

1万军洲,李腊元.非专用分布式系统中任务调度的性能预测模型的研究[J].武汉理工大学学报（交通科学与工程版）,2004,28(4):575-578. 被引量：1
2潘颖,孙伟,马跃,马沁怡.基于多Agent的柔性作业车间调度研究[J].大连理工大学学报,2011,51(5):667-674. 被引量：4
3曾万聃,常桂然,戴勃,于振雷.网格环境中基于SLA的本地任务调度算法[J].计算机科学,2006,33(8):64-67. 被引量：1
4苏明,薛宏熙,洪先龙.强时间约束条件下的调度优化算法[J].计算机辅助设计与图形学学报,1993,5(1):13-17.
5沈新超,郑衍衡.一个基于全局竞标机制的网格调度系统[J].计算机应用与软件,2008,25(8):209-211. 被引量：1
6陈梦,高强,蔡洪宝.多模态控制在步进电机位置伺服系统中的应用研究[J].计算机测量与控制,2016,24(11):196-200. 被引量：2
7郭权,卢桂艳,王希诚.基于扩展神经网络的网格资源调度优化算法[J].辽宁工程技术大学学报（自然科学版）,2005,24(5):730-733. 被引量：2
8李兵.基于分布式入侵检测的负载平衡调度算法[J].信息技术,2008,32(2):5-7. 被引量：1
9孔邵颖,郭宏亮.混合算法在网格任务调度中的应用研究[J].计算机仿真,2011,28(9):140-142. 被引量：1
10高大鹏,王欣,李朝荣,朱清新.五官在人脸识别中的作用权值研究[J].计算机工程,2012,38(7):171-173. 被引量：4

计算机应用研究

2017年第3期

浏览历史

内容加载中请稍等...

基于logistic回归模型的Hadoop本地任务调度优化算法被引量：7

参考文献7

二级参考文献120

共引文献191

同被引文献60

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于logistic回归模型的Hadoop本地任务调度优化算法 被引量：7

参考文献7

二级参考文献120

共引文献191

同被引文献60

引证文献7

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于logistic回归模型的Hadoop本地任务调度优化算法被引量：7