期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
An Improvement of Data Cleaning Method for Grain Big Data Processing Using Task Merging 被引量:1
1
作者 Feiyu Lian Maixia Fu Xingang Ju 《Journal of Computer and Communications》 2020年第3期1-19,共19页
Data quality has exerted important influence over the application of grain big data, so data cleaning is a necessary and important work. In MapReduce frame, parallel technique is often used to execute data cleaning in... Data quality has exerted important influence over the application of grain big data, so data cleaning is a necessary and important work. In MapReduce frame, parallel technique is often used to execute data cleaning in high scalability mode, but due to the lack of effective design, there are amounts of computing redundancy in the process of data cleaning, which results in lower performance. In this research, we found that some tasks often are carried out multiple times on same input files, or require same operation results in the process of data cleaning. For this problem, we proposed a new optimization technique that is based on task merge. By merging simple or redundancy computations on same input files, the number of the loop computation in MapReduce can be reduced greatly. The experiment shows, by this means, the overall system runtime is significantly reduced, which proves that the process of data cleaning is optimized. In this paper, we optimized several modules of data cleaning such as entity identification, inconsistent data restoration, and missing value filling. Experimental results show that the proposed method in this paper can increase efficiency for grain big data cleaning. 展开更多
关键词 GRAIN big DATA DATA Cleaning task MERGING Hadoop MAPREDUCE
下载PDF
Online Shuffling with Task Duplication in Cloud
2
作者 ZANG Qimeng GUO Song 《ZTE Communications》 2017年第4期38-42,共5页
Task duplication has been widely adopted to mitigate the impact of stragglers that run much longer than normal tasks. However,task duplication on data pipelining case would generate excessive traffic over the datacent... Task duplication has been widely adopted to mitigate the impact of stragglers that run much longer than normal tasks. However,task duplication on data pipelining case would generate excessive traffic over the datacenter networks. In this paper, we study minimizing the traffic cost for data pipelining task replications and design a controller that chooses the data generated by the first finished task and discards data generated later by other replications belonging to the same task. Each task replication communicates with the controller when it finishes a data processing, which causes additional network overhead. Hence, we try to reduce the network overhead and make a trade-off between the delay of data block and the network overhead. Finally, extensive simulation results demonstrate that our proposal can minimize network traffic cost under data pipelining case. 展开更多
关键词 CLOUD computing big data SHUFFLING task DUPLICATION TRAFFIC
下载PDF
特色农产品销售评价大数据的弱监督分析方法 被引量:1
3
作者 易文龙 张丽 +1 位作者 刘木华 程香平 《农业工程学报》 EI CAS CSCD 北大核心 2024年第12期183-192,共10页
针对特色农产品评价大数据多维度分析中,可信标签不足以及挖掘消费者各维度真实情感语义困难等问题。该研究提出了一种基于弱监督训练的深度学习方法。首先,通过主题模型分析大规模评论,提取产品评价主题和关键词。然后,结合句法依存和... 针对特色农产品评价大数据多维度分析中,可信标签不足以及挖掘消费者各维度真实情感语义困难等问题。该研究提出了一种基于弱监督训练的深度学习方法。首先,通过主题模型分析大规模评论,提取产品评价主题和关键词。然后,结合句法依存和情感词典为评论生成不同维度的伪标签。最后,构建多标签多分类深度网络,在伪标签上进行弱监督学习。结果表明,该方法在红心柚评论数据集上取得89.2%的准确率和80.3%的F1值,比随机森林算法提升了7.1个百分点的准确率和11.5个百分点的F1值。相比Transformer模型,准确率提高5.6个百分点,F1值提高2.0个百分点,参数量减少了92%。该方法能从海量评论中高效提取产品评价维度和消费者关注点,为完善农产品质量和销售服务提供数据支持。 展开更多
关键词 农产品 弱监督 多任务模型 情感分析 深度学习 大数据分析
下载PDF
基于启发式算法的计算机异构大数据跨源调度方法
4
作者 朱晓丽 高鹏 《新乡学院学报》 2024年第6期23-27,共5页
为了提高计算机异构大数据跨源调度性能,设计了一种基于启发式算法的计算机异构大数据跨源调度方法。将计算机异构大数据跨源调度任务划分为若干子任务,利用max-min思想和min-max思想,构建了跨源调度时间负载均衡模型。基于计算机异构... 为了提高计算机异构大数据跨源调度性能,设计了一种基于启发式算法的计算机异构大数据跨源调度方法。将计算机异构大数据跨源调度任务划分为若干子任务,利用max-min思想和min-max思想,构建了跨源调度时间负载均衡模型。基于计算机异构大数据跨源调度顺序的灵活性,利用启发式算法的最优策略,选择最优调度任务。根据计算机异构大数据的状态,计算出异构大数据传输控制协议连接的吞吐量,将待调度异构大数据的质量都作为计算机数据层的子流权重,通过处理所有待调度的子流,实现计算机异构大数据跨源调度。实验结果表明,文中设计的方法可以将跨源操作的级别条件提高至10级,跨源调度计算机异构大数据的利用率超过97%,加速比大于85%,计算机异构大数据跨源调度性能明显提升。 展开更多
关键词 启发式算法 计算机 调度任务 跨源调度 负载均衡 异构大数据
下载PDF
大概念引领下的大单元教学设计及反思 被引量:1
5
作者 吕伟英 《生物学教学》 北大核心 2024年第5期24-28,共5页
围绕草原鼠害发生发展防治创设大单元教学情境,实施以“任务-情境-活动”为主线贯穿的单元整体教学,依托情境设置和任务设计将多个课时的教学内容整合,将单元核心问题转化为进阶性的课时任务,在探究新知的过程中,呈现一个不断发现问题... 围绕草原鼠害发生发展防治创设大单元教学情境,实施以“任务-情境-活动”为主线贯穿的单元整体教学,依托情境设置和任务设计将多个课时的教学内容整合,将单元核心问题转化为进阶性的课时任务,在探究新知的过程中,呈现一个不断发现问题、解决问题的渐进式的学习过程,最终达成以大概念统摄的知识结构体系的建构,实现深度学习。 展开更多
关键词 大概念 单元教学设计 情境 任务 种群
下载PDF
基于数据感知的气象算法调度框架设计与应用
6
作者 霍庆 何文春 +3 位作者 高峰 陈士旺 徐拥军 王琦 《应用气象学报》 CSCD 北大核心 2024年第4期502-512,共11页
气象产品加工任务往往由不同算法组合而成,其状态对数据源具有高依赖性。高效感知数据状态,并及时合理启动调度,对提升气象产品加工的时效性至关重要。设计并建设了基于数据感知技术的气象算法调度框架,对比测试结果分析表明:在实时分... 气象产品加工任务往往由不同算法组合而成,其状态对数据源具有高依赖性。高效感知数据状态,并及时合理启动调度,对提升气象产品加工的时效性至关重要。设计并建设了基于数据感知技术的气象算法调度框架,对比测试结果分析表明:在实时分析数据源到报状态的基础上,数据感知调度实现数据到报即算法启动运行,任务调度延迟较定时调度显著降低,由3784 ms降至11 ms。数据感知调度作为气象大数据云平台加工流水线的核心能力,已在国省部署并实时运行。目前在国家级业务中支撑19种核心业务算法的高效调度,日调度次数约为6.67×10^(5),平均调度延迟为31 ms;在省级业务中支撑14种算法的高效调度,日调度次数约为8×10^(4),平均调度延迟为156 ms。此外,数据感知调度实现了气象业务上下游算法的无缝串联,可为解决气象业务间的脱节问题、提升气象业务间的协同性提供解决方案。 展开更多
关键词 数据感知技术 任务调度 气象算法 气象大数据云平台 加工流水线
下载PDF
基于多中心集群协同计算的大数据平台技术研究与应用
7
作者 阮宜龙 徐雪灵 +4 位作者 法虎 董丝纶 姜磊 杨磊 燕媛媛 《电信科学》 北大核心 2024年第5期141-151,共11页
中国电信面向横跨多个地域、拥有众多集群的大型政企机构,推出可以高效协同各类资源的广域大数据架构体系——云边智算大数据平台。该平台从集群维度对数据分区进行逻辑抽象,将独立分散的数据集整合为一个“虚拟数据集”,实现了一对多... 中国电信面向横跨多个地域、拥有众多集群的大型政企机构,推出可以高效协同各类资源的广域大数据架构体系——云边智算大数据平台。该平台从集群维度对数据分区进行逻辑抽象,将独立分散的数据集整合为一个“虚拟数据集”,实现了一对多的数据集映射管理。同时,该平台的计算负载数据集具有泛化特征,能够灵活应对不同场景下的数据处理需求。另外,该平台以关系表达式为中间表示,支持多种计算引擎和调度系统,能够在复杂的大型数据处理高容错场景中高效地完成批处理任务负载。目前,云边智算大数据平台已在多种应用场景中落地,平台在5G Core能力调度子系统(5GC)多中心大数据作业开发、运营方面提效17%,且已实现8省前置大数据集群共计42 PB存储、84 TB内存、24984 VCore计算资源的协同调度,日均完成80308次前置-核心两级任务调度。 展开更多
关键词 云边协同 统一SQL 任务优化 大数据平台
下载PDF
中国近现代史纲要课“大概念”教学初探
8
作者 郑帅 《长春师范大学学报》 2024年第3期163-166,共4页
“大概念”教学研究与实践是目前在国际上有重要影响的教学理念,而我国高校“大概念”教学研究明显滞后。“大概念”教学的重要概念包括“大概念”、“大概念”教学、迁移、“单元”、基本问题、表现性任务。借鉴美国学者格兰特·... “大概念”教学研究与实践是目前在国际上有重要影响的教学理念,而我国高校“大概念”教学研究明显滞后。“大概念”教学的重要概念包括“大概念”、“大概念”教学、迁移、“单元”、基本问题、表现性任务。借鉴美国学者格兰特·威金斯和杰伊·麦克泰格逆向教学设计理念,中国近现代史纲要课“大概念”教学可以分为三个阶段:第一阶段,以“大概念”为内核,确定预期成果;第二阶段,以评估“大概念”迁移能力为旨归,设计表现性任务;第三阶段,以探求基本问题、完成表现性任务为轴心,设计学习体验。“大概念”教学坚持教师主导、学生主体相统一,引导学生进行自主、合作与探究学习,有利于破除传统“一边倒”教学的明显弊端。 展开更多
关键词 中国近现代史纲要课 “大概念”教学 表现性任务
下载PDF
基于多任务特征融合算法的电力大数据增量式自组织映射方法
9
作者 刘鲲鹏 宫立华 汪莉 《微型电脑应用》 2024年第6期101-104,共4页
为了实现电力大数据精准映射,基于多任务特征融合算法研究电力大数据增量式自组织映射方法。对电力大数据进行分解,以线性组合形式划分特征类型;利用多任务特征融合算法设计候选分类类别数量,确定自组织映射目标;通过不同数据的语义长... 为了实现电力大数据精准映射,基于多任务特征融合算法研究电力大数据增量式自组织映射方法。对电力大数据进行分解,以线性组合形式划分特征类型;利用多任务特征融合算法设计候选分类类别数量,确定自组织映射目标;通过不同数据的语义长度对应所属类型,实现电力大数据的增量式自组织映射,完成增量式数据的自组织映射方法设计。以某省实际运行的电力公司为测试对象,对其一年内产生的电力大数据作为测试样本,分别将其按照具体的类型进行映射,验证新方法。实验结果表明,新方法可以实现精准的自组织映射,在整个过程中不会产生数据交换误差,具有应用价值。 展开更多
关键词 电力大数据 自组织映射 多任务特征融合算法 特征类型
下载PDF
基于任务合并的并行大数据清洗过程优化 被引量:47
10
作者 杨东华 李宁宁 +2 位作者 王宏志 李建中 高宏 《计算机学报》 EI CSCD 北大核心 2016年第1期97-108,共12页
数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导... 数据质量问题会对大数据的应用产生致命影响,因此需要对存在数据质量问题的大数据进行清洗.MapReduce编程框架可以利用并行技术实现高可扩展性的大数据清洗,然而,由于缺乏有效的设计,在基于MapReduce的数据清洗过程中存在计算的冗余,导致性能降低.因此文中的目的是对并行数据清洗过程进行优化从而提高效率.通过研究,作者发现数据清洗中一些任务往往都运行在同一输入文件上或者利用同样的运算结果,基于该发现文中提出了一种新的优化技术——基于任务合并的优化技术.针对冗余计算和利用同一输入文件的简单计算进行合并,通过这种合并可以减少MapReduce的轮数从而减少系统运行的时间,最终达到系统优化的目标.文中针对数据清洗过程中多个复杂的模块进行了优化,具体来说分别对实体识别模块、不一致数据修复模块和缺失值填充模块进行了优化.实验结果表明,文中提出的策略可以有效提高数据清洗的效率. 展开更多
关键词 大数据 多任务优化 海量数据 数据清洗 HADOOP MAPREDUCE
下载PDF
大数据时代高校体育翻转课堂课前自学效果及提升策略研究
11
作者 辛金花 《当代体育科技》 2024年第28期96-99,共4页
高校体育教学基于新要求,选择将翻转课堂应用到体育教学中,将信息技术作为教学活动高效开展的手段。大数据时代下,高校根据育人新要求,重新定义体育教学,给出教学目标,将翻转课堂作为实现教学目标的手段。翻转课堂利用现代媒介打造线上... 高校体育教学基于新要求,选择将翻转课堂应用到体育教学中,将信息技术作为教学活动高效开展的手段。大数据时代下,高校根据育人新要求,重新定义体育教学,给出教学目标,将翻转课堂作为实现教学目标的手段。翻转课堂利用现代媒介打造线上与线下结合的教学形式,实现对学生的合理引导,助推学生高效学习课程内容。课前是翻转课堂模式相对重要的部分,体育教师在进行课程规划时,应该基于大数据背景进行思考,作出课前安排,为教学目标的达成奠定基础。该文介绍翻转课堂的实质与优势,分析大数据时代下翻转课堂在高校体育中应用的可行性,提出翻转课堂课前自学效果提升的策略。 展开更多
关键词 大数据时代 高校体育 翻转课堂 课前自学 学习任务单
下载PDF
大数据时代下的情报分析与挖掘技术研究——电信客户流失情况分析 被引量:20
12
作者 王晓佳 杨善林 陈志强 《情报学报》 CSSCI 北大核心 2013年第6期564-574,共11页
大数据时代下的信息具有体量大、复杂性高、更新速度快的特点,从具有如此复杂特性的信息中挖掘出用户所需的情报,难度较以往有了很大的提升。要在发展中抢占先机,在大数据时代获取竞争优势,就必须对原有的情报分析思路进行必要的升... 大数据时代下的信息具有体量大、复杂性高、更新速度快的特点,从具有如此复杂特性的信息中挖掘出用户所需的情报,难度较以往有了很大的提升。要在发展中抢占先机,在大数据时代获取竞争优势,就必须对原有的情报分析思路进行必要的升级改造,以满足信息的情报属性。文章在介绍了大数据以及大数据环境下情报内涵转变的原因之后,提出了一种在大数据背景下的情报分析与挖掘的建模机理,首先应用MapReduce建立情报任务分解概念模型,然后针对分解后的某一单任务数据表进行预处理和数据挖掘工作,利用数学模型、人工智能等方法构造大数据时代下情报分析与数据挖掘的新思路。最后利用仿真实验来验证这一新思路的可行性和合理性。 展开更多
关键词 情报 大数据 数据挖掘 任务分解 MAPREDUCE
下载PDF
面向大数据流的多任务加速在线学习算法 被引量:10
13
作者 李志杰 李元香 +1 位作者 王峰 匡立 《计算机研究与发展》 EI CSCD 北大核心 2015年第11期2545-2554,共10页
多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具.然而目前的多任务在线学习算法收敛率低,仅为O(1/T1/2),T为算法迭代次数.提出一种新颖的多任务加速在线学习算法ADA-MTL(accelerated dual averagi... 多任务在线学习框架采用直接数据处理的流式计算模式,是大数据流分析很有前途的一种工具.然而目前的多任务在线学习算法收敛率低,仅为O(1/T1/2),T为算法迭代次数.提出一种新颖的多任务加速在线学习算法ADA-MTL(accelerated dual averaging method for multi-task learning),在保持多任务在线学习快捷计算优势的基础上,达到最优收敛率O(1/T2).对多任务权重学习矩阵Wt的迭代闭式解表达式进行了推导,对提出算法的收敛性进行了详细的理论分析.实验表明,提出的多任务加速在线学习算法能够更好地保障大数据流处理的实时性和可伸缩性,有较广泛的实际应用价值. 展开更多
关键词 大数据流 多任务 加速 在线学习 收敛分析
下载PDF
大数据流式计算框架Storm的任务迁移策略 被引量:25
14
作者 鲁亮 于炯 +3 位作者 卞琛 刘月超 廖彬 李慧娟 《计算机研究与发展》 EI CSCD 北大核心 2018年第1期71-92,共22页
Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约... Storm作为流式计算模式下最具代表性的平台之一,其默认轮询的调度机制未考虑到异构环境下不同工作节点的自身性能和负载差异,以及工作节点之间的网络传输开销和节点内部的进程与线程通信开销,无法充分发挥集群的性能.为了在各类资源约束的前提下最小化通信开销,在建立并论证Storm资源约束模型、最优通信开销模型和任务迁移模型的基础上,提出一种异构Storm环境下的任务迁移策略(task migration strategy for heterogeneous Storm cluster,TMSH-Storm),包括源节点选择算法和任务迁移算法.其中,源节点选择算法根据集群中各工作节点CPU、内存和网络带宽的负载情况以及各类资源的优先级顺序,将超出阈值的节点加入源节点集;任务迁移算法综合迁移开销、通信开销、节点资源约束以及节点和任务负载等因素,依次将源节点中的待迁移任务异步迁移至目的节点上.实验表明:相对于现有研究而言,TMSH-Storm能有效降低延迟和节点间通信开销,且执行开销较小. 展开更多
关键词 大数据 流式计算 STORM 通信开销 任务迁移
下载PDF
检视大概念、主题、学习任务群与学习项目--基于知识观的视角 被引量:43
15
作者 李卫东 《课程.教材.教法》 CSSCI 北大核心 2021年第6期82-88,共7页
对于任何课程,“知识”都是一个绕不过的存在,需要什么样的知识,如何理解和运用知识是学科教学的关键问题。“以大概念为核心”“以主题为引领”的双线并进,强调了课程知识的客观性和社会性的辩证统一,既摒弃机械操练知识的技术工具主义... 对于任何课程,“知识”都是一个绕不过的存在,需要什么样的知识,如何理解和运用知识是学科教学的关键问题。“以大概念为核心”“以主题为引领”的双线并进,强调了课程知识的客观性和社会性的辩证统一,既摒弃机械操练知识的技术工具主义,又避免忽视知识的相对主义和浪漫主义。“学习任务群”“学习项目”能优化课程内容,更新教学方式,考查“学习任务群”要凸显其课程内容构建方式的属性。知识观视角下的课程标准研制、课标教材编写和教学实施都需不断反思和改进。 展开更多
关键词 知识观 大概念 主题 学习任务群
下载PDF
面向大数据流式计算的任务管理技术综述 被引量:10
16
作者 梁毅 侯颖 +1 位作者 陈诚 金翊 《计算机工程与科学》 CSCD 北大核心 2017年第2期215-226,共12页
流式计算是大数据的一种重要计算模式,大数据流式计算已成为研究热点。任务管理是大数据流式计算的核心功能之一,负责对流式计算的任务进行资源调度及全生命周期管理。目前对于大数据流式计算的技术调研工作主要集中于流式计算应用需求... 流式计算是大数据的一种重要计算模式,大数据流式计算已成为研究热点。任务管理是大数据流式计算的核心功能之一,负责对流式计算的任务进行资源调度及全生命周期管理。目前对于大数据流式计算的技术调研工作主要集中于流式计算应用需求、体系结构及整体技术,缺乏对大数据流式计算任务管理技术的精细化调研分析。首先给出流式计算任务管理的抽象功能模型,其次基于该模型对任务管理的关键技术进行了分类和综述,最后对既有主流的大数据流式计算系统对上述关键技术的应用、集成和优化进行了调研分析。 展开更多
关键词 大数据流式计算 任务管理 抽象功能模型 资源分配 数据分发 容错
下载PDF
Storm环境下基于权重的任务调度算法 被引量:15
17
作者 鲁亮 于炯 +3 位作者 卞琛 英昌甜 师康利 蒲勇霖 《计算机应用》 CSCD 北大核心 2018年第3期699-706,共8页
大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度,未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式,在负载均衡和通信开销方面存在较大的优化空间。针对这一问题,提出一种Storm环境下基于权重的任务... 大数据流式计算平台Apache Storm默认采用轮询的方式进行任务调度,未考虑到拓扑中各任务计算开销的差异以及任务之间不同类型的通信模式,在负载均衡和通信开销方面存在较大的优化空间。针对这一问题,提出一种Storm环境下基于权重的任务调度算法(TSAW-Storm)。该算法首先根据各任务的CPU资源占用情况以及任务间的数据流大小,分别确定拓扑的点权和边权;并利用最大化边权增益的思想,逐步构建起各工作节点中承载的任务集合,在保证集群负载均衡的同时,尽可能将边权较大的节点间数据流转化为节点内数据流,从而降低网络传输开销。实验结果表明,在包含有8个工作节点的WordCount基准测试中,TSAW-Storm的系统延迟和节点间数据流大小相比Storm默认调度算法分别降低了30.0%和32.9%,且各工作节点的CPU负载标准差仅为Storm默认调度算法的25.8%;此外,在与在线调度算法的对比实验中,TSAW-Storm在系统延迟、节点间数据流大小和CPU负载标准差方面分别降低了7.76%、11.8%和5.93%,且算法的执行开销明显降低,有效提高了Storm系统的运行效率。 展开更多
关键词 大数据 流式计算 STORM 权重 任务调度 负栽均衡 通信开销
下载PDF
云计算环境中任务调度策略 被引量:2
18
作者 王海涛 张焕青 +2 位作者 肖世平 张学平 闫力 《信息通信技术》 2015年第6期57-63,共7页
在满足用户QoS的前提条件下,对海量任务进行高效调度并对云资源进行合理分配是云计算领域的一个研究热点。文章论述云计算环境下任务调度的概念、特点和目标,归纳了云计算任务调度的研究现状,并对传统任务调度算法、Hadoop中的任务调度... 在满足用户QoS的前提条件下,对海量任务进行高效调度并对云资源进行合理分配是云计算领域的一个研究热点。文章论述云计算环境下任务调度的概念、特点和目标,归纳了云计算任务调度的研究现状,并对传统任务调度算法、Hadoop中的任务调度算法、智能化的任务调度算法的实现机制和性能指标等进行了分析与比较。分析结果表明智能化任务调度算法性能优良且适应性强,是今后的研究重点。 展开更多
关键词 大数据 云计算 任务调度 调度算法
下载PDF
大数据处理框架中基于MDP的任务调度算法 被引量:2
19
作者 冯延蓬 仵博 +2 位作者 孟宪军 何国坤 江建举 《深圳职业技术学院学报》 CAS 2014年第1期7-10,共4页
针对大数据处理框架MapReduce中的任务调度问题,提出一种基于Markov决策过程(Markov Decision Process,MDP)的任务调度算法,通过状态集来描述集群中节点的负载和作业的数据本地性需求,使用状态转移函数表示调度策略对状态的影响,采用值... 针对大数据处理框架MapReduce中的任务调度问题,提出一种基于Markov决策过程(Markov Decision Process,MDP)的任务调度算法,通过状态集来描述集群中节点的负载和作业的数据本地性需求,使用状态转移函数表示调度策略对状态的影响,采用值迭代求解算法求取最优策略,实现集群中节点的最优调度.实验结果表明,该算法能够保证数据本地性的同时,减少作业响应时间,提高系统综合性能. 展开更多
关键词 大数据 MAPREDUCE MARKOV决策过程 任务调度
下载PDF
数据依赖约束下的任务调度资源选择算法 被引量:5
20
作者 廖彬 于炯 +1 位作者 张陶 杨兴耀 《计算机应用》 CSCD 北大核心 2014年第8期2260-2266,共7页
大数据环境下的计算任务往往具有一定数据依赖性关系(如MapReduce),现有的分布式存储系统任务资源选择策略选择离请求者最近的数据块响应服务,忽略了对数据块所在服务器CPU、磁盘I/O与网络等资源负载状态的考虑。在分析研究系统集群结... 大数据环境下的计算任务往往具有一定数据依赖性关系(如MapReduce),现有的分布式存储系统任务资源选择策略选择离请求者最近的数据块响应服务,忽略了对数据块所在服务器CPU、磁盘I/O与网络等资源负载状态的考虑。在分析研究系统集群结构、文件分块、数据块存储机制的基础上,定义了集群节点矩阵、CPU负载矩阵、磁盘I/O负载矩阵、网络负载矩阵、文件分块矩阵、数据块存储矩阵与数据块存储节点状态矩阵,为任务与数据之间的依赖性构建了基础数据模型,提出了一种数据依赖约束下的最优资源选择算法(ORS2DC)。任务调度节点负责维护基础数据,MapReduce任务与数据块读取任务由于依赖资源不同而采取不同的选择策略。实验结果表明:所提算法能够为任务选择质量更高的资源,提高任务完成质量的同时减轻了NameNode负担,减小了单点故障发生的概率。 展开更多
关键词 大数据计算 分布式存储系统 任务调度 数据模型 资源选择
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部