数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapReduce on-line Load balancing mechanism based on Sample Partition).MR-LSP在作业执行之前,通过...数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapReduce on-line Load balancing mechanism based on Sample Partition).MR-LSP在作业执行之前,通过对源数据抽样分析,预测数据的分布特征,动态采取相应的负载均衡数据分区策略;在作业运行期间实时监控节点负载,进一步动态优化数据分区策略.实验结果表明:MR-LSP能够提高系统3.2%的负载均衡,降低4.3%的作业执行时间,有效缓解了MapReduce的数据倾斜问题.展开更多
MapReduce是一个流行的并行处理大规模数据计算模型.为提升异构环境下的MapReduce性能,提出一种异构环境下基于节点作业时间感知的动态MapReduce调度策略:DTHE(Dynamic Map Reduce scheduling based on the Time-aware of node jobs in ...MapReduce是一个流行的并行处理大规模数据计算模型.为提升异构环境下的MapReduce性能,提出一种异构环境下基于节点作业时间感知的动态MapReduce调度策略:DTHE(Dynamic Map Reduce scheduling based on the Time-aware of node jobs in Heterogeneous Environments).DTHE在作业执行前,首先标记部分任务作为节点样本任务并优先处理,在执行其他任务时分析样本任务,预测节点性能和数据分布特征,动态采取相应的调度策略;在作业运行中实时监测节点任务状态,提前拉取节点下一个任务数据到本地内存.实验结果表明:在异构环境下,DTEH能够缩短5.1%的作业执行时间并减少磁盘I/O,有效提升MapReduce性能.展开更多
数据挖掘(Data Mining,简称DM),又称数据库中的知识发现(Knowledge Discovery in Database,简称:KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、特殊的及有潜在应用价值的信息或模式。本文在了解数据挖掘的定义和市场前景的基...数据挖掘(Data Mining,简称DM),又称数据库中的知识发现(Knowledge Discovery in Database,简称:KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、特殊的及有潜在应用价值的信息或模式。本文在了解数据挖掘的定义和市场前景的基础上,结合当今企业对数据挖掘技术的重视和数据挖掘技术对企业发展带来的巨大效益的现状,从众多方面提出和分析了数据挖掘技术在发展和应用过程中面临的主要问题。并且结合开放网格服务体系(OGSA)的思想,采用分层描述的方法,围绕功能、结构、调度成本和网格服务目标等,设计了一种五层的网格数据挖掘体系结构(GDMA)。该体系结构以服务为核心,通过统一的网格服务接口屏蔽资源的异构性,并针对用户的特殊需求,设计了基于工作流和Web服务的数据挖掘客户端。展开更多
文摘数据倾斜一直是影响MapReduce性能的关键问题之一.为缓解数据倾斜问题,提出一种基于抽样分区的MapReduce在线负载均衡机制:MR-LSP(MapReduce on-line Load balancing mechanism based on Sample Partition).MR-LSP在作业执行之前,通过对源数据抽样分析,预测数据的分布特征,动态采取相应的负载均衡数据分区策略;在作业运行期间实时监控节点负载,进一步动态优化数据分区策略.实验结果表明:MR-LSP能够提高系统3.2%的负载均衡,降低4.3%的作业执行时间,有效缓解了MapReduce的数据倾斜问题.
文摘MapReduce是一个流行的并行处理大规模数据计算模型.为提升异构环境下的MapReduce性能,提出一种异构环境下基于节点作业时间感知的动态MapReduce调度策略:DTHE(Dynamic Map Reduce scheduling based on the Time-aware of node jobs in Heterogeneous Environments).DTHE在作业执行前,首先标记部分任务作为节点样本任务并优先处理,在执行其他任务时分析样本任务,预测节点性能和数据分布特征,动态采取相应的调度策略;在作业运行中实时监测节点任务状态,提前拉取节点下一个任务数据到本地内存.实验结果表明:在异构环境下,DTEH能够缩短5.1%的作业执行时间并减少磁盘I/O,有效提升MapReduce性能.
文摘数据挖掘(Data Mining,简称DM),又称数据库中的知识发现(Knowledge Discovery in Database,简称:KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、特殊的及有潜在应用价值的信息或模式。本文在了解数据挖掘的定义和市场前景的基础上,结合当今企业对数据挖掘技术的重视和数据挖掘技术对企业发展带来的巨大效益的现状,从众多方面提出和分析了数据挖掘技术在发展和应用过程中面临的主要问题。并且结合开放网格服务体系(OGSA)的思想,采用分层描述的方法,围绕功能、结构、调度成本和网格服务目标等,设计了一种五层的网格数据挖掘体系结构(GDMA)。该体系结构以服务为核心,通过统一的网格服务接口屏蔽资源的异构性,并针对用户的特殊需求,设计了基于工作流和Web服务的数据挖掘客户端。