期刊文献+
共找到4,074,250篇文章
< 1 2 250 >
每页显示 20 50 100
基于MapReduce技术的并行集成分类算法 被引量:4
1
作者 琚春华 邹江波 +1 位作者 张芮 魏建良 《电信科学》 北大核心 2012年第7期40-47,共8页
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,... 由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。 展开更多
关键词 云计算 集成分类器 并行集成 mapreduce
下载PDF
文本处理中的MapReduce技术 被引量:18
2
作者 李锐 王斌 《中文信息学报》 CSCD 北大核心 2012年第4期9-20,共12页
用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界和工业界的广泛认可和... 用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界和工业界的广泛认可和使用。目前,MapReduce已经被用于自然语言处理、机器学习及大规模图处理等领域。该文首先对MapReduce做了简单的介绍,并分析了其特点、优势还有不足;然后对MapReduce近年来在文本处理各个方面的应用进行分类总结和整理;最后对MapReduce的系统和性能方面的研究也做了一些介绍与展望。 展开更多
关键词 文本处理 mapreduce 分布式计算 综述 HADOOP
下载PDF
基于MapReduce技术的Argo浮标剖面信息融合算法 被引量:5
3
作者 蒋华 胡莹 《计算机应用》 CSCD 北大核心 2015年第12期3403-3407,共5页
针对目前Argo浮标剖面以单一浮标为分析单元造成的分析不全面,以及单机处理造成的计算时间长且复杂等问题,提出一种以经纬度网格单元为分析对象,采用MapReduce技术与主曲线相结合的信息融合算法。在Map阶段,从大量数据文件中提取Argo浮... 针对目前Argo浮标剖面以单一浮标为分析单元造成的分析不全面,以及单机处理造成的计算时间长且复杂等问题,提出一种以经纬度网格单元为分析对象,采用MapReduce技术与主曲线相结合的信息融合算法。在Map阶段,从大量数据文件中提取Argo浮标的有效信息,并对所提取的有效Argo剖面信息进行经纬度划分。在Reduce阶段,生成各划分区域Argo浮标主剖面:首先对数据进行归一化处理,然后利用K主曲线理论获得由少量剖面点和折线组成且包含区域剖面特征的主剖面,从而实现海量Argo浮标的信息融合。通过全球Argo浮标样本数据对所提算法进行验证,新的信息融合算法在投影距离为0.03-0.10时残差均值小于0.1,且相比传统的单机处理方式,存储空间节约99.4%,计算速度提升36.4%。验证结果表明,所提算法在保证生成主剖面准确度的同时节省了极大的存储空间,提高了计算速度。 展开更多
关键词 Argo剖面 主曲线 mapreduce 信息融合
下载PDF
云计算中的MapReduce技术 被引量:4
4
作者 郎为民 杨德鹏 《电信快报(网络与通信)》 2012年第3期3-5,12,共4页
云计算作为一种新型资源利用方式,支持广大用户通过网络以按需、易扩展的方式获得所需的资源。文章给出了MapReduce采用的基本理念("分而治之"),分析了MapReduce的基本原理,并以字数统计为例,详细介绍了作业提交、映射任务分... 云计算作为一种新型资源利用方式,支持广大用户通过网络以按需、易扩展的方式获得所需的资源。文章给出了MapReduce采用的基本理念("分而治之"),分析了MapReduce的基本原理,并以字数统计为例,详细介绍了作业提交、映射任务分配、映射任务执行、归约任务分配、排序、归约任务执行、作业完成等7大MapReduce计算流程,最后描述了MapReduce在云计算中的重要作用。 展开更多
关键词 云计算 mapreduce 映射 归约 作业
下载PDF
MapReduce技术在日志分析中的研究应用 被引量:2
5
作者 林勇 吴翀 +1 位作者 严盟 彭敏佳 《计算机时代》 2017年第6期26-28,共3页
Hadoop技术的核心框架MapReduce非常适用于日志分析系统,并具有良好的易用性和可扩展性。文章将MapReduce的日志处理技术应用于某项目平台的日志数据分析中,以实验结果证明了MapReduce能较好地解决Web日志处理单机所面临的效率低下问题... Hadoop技术的核心框架MapReduce非常适用于日志分析系统,并具有良好的易用性和可扩展性。文章将MapReduce的日志处理技术应用于某项目平台的日志数据分析中,以实验结果证明了MapReduce能较好地解决Web日志处理单机所面临的效率低下问题,能更好地整合计算机资源。 展开更多
关键词 HADOOP mapreduce WEB日志 日志分析
下载PDF
基于MapReduce技术的WebGIS系统研究 被引量:2
6
作者 彭大为 《江西科学》 2019年第5期783-786,共4页
针对当前GIS数据种类繁多且数据量大,数据处理效率低等问题,通过分析MapReduce分布式数据处理机制,设计出基于MapReduce技术的WebGIS系统模式。依据当前国际社会对海量空间地理数据的高效处理需求,证明了该架构可用于对地理空间数据处理... 针对当前GIS数据种类繁多且数据量大,数据处理效率低等问题,通过分析MapReduce分布式数据处理机制,设计出基于MapReduce技术的WebGIS系统模式。依据当前国际社会对海量空间地理数据的高效处理需求,证明了该架构可用于对地理空间数据处理,提出一套基于地理空间数据的处理方案,该方案适合对地理空间数据进行并发处理,可提高运算效率。 展开更多
关键词 GIS WebGIS架构模式 mapreduce 分布式集群 master/worker 海量数据
下载PDF
MapReduce技术在物资调运与配载问题中的应用
7
作者 陈元文 《计算机工程与应用》 CSCD 北大核心 2021年第12期273-278,共6页
针对用于求解复杂物资调运及配载问题的多目标遗传算法耗时较长的问题,设计了基于云计算MapReduce技术的并行化部署和改进方案。实验对比了算法在多种串行、并行环境下的时效性,证实了MapReduce架构在一定环境下能较大幅度提高算法的时... 针对用于求解复杂物资调运及配载问题的多目标遗传算法耗时较长的问题,设计了基于云计算MapReduce技术的并行化部署和改进方案。实验对比了算法在多种串行、并行环境下的时效性,证实了MapReduce架构在一定环境下能较大幅度提高算法的时耗性能。 展开更多
关键词 物资调运及配载 多目标遗传算法 mapreduce 并行化
下载PDF
基于MapReduce的负载均衡策略研究
8
作者 李冬月 尹铁源 《信息与电脑》 2024年第2期177-179,共3页
MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各... MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各分区大小与阈值比较,以确定是否是异常分区。在分区第二阶段融合了偏移分区和细粒度划分的思想,对异常分区进行二次哈希分区操作。实验结果表明,该策略有效解决了MapReduce中的负载均衡问题,减少了数据不平衡带来的性能损失,提高了资源的利用率。 展开更多
关键词 mapreduce 负载均衡 抽样
下载PDF
基于MapReduce的并行化电网运行数据处理方法研究
9
作者 黄新宇 高嵩 +2 位作者 邱刚 谭笑 陈杰 《电子设计工程》 2024年第4期98-102,共5页
在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方... 在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方法。其将云计算应用于新型电力系统,并构建了基于MapReduce云计算模型的并行化处理算法,进而提升了系统的响应速度。通过将该方法应用于电网的数据处理结果表明,所提方法可以有效地提高电网运行数据处理的准确性和工作效率。在海量数据的工况下,其处理效率约为30 min,且随着数据量的增加仍可保持稳定性与准确性,实现了网格化的并行分析。 展开更多
关键词 电网运行数据 mapreduce 并行计算 数据处理
下载PDF
基于MapReduce集群框架的外观专利检索系统设计
10
作者 孙惠芬 《镇江高专学报》 2024年第2期77-81,共5页
基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hado... 基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hadoop,系统能有效加速外观专利检索,提高检索效率和准确性。 展开更多
关键词 外观专利检索系统 mapreduce集群框架 图像检索 全文检索技术
下载PDF
基于Hadoop和MapReduce实现词频的统计与排序
11
作者 孔瑞平 《电脑编程技巧与维护》 2024年第2期15-17,共3页
在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明... 在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明智、及时的决策保驾护航。因此,将在Hadoop集群环境下,运用MapReduce计算框架来实现英文单词的统计与排序功能。 展开更多
关键词 HADOOP集群 mapreduce计算框架 词频统计与排序
下载PDF
基于MapReduce平台的大数据查询与处理优化算法
12
作者 何健 《电脑编程技巧与维护》 2024年第5期107-109,共3页
基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用... 基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用改进RSJ的分布式缓存表连接算法滤除不满足连接条件的数据。仿真实验表明,运用MapReduce并行计算框架和RSJ表连接算法进行数据处理,可减少Map端输出的数据量,缩短网络数据传输与处理时长,实现海量化大数据查询与处理的优化目标。 展开更多
关键词 mapreduce并行运算处理 表连接算法 大数据查询与处理 优化
下载PDF
基于MapReduce云计算的报表平台技术与应用
13
作者 俞红威 朱建 蔡玉立 《江苏通信》 2023年第5期71-75,共5页
随着企业数字化程度越来越高,企业已经积累了大量的业务数据,并且通过EDA建立了集中的数据仓库,业务数据量都达到PB级规模。同时企业对数据运用和报表分析的及时性也越来越高,传统的报表计算方法已经很难满足企业的要求。当前云计算技... 随着企业数字化程度越来越高,企业已经积累了大量的业务数据,并且通过EDA建立了集中的数据仓库,业务数据量都达到PB级规模。同时企业对数据运用和报表分析的及时性也越来越高,传统的报表计算方法已经很难满足企业的要求。当前云计算技术及大数据的发展,给此类复杂报表的快速取数计算提供了一种新的解决方案。本文结合云计算和大数据相关技术,利用MapReduce并行计算原理介绍在其报表平台中的核心技术和深度应用。 展开更多
关键词 云计算 mapreduce 分布式计算 RPC远程调用
下载PDF
基于FP-tree和MapReduce的集合相似度自连接算法 被引量:1
14
作者 冯禹洪 吴坤汉 +4 位作者 黄志鸿 冯洋洲 陈欢欢 白鉴聪 明仲 《计算机研究与发展》 EI CSCD 北大核心 2023年第12期2890-2906,共17页
利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用.基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点.但现有算法在阈值低时产生较大规模的候选集,导致性能... 利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用.基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点.但现有算法在阈值低时产生较大规模的候选集,导致性能不理想.针对这一问题,提出采用频繁模式树FP-tree及其派生结构FP-tree*将数据压缩在内存中计算集合相似度自连接以减小候选集规模.首先设计并讨论基于现有FP-tree*的集合相似度连接计算及其优缺点,提出遍历效率更高的线性频繁模式树结构模型TELP-tree及基于它的算法TELP-SJ(TELP-tree self join),其包括分别面向构建树和遍历树的2阶段过滤算法,这些算法可以减小树规模和减少树遍历.然后,设计基于MapReduce的并行分布式算法FastTELP-SJ.最后,基于4组真实应用数据集进行3组性能比较实验.实验结果表明FastTELP-SJ算法面向高维大规模集合相似度自连接计算时,包括执行时间、内存占用率、磁盘使用量和可扩展性的运行效率最好. 展开更多
关键词 相似度连接 FP树 mapreduce框架 Jaccard函数 集合
下载PDF
基于MapReduce的海量数据挖掘技术研究 被引量:35
15
作者 李伟卫 赵航 +1 位作者 张阳 王勇 《计算机工程与应用》 CSCD 2013年第20期112-117,共6页
MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在... MapReduce是一种编程模型,可以运行在异构环境下,编程简单,不必关心底层实现细节,用于大规模数据集的并行运算。将MapReduce应用在数据挖掘的三个算法中:朴素贝叶斯分类算法、K-modes聚类算法和ECLAT频繁项集挖掘算法。实验结果表明,在保证算法准确率的前提下,MapReduce可以有效提高海量数据挖掘工作的效率。 展开更多
关键词 云计算 数据挖掘 Hadoop mapreduce
下载PDF
MapReduce优化技术综述 被引量:30
16
作者 黄山 王波涛 +2 位作者 王国仁 于戈 李佳佳 《计算机科学与探索》 CSCD 2013年第10期865-885,共21页
作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引... 作为一种处理大数据的并行编程模型,MapReduce由于其良好的可扩展性、可用性、容错性,得到了学术界和工业界的关注。针对MapReduce在应用领域中的不足,已经存在大量的优化技术。介绍了MapReduce框架,比较了现存的MapReduce列存储、索引、连接、迭代计算、科学计算及调度算法方面的优化技术,分析了MapReduce技术研究的挑战性问题,指出了未来研究方向。 展开更多
关键词 mapreduce 列存储 索引 连接 迭代 科学计算 调度算法 优化
下载PDF
基于MapReduce构建专利技术功效图的研究 被引量:15
17
作者 翟东升 蔡万江 +2 位作者 陈晨 黄鲁成 赵京 《情报杂志》 CSSCI 北大核心 2013年第6期29-33,46,共6页
专利技术功效图是一种常见的专利地图,能帮助专利分析人员有效区分专利的密集区、稀疏区和空白区。提出了一种基于文本挖掘的方法从专利信息中提取初步特征词,再结合专家领域知识确定构造技术功效图的特征词。并引入了MapReduce分布式... 专利技术功效图是一种常见的专利地图,能帮助专利分析人员有效区分专利的密集区、稀疏区和空白区。提出了一种基于文本挖掘的方法从专利信息中提取初步特征词,再结合专家领域知识确定构造技术功效图的特征词。并引入了MapReduce分布式计算的概念,通过集群系统解决了传统方法处理海量数据低效的问题。 展开更多
关键词 mapreduce数据挖掘 专利地图 技术功效图
下载PDF
基于hadoop云平台的智能电网MapReduce数据计算技术研究 被引量:9
18
作者 孟祥萍 周来 +1 位作者 王晖 纪秀 《电测与仪表》 北大核心 2015年第10期66-72,共7页
为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏... 为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏移、异构环境下适应性差等。随后考虑MapReduce原始调度方式的弊端并给出均衡数据映射、评估节点性能的MapReduce架构改进方案,并提出了动态匹配的调度算法(DMSA——Dynamic Matching Scheduling Algorithm),最后通过在仿真平台上的集群实验,减少了系统计算资源的消耗,缩短了运行时间,显著地提高了集群性能,同时增强了数据本地性,证明了该策略提高MapReduce计算效率的可行性。 展开更多
关键词 智能电网 数据计算 HADOOP mapreduce
下载PDF
基于共享的MapReduce多查询优化技术 被引量:7
19
作者 赵保学 李战怀 +3 位作者 陈群 潘巍 姜涛 金健 《计算机应用研究》 CSCD 北大核心 2013年第5期1405-1409,共5页
为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一... 为解决MapReduce处理多个查询时效率低下的问题,提出了一种基于查询共享的MapReduce查询优化方法——ShareOpt优化。通过分析所有查询的操作模式,找出其中共享的子查询部分,并根据子查询的执行顺序构造执行计划有向图(DAG),最终确定一组查询的整体执行计划。通过与Hive和Pig的对比,验证了该方法能够在保证准确性的情况下有效地减少执行步数,提高查询执行的效率。 展开更多
关键词 查询优化 mapreduce 查询共享 执行计划
下载PDF
基于MapReduce模型的间歇性能源海量数据处理技术 被引量:13
20
作者 梅华威 米增强 吴广磊 《电力系统自动化》 EI CSCD 北大核心 2014年第15期76-80,99,共6页
针对传统间歇性能源海量数据处理技术的局限性,提出了基于MapReduce模型的间歇性能源海量数据处理技术,利用廉价的商用计算机组成集群,对海量数据进行并行处理,确保了海量数据处理的可靠性、低成本、高效能和扩展性,并对该技术的平台实... 针对传统间歇性能源海量数据处理技术的局限性,提出了基于MapReduce模型的间歇性能源海量数据处理技术,利用廉价的商用计算机组成集群,对海量数据进行并行处理,确保了海量数据处理的可靠性、低成本、高效能和扩展性,并对该技术的平台实现进行了论述。最后通过实验对比不同数据平台下海量数据处理的效率,验证了基于MapReduce模型的间歇性能源海量数据处理技术的高效性。 展开更多
关键词 间歇性能源 风力发电 mapreduce模型 数据处理 云计算
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部