期刊文献+
共找到5,112篇文章
< 1 2 250 >
每页显示 20 50 100
基于Hadoop和MapReduce实现词频的统计与排序
1
作者 孔瑞平 《电脑编程技巧与维护》 2024年第2期15-17,共3页
在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明... 在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明智、及时的决策保驾护航。因此,将在Hadoop集群环境下,运用MapReduce计算框架来实现英文单词的统计与排序功能。 展开更多
关键词 hadoop集群 mapreduce计算框架 词频统计与排序
下载PDF
基于Hadoop和MapReduce的大数据处理系统设计与实现 被引量:8
2
作者 董楠楠 单晓欢 牟有静 《信息通信》 2020年第6期29-31,共3页
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoo... 随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。 展开更多
关键词 信息技术 大数据 hadoop mapreduce
下载PDF
基于Hadoop和MapReduce的商品推荐
3
作者 陶冶 《计算机时代》 2019年第7期29-32,共4页
电子商务网站、社交网站以及医疗、教育、公共平台等各种领域的应用等已深入人们的日常生活,海量信息带来便捷的同时也产生了无用信息的干扰,过滤信息进行智能推荐已成为一种需求。采用协同过滤算法对产品的用户评价数据进行分析,能够... 电子商务网站、社交网站以及医疗、教育、公共平台等各种领域的应用等已深入人们的日常生活,海量信息带来便捷的同时也产生了无用信息的干扰,过滤信息进行智能推荐已成为一种需求。采用协同过滤算法对产品的用户评价数据进行分析,能够跨领域运作分析,具有很好的通用性。依据综合因素对算法进行改进后,利用MapReduce和Storm对提取的数据进行处理,得到数据过滤后的商品推荐列表,并通过实验验证了算法预测的准确度。 展开更多
关键词 大数据 协同过滤算法 hadoop mapreduce
下载PDF
Hadoop云平台MapReduce模型优化研究 被引量:10
4
作者 张红 王晓明 +3 位作者 曹洁 马彦宏 郭义戎 王慜 《计算机工程与应用》 CSCD 北大核心 2016年第22期22-25,共4页
针对Hadoop平台Map Reduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种Map Reduce+Open MP粗细... 针对Hadoop平台Map Reduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种Map Reduce+Open MP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明Map Reduce+Open MP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。 展开更多
关键词 hadoop mapreduce OPENMP 分布式 并行
下载PDF
Hadoop平台中MapReduce调度算法研究 被引量:11
5
作者 徐焕良 翟璐 +1 位作者 薛卫 任守纲 《计算机应用与软件》 CSCD 2015年第5期1-6,16,共7页
MapReduce是一种新型的并行计算框架,在计算速度,容错性,可靠性等方面具有优势,因此得到了广泛的商业应用与科学研究。而调度算法作为MapReduce的核心组成部分,它的优劣成为了直接影响MapReduce性能的关键因素,因而得到了很大的关注。... MapReduce是一种新型的并行计算框架,在计算速度,容错性,可靠性等方面具有优势,因此得到了广泛的商业应用与科学研究。而调度算法作为MapReduce的核心组成部分,它的优劣成为了直接影响MapReduce性能的关键因素,因而得到了很大的关注。在介绍和分析MapReduce并行计算模型的基础上,介绍了几种相关的模型改进,并基于Hadoop平台,重点研究了MapReduce的常用调度算法及改进算法。通过对比分析,就MapReduce未来的发展进行了进一步的探讨,为其调度算法的改进提供有效的方法。 展开更多
关键词 云计算 并行计算模型 hadoop mapreduce 调度算法
下载PDF
基于hadoop云平台的智能电网MapReduce数据计算技术研究 被引量:10
6
作者 孟祥萍 周来 +1 位作者 王晖 纪秀 《电测与仪表》 北大核心 2015年第10期66-72,共7页
为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏... 为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏移、异构环境下适应性差等。随后考虑MapReduce原始调度方式的弊端并给出均衡数据映射、评估节点性能的MapReduce架构改进方案,并提出了动态匹配的调度算法(DMSA——Dynamic Matching Scheduling Algorithm),最后通过在仿真平台上的集群实验,减少了系统计算资源的消耗,缩短了运行时间,显著地提高了集群性能,同时增强了数据本地性,证明了该策略提高MapReduce计算效率的可行性。 展开更多
关键词 智能电网 数据计算 hadoop mapreduce
下载PDF
基于Hadoop的MapReduce模型的研究与改进 被引量:36
7
作者 李玉林 董晶 《计算机工程与设计》 CSCD 北大核心 2012年第8期3110-3116,共7页
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通... 针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。 展开更多
关键词 mapreduce模型 hadoop 数据倾斜 云计算 并行编程
下载PDF
Hadoop-MapReduce下的PageRank矩阵分块算法 被引量:13
8
作者 李远方 邓世昆 +1 位作者 闻玉彪 韩月阳 《计算机技术与发展》 2011年第8期6-9,13,共5页
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块... PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。 展开更多
关键词 PAGERANK mapreduce hadoop 矩阵分块
下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
9
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop mapreduce hadoop分布式文件系统 Sqoop
下载PDF
Hadoop MapReduce短作业执行性能优化 被引量:28
10
作者 顾荣 严金双 +2 位作者 杨晓亮 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1270-1280,共11页
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在... Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%. 展开更多
关键词 mapreduce 并行计算 短作业 性能优化 大数据处理
下载PDF
基于Hadoop框架的MapReduce计算模式的优化设计 被引量:12
11
作者 孙彦超 王兴芬 《计算机科学》 CSCD 北大核心 2014年第B11期333-336,共4页
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究M... 对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。 展开更多
关键词 hadoop 海量数据 mapreduce 分布式计算
下载PDF
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析 被引量:11
12
作者 谌超 强保华 石龙 《桂林电子科技大学学报》 2012年第4期307-312,共6页
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集... 为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强。可见,网络通信带宽对Hadoop集群性能有一定影响,高速集群链路有利于发挥集群的性能。 展开更多
关键词 mapreduce 倒排索引 hadoop集群
下载PDF
基于Hadoop的贝叶斯过滤MapReduce模型 被引量:3
13
作者 曾青华 袁家斌 张云洲 《计算机工程》 CAS CSCD 2013年第11期57-60,64,共5页
传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤Ma... 传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤MapReduce模型,优化邮件的训练和过滤过程。实验结果表明,与传统分布式计算模型相比,该模型在召回率、查准率和精确率方面性能较好,同时可降低邮件过滤成本,提高系统执行效率。 展开更多
关键词 云计算 mapreduce模型 hadoop架构 贝叶斯算法 垃圾邮件 反垃圾邮件过滤
下载PDF
一种适用于Hadoop MapReduce环境的数据预取方法 被引量:5
14
作者 张霄宏 雒芬 +1 位作者 贾宗璞 沈记全 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2014年第2期191-196,共6页
为解决由Reduce任务引起的远程数据访问延时和资源竞争导致的系统性能问题,提出了一种基于预调度的数据预取方法.该方法通过预取数据来隐藏由Reduce任务引起的远程数据访问延时,通过控制与Reduce任务相关的资源分配来减少由其引起的资... 为解决由Reduce任务引起的远程数据访问延时和资源竞争导致的系统性能问题,提出了一种基于预调度的数据预取方法.该方法通过预取数据来隐藏由Reduce任务引起的远程数据访问延时,通过控制与Reduce任务相关的资源分配来减少由其引起的资源竞争.此方法已在Hadoop-0.20.2中实现.实验结果表明,与缺省的Hadoop MapReduce及Hadoop Online Prototype相比,该方法可将系统性能提高10%以上. 展开更多
关键词 mapreduce 分布式计算 预取 调度
下载PDF
Hadoop HDFS和MapReduce架构浅析 被引量:73
15
作者 郝树魁 《邮电设计技术》 2012年第7期37-42,共6页
在简述Hadoop namenode、datanode运行模式的基础上,重点介绍了Hadoop MapReduce的工作机制,并以作业提交、作业初始化、任务分配、任务执行和任务进度更新等流程介绍了Job Client、JobTracker、TaskTracker和HDFS在MapReduce过程中的... 在简述Hadoop namenode、datanode运行模式的基础上,重点介绍了Hadoop MapReduce的工作机制,并以作业提交、作业初始化、任务分配、任务执行和任务进度更新等流程介绍了Job Client、JobTracker、TaskTracker和HDFS在MapReduce过程中的分工与协作,最后,对云计算作出展望。 展开更多
关键词 hadoop HDFS namenode datanode mapreduce JobTracker TaskTracker
下载PDF
基于灰盒模型的Hadoop MapReduce job参数性能分析与预测 被引量:6
16
作者 周世龙 陈兴蜀 罗永刚 《四川大学学报(工程科学版)》 CSCD 北大核心 2014年第S1期146-154,共9页
针对传统使用统计机器学习对Hadoop MapReduce job参数性能预测时完全基于黑盒模型,预测精度不高且不具有扩展性等问题,提出一种结合黑盒和白盒的灰盒预测方法。定性分析了MapReduce job配置参数对job性能的影响;基于局部加权线性回归... 针对传统使用统计机器学习对Hadoop MapReduce job参数性能预测时完全基于黑盒模型,预测精度不高且不具有扩展性等问题,提出一种结合黑盒和白盒的灰盒预测方法。定性分析了MapReduce job配置参数对job性能的影响;基于局部加权线性回归分别对job的map task和reduce task性能进行预测;实现Hadoop调度器模拟器,并利用调度器模拟器对预测的job map task和reduce task进行调度,计算job执行时间,达到预测job性能目的。实验通过对比传统基于黑盒方法的预测效果,表明灰盒模型有更好的预测精度,并且可以完成集群规模变化后的job性能预测。 展开更多
关键词 hadoop 调度器模拟 配置参数 灰盒模型 局部加权线性回归
下载PDF
Hadoop平台下MapReduce模型调度算法研究 被引量:1
17
作者 刘伟 杜永文 吕晓剑 《广西民族大学学报(自然科学版)》 CAS 2014年第3期72-74,85,共4页
针对Hadoop默认FIFO调度算法和Fair调度算法、Capacity调度算法的不足,引入了一种基于优先权的自适应MapReduce调度算法.该算法利用作业权值为不同的Job分配不同的系统资源,同时根据各TaskTracker节点反馈回来的消息调整可执行队列的长... 针对Hadoop默认FIFO调度算法和Fair调度算法、Capacity调度算法的不足,引入了一种基于优先权的自适应MapReduce调度算法.该算法利用作业权值为不同的Job分配不同的系统资源,同时根据各TaskTracker节点反馈回来的消息调整可执行队列的长度,以达到各节点负载平衡,提高系统的执行效率. 展开更多
关键词 hadoop mapreduce 调度算法 基于优先权的自适应调度算法
下载PDF
Hadoop MapReduce新旧架构的对比研究综述 被引量:8
18
作者 于金良 朱志祥 李聪颖 《计算机与数字工程》 2017年第1期83-87,共5页
Hadoop MapReduce架构经过了一次重构,新旧架构有着巨大的差异。论文首先介绍了旧版本MapReduce的架构,作业执行的流程与其中的任务的调度、资源分配等,指出了旧框架的局限性。再介绍了新框架的架构,任务调度和资源分配等。并从二者的... Hadoop MapReduce架构经过了一次重构,新旧架构有着巨大的差异。论文首先介绍了旧版本MapReduce的架构,作业执行的流程与其中的任务的调度、资源分配等,指出了旧框架的局限性。再介绍了新框架的架构,任务调度和资源分配等。并从二者的架构、任务调度、资源分配等方面进行了对比,指出了新框架的优势。新一代的MapReduce框架YARN是共享模式的,可以在同一集群上运行使用不同的计算框架编写的应用程序,同时也减少了运维的难度,提高了集群资源的利用率。 展开更多
关键词 mapreduce YARN 任务调度 资源分配
下载PDF
基于Hadoop MapReduce模型的应用研究 被引量:69
19
作者 谢桂兰 罗省贤 《微型机与应用》 2010年第8期4-7,共4页
MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的... MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。 展开更多
关键词 分布式并行计算 hadoop 编程模型 mapreduce
下载PDF
基于Hadoop MapReduce的分布式数据流聚类算法研究 被引量:5
20
作者 蔡斌雷 任家东 +1 位作者 朱世伟 郭芹 《信息工程大学学报》 2014年第4期472-478,共7页
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Had... 随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC-Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC-Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。 展开更多
关键词 数据挖掘 聚类 数据流聚类 分布式聚类
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部