期刊文献+
共找到5,083篇文章
< 1 2 250 >
每页显示 20 50 100
基于Hadoop和MapReduce实现词频的统计与排序
1
作者 孔瑞平 《电脑编程技巧与维护》 2024年第2期15-17,共3页
在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明... 在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明智、及时的决策保驾护航。因此,将在Hadoop集群环境下,运用MapReduce计算框架来实现英文单词的统计与排序功能。 展开更多
关键词 hadoop集群 mapreduce计算框架 词频统计与排序
下载PDF
基于Hadoop和MapReduce的大数据处理系统设计与实现 被引量:7
2
作者 董楠楠 单晓欢 牟有静 《信息通信》 2020年第6期29-31,共3页
随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoo... 随着信息技术的猛烈发展,各行各业产生的数据呈指数型增长。如何利用,分析,整合这些"大数据"成为信息时代的一大挑战。文章针对信息时代下,大规模数据处理分析效率等一系列相关问题,利用Hadoop技术,设计并实现了一套基于Hadoop和MapReduce的大数据处理系统,该系统利用Hadoop分布式文件系统(HDFS)存储数据,利用Hadoop Map Reduce框架分布式处理数据分析任务。实验结果表明:该系统可以将单一数据处理任务分配到一个Hadoop集群上去,继而提高大数据文件处理效率。 展开更多
关键词 信息技术 大数据 hadoop mapreduce
下载PDF
基于Hadoop和MapReduce的商品推荐
3
作者 陶冶 《计算机时代》 2019年第7期29-32,共4页
电子商务网站、社交网站以及医疗、教育、公共平台等各种领域的应用等已深入人们的日常生活,海量信息带来便捷的同时也产生了无用信息的干扰,过滤信息进行智能推荐已成为一种需求。采用协同过滤算法对产品的用户评价数据进行分析,能够... 电子商务网站、社交网站以及医疗、教育、公共平台等各种领域的应用等已深入人们的日常生活,海量信息带来便捷的同时也产生了无用信息的干扰,过滤信息进行智能推荐已成为一种需求。采用协同过滤算法对产品的用户评价数据进行分析,能够跨领域运作分析,具有很好的通用性。依据综合因素对算法进行改进后,利用MapReduce和Storm对提取的数据进行处理,得到数据过滤后的商品推荐列表,并通过实验验证了算法预测的准确度。 展开更多
关键词 大数据 协同过滤算法 hadoop mapreduce
下载PDF
MapReduce模型在大规模数据并行挖掘中的应用
4
作者 唐婧 杜微 周翼 《智能物联技术》 2024年第2期38-42,共5页
MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区... MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区和数据压缩等优化建议。研究成果表明,优化后的TeraSort算法能够显著缩短数据处理时间,优化系统的吞吐量,并改善资源分配的均衡性。 展开更多
关键词 mapreduce 大规模数据 并行挖掘 TeraSort
下载PDF
基于MapReduce的负载均衡策略研究
5
作者 李冬月 尹铁源 《信息与电脑》 2024年第2期177-179,共3页
MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各... MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各分区大小与阈值比较,以确定是否是异常分区。在分区第二阶段融合了偏移分区和细粒度划分的思想,对异常分区进行二次哈希分区操作。实验结果表明,该策略有效解决了MapReduce中的负载均衡问题,减少了数据不平衡带来的性能损失,提高了资源的利用率。 展开更多
关键词 mapreduce 负载均衡 抽样
下载PDF
基于MapReduce的并行化电网运行数据处理方法研究
6
作者 黄新宇 高嵩 +2 位作者 邱刚 谭笑 陈杰 《电子设计工程》 2024年第4期98-102,共5页
在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方... 在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方法。其将云计算应用于新型电力系统,并构建了基于MapReduce云计算模型的并行化处理算法,进而提升了系统的响应速度。通过将该方法应用于电网的数据处理结果表明,所提方法可以有效地提高电网运行数据处理的准确性和工作效率。在海量数据的工况下,其处理效率约为30 min,且随着数据量的增加仍可保持稳定性与准确性,实现了网格化的并行分析。 展开更多
关键词 电网运行数据 mapreduce 并行计算 数据处理
下载PDF
基于MapReduce集群框架的外观专利检索系统设计
7
作者 孙惠芬 《镇江高专学报》 2024年第2期77-81,共5页
基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hado... 基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hadoop,系统能有效加速外观专利检索,提高检索效率和准确性。 展开更多
关键词 外观专利检索系统 mapreduce集群框架 图像检索 全文检索技术
下载PDF
New Spam Filtering Method with Hadoop Tuning-Based MapReduce Naïve Bayes
8
作者 Keungyeup Ji Youngmi Kwon 《Computer Systems Science & Engineering》 SCIE EI 2023年第4期201-214,共14页
As the importance of email increases,the amount of malicious email is also increasing,so the need for malicious email filtering is growing.Since it is more economical to combine commodity hardware consisting of a medi... As the importance of email increases,the amount of malicious email is also increasing,so the need for malicious email filtering is growing.Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques,we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering.Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine(SVM),Naïve Bayes,K-Nearest Neighbor(KNN),and Decision Tree)in terms of execution time and accuracy.Malicious email was filtered with MapReduce programming using the Naïve Bayes technique,which is a supervised machine learning method,in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied.According to the results of a comparison of the accuracy and predictive error rates of the two methods,the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method. 展开更多
关键词 hadoop hadoop distributed file system(HDFS) mapreduce configuration parameter malicious email filtering Naïve Bayes
下载PDF
基于MapReduce平台的大数据查询与处理优化算法
9
作者 何健 《电脑编程技巧与维护》 2024年第5期107-109,共3页
基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用... 基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用改进RSJ的分布式缓存表连接算法滤除不满足连接条件的数据。仿真实验表明,运用MapReduce并行计算框架和RSJ表连接算法进行数据处理,可减少Map端输出的数据量,缩短网络数据传输与处理时长,实现海量化大数据查询与处理的优化目标。 展开更多
关键词 mapreduce并行运算处理 表连接算法 大数据查询与处理 优化
下载PDF
基于FP-tree和MapReduce的集合相似度自连接算法 被引量:1
10
作者 冯禹洪 吴坤汉 +4 位作者 黄志鸿 冯洋洲 陈欢欢 白鉴聪 明仲 《计算机研究与发展》 EI CSCD 北大核心 2023年第12期2890-2906,共17页
利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用.基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点.但现有算法在阈值低时产生较大规模的候选集,导致性能... 利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用.基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点.但现有算法在阈值低时产生较大规模的候选集,导致性能不理想.针对这一问题,提出采用频繁模式树FP-tree及其派生结构FP-tree*将数据压缩在内存中计算集合相似度自连接以减小候选集规模.首先设计并讨论基于现有FP-tree*的集合相似度连接计算及其优缺点,提出遍历效率更高的线性频繁模式树结构模型TELP-tree及基于它的算法TELP-SJ(TELP-tree self join),其包括分别面向构建树和遍历树的2阶段过滤算法,这些算法可以减小树规模和减少树遍历.然后,设计基于MapReduce的并行分布式算法FastTELP-SJ.最后,基于4组真实应用数据集进行3组性能比较实验.实验结果表明FastTELP-SJ算法面向高维大规模集合相似度自连接计算时,包括执行时间、内存占用率、磁盘使用量和可扩展性的运行效率最好. 展开更多
关键词 相似度连接 FP树 mapreduce框架 Jaccard函数 集合
下载PDF
Hadoop云平台MapReduce模型优化研究 被引量:10
11
作者 张红 王晓明 +3 位作者 曹洁 马彦宏 郭义戎 王慜 《计算机工程与应用》 CSCD 北大核心 2016年第22期22-25,共4页
针对Hadoop平台Map Reduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种Map Reduce+Open MP粗细... 针对Hadoop平台Map Reduce分布式计算模型运行机制中的顺序制约而产生的计算资源浪费问题,从提高平台中每个执行节点的细粒度并行数据处理角度出发,结合Java共享内存多线程编程技术,对该模型进行了优化,提出一种Map Reduce+Open MP粗细粒度相结合的分布式并行计算模型。并在由四个节点组成的Hadoop集群环境下对不同规模大小的出租车GPS轨迹数据分析处理,验证该模型的性能和效率,实验结果证明Map Reduce+Open MP分布式并行计算模型确实能够提高针对大数据集的计算效率,是对Hadoop平台大数据分析处理模型有效的完善和优化。 展开更多
关键词 hadoop mapreduce OPENMP 分布式 并行
下载PDF
基于hadoop云平台的智能电网MapReduce数据计算技术研究 被引量:10
12
作者 孟祥萍 周来 +1 位作者 王晖 纪秀 《电测与仪表》 北大核心 2015年第10期66-72,共7页
为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏... 为应对未来智能电网海量数据信息带来的实时计算、分析等难题,文章首先在Hadoop云计算平台基础上搭建MapReduce框架,论证了其良好的数据计算性能,并通过实验发现MapReduce在进一步提高计算效率方面的诸多问题——任务调度不均、数据偏移、异构环境下适应性差等。随后考虑MapReduce原始调度方式的弊端并给出均衡数据映射、评估节点性能的MapReduce架构改进方案,并提出了动态匹配的调度算法(DMSA——Dynamic Matching Scheduling Algorithm),最后通过在仿真平台上的集群实验,减少了系统计算资源的消耗,缩短了运行时间,显著地提高了集群性能,同时增强了数据本地性,证明了该策略提高MapReduce计算效率的可行性。 展开更多
关键词 智能电网 数据计算 hadoop mapreduce
下载PDF
Hadoop平台中MapReduce调度算法研究 被引量:11
13
作者 徐焕良 翟璐 +1 位作者 薛卫 任守纲 《计算机应用与软件》 CSCD 2015年第5期1-6,16,共7页
MapReduce是一种新型的并行计算框架,在计算速度,容错性,可靠性等方面具有优势,因此得到了广泛的商业应用与科学研究。而调度算法作为MapReduce的核心组成部分,它的优劣成为了直接影响MapReduce性能的关键因素,因而得到了很大的关注。... MapReduce是一种新型的并行计算框架,在计算速度,容错性,可靠性等方面具有优势,因此得到了广泛的商业应用与科学研究。而调度算法作为MapReduce的核心组成部分,它的优劣成为了直接影响MapReduce性能的关键因素,因而得到了很大的关注。在介绍和分析MapReduce并行计算模型的基础上,介绍了几种相关的模型改进,并基于Hadoop平台,重点研究了MapReduce的常用调度算法及改进算法。通过对比分析,就MapReduce未来的发展进行了进一步的探讨,为其调度算法的改进提供有效的方法。 展开更多
关键词 云计算 并行计算模型 hadoop mapreduce 调度算法
下载PDF
基于Hadoop的MapReduce模型的研究与改进 被引量:36
14
作者 李玉林 董晶 《计算机工程与设计》 CSCD 北大核心 2012年第8期3110-3116,共7页
针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通... 针对MapReduce模型中存在的多个Reduce任务之间完成时间差别较大的问题,分析了影响Reduce任务完成时间的因素,指出了MapReduce模型中Reduce任务节点存在数据倾斜问题,提出了一种改进型的MapReduce模型MBR(Map-Balance-Reduce)模型。通过添加Balance任务,对Map任务处理完成的中间数据进行均衡操作,使得分配到Reduce任务节点的数据比较均衡,从而确保Reduce任务的完成时间基本一致。仿真实验结果表明,经过Balance任务后,Map任务产生的中间数据能够比较均衡的分配给Reduce任务节点,达到数据计算均衡的目的,在一定程度上减少了整个作业的执行时间。 展开更多
关键词 mapreduce模型 hadoop 数据倾斜 云计算 并行编程
下载PDF
Hadoop-MapReduce下的PageRank矩阵分块算法 被引量:13
15
作者 李远方 邓世昆 +1 位作者 闻玉彪 韩月阳 《计算机技术与发展》 2011年第8期6-9,13,共5页
PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块... PageRank是Web结构挖掘的经典算法,已在Google搜索引擎中取得了巨大成功。但其迭代次数多,时空消耗大,执行速度和收敛速度都还较慢。文中详细讨论了Hadoop-MapReduce的执行流程及其内部实现机制后,提出了一种并行MapReduce实现矩阵分块的PageRank算法,其实质是减少MapReduce框架结构中Map阶段和Reduce阶段的迭代次数,从而减少时空开销。最后搭建Hadoop-MapReduce开源平台,模拟Web结构爬取,比较了传统算法和改进算法的性能。结果表明,改进后的算法迭代次数低,并行效率较高,在模拟环境中PageRank标识网页等级显示其优越性。 展开更多
关键词 PAGERANK mapreduce hadoop 矩阵分块
下载PDF
基于MapReduce的Hadoop大表导入编程模型 被引量:13
16
作者 陈吉荣 乐嘉锦 《计算机应用》 CSCD 北大核心 2013年第9期2486-2489,2561,共5页
针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长... 针对Sqoop在导入大表时表现出的不稳定和效率较低两个主要问题,设计并实现了一种新的基于MapReduce的大表导入编程模型。该模型对于大表的切分算法是:将大表总的记录数对mapper数求步长,获得对应每个split的SQL查询语句的起始行和区间长度(等于步长),从而保证每个mapper的导入工作量完全相同。该模型的map方式是:进入map函数的键值对中的键是一个split所对应的SQL语句,将查询放在map函数中完成,从而使得模型中的每个mapper只调用一次map函数。对比实验表明:两个记录数相同的大表,无论其记录区间如何分布,其导入时间基本相同,或者对同一表分别用不同的分割字段,导入时间也完全相同;而对于同一个大表,模型的导入效率比Sqoop有显著提高。 展开更多
关键词 编程模型 hadoop mapreduce hadoop分布式文件系统 Sqoop
下载PDF
Hadoop MapReduce短作业执行性能优化 被引量:28
17
作者 顾荣 严金双 +2 位作者 杨晓亮 袁春风 黄宜华 《计算机研究与发展》 EI CSCD 北大核心 2014年第6期1270-1280,共11页
Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在... Hadoop MapReduce并行计算框架被广泛应用于大规模数据并行处理.近年来,由于其能较好地处理大规模数据,Hadoop MapReduce也被越来越多地使用在查询应用中.为了能够处理大规模数据集,Hadoop的基本设计更多地强调了数据的高吞吐率.然而在处理对短作业响应性能有较高要求的查询应用时,Hadoop MapReduce并行计算框架存在明显不足.为了提升Hadoop对于短作业的执行效率,对原有的Hadoop MapReduce作出以下3点优化:1)通过优化原有的setup和cleanup任务的执行方式,成功地缩短了作业初始化环境准备和作业结束环境清理的时间;2)将首次任务分配从"拉"模式转变为"推"模式;3)将作业执行过程中JobTracker和TaskTrackers之间的控制消息通信从现有的周期性心跳机制中分离出来,采用即时传递机制.最后,采用一种典型的基于MapReduce并行化的查询应用BLAST,对优化工作进行了评估.各种不同类型BLAST作业的测试实验表明,与现有的标准Hadoop相比,优化后的Hadoop平均执行性能提升约23%. 展开更多
关键词 mapreduce 并行计算 短作业 性能优化 大数据处理
下载PDF
基于Hadoop框架的MapReduce计算模式的优化设计 被引量:12
18
作者 孙彦超 王兴芬 《计算机科学》 CSCD 北大核心 2014年第B11期333-336,共4页
对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究M... 对某高校教学资源平台的海量日志进行了分析,将传统单机分析处理模式,转变为Hadoop框架下的MapReduce分布式处理模式。MapReduce采用分而治之的思想,很好地解决了单机对海量数据处理产生的瓶颈问题。通过分析Hadoop源码的使用,认真研究MapReduce对海量数据处理作业流程分析,提出了MapReduce分布式作业计算的优化策略,从而更好地提高了海量数据的处理效率。 展开更多
关键词 hadoop 海量数据 mapreduce 分布式计算
下载PDF
基于Hadoop MapReduce的大规模数据索引构建与集群性能分析 被引量:11
19
作者 谌超 强保华 石龙 《桂林电子科技大学学报》 2012年第4期307-312,共6页
为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集... 为了满足搜索引擎构建索引的时空开销需求,构建高效的分布式索引,利用Hadoop搭建分布式集群环境,基于MapReduce编程实现大数据倒排索引。采用不同的网络带宽、数据量和集群节点数来评估Hadoop集群的性能。实验结果表明:网络带宽越大,集群处理效率越高;集群节点数越多,处理大数据的能力越强。可见,网络通信带宽对Hadoop集群性能有一定影响,高速集群链路有利于发挥集群的性能。 展开更多
关键词 mapreduce 倒排索引 hadoop集群
下载PDF
基于Hadoop的贝叶斯过滤MapReduce模型 被引量:3
20
作者 曾青华 袁家斌 张云洲 《计算机工程》 CAS CSCD 2013年第11期57-60,64,共5页
传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤Ma... 传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过滤算法进行并行化改进,利用云计算MapReduce模型在海量数据处理方面的优势,设计一种基于Hadoop开源云架构的贝叶斯邮件过滤MapReduce模型,优化邮件的训练和过滤过程。实验结果表明,与传统分布式计算模型相比,该模型在召回率、查准率和精确率方面性能较好,同时可降低邮件过滤成本,提高系统执行效率。 展开更多
关键词 云计算 mapreduce模型 hadoop架构 贝叶斯算法 垃圾邮件 反垃圾邮件过滤
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部