期刊文献+
共找到2,054篇文章
< 1 2 103 >
每页显示 20 50 100
MapReduce模型在大规模数据并行挖掘中的应用
1
作者 唐婧 杜微 周翼 《智能物联技术》 2024年第2期38-42,共5页
MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区... MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区和数据压缩等优化建议。研究成果表明,优化后的TeraSort算法能够显著缩短数据处理时间,优化系统的吞吐量,并改善资源分配的均衡性。 展开更多
关键词 mapreduce 大规模数据 并行挖掘 TeraSort
下载PDF
基于MapReduce和OpenMP混合编程的高分三号数据并行转换算法
2
作者 邱祥峰 《测绘与空间地理信息》 2024年第8期35-36,41,共3页
高分三号03与02、01卫星一起成功组网形成我国第一个海陆三星雷达卫星星座。针对PolSARpro软件存在高分三号数据转换较慢的问题,提出了一种按照该软件的数据格式要求对高分三号数据进行高效并行转换的算法。该算法基于MapReduce和Open M... 高分三号03与02、01卫星一起成功组网形成我国第一个海陆三星雷达卫星星座。针对PolSARpro软件存在高分三号数据转换较慢的问题,提出了一种按照该软件的数据格式要求对高分三号数据进行高效并行转换的算法。该算法基于MapReduce和Open MP进行混合编程,实现高分三号极化数据快速准确地转化为S2格式,最终采用KingMap V9.0软件编码实现了该算法并对真实的高分三号数据进行测试,验证了该算法的可扩展性、高效性、正确性和可行性。 展开更多
关键词 高分三号 合成孔径雷达 复数散射矩阵 OPENMP mapreduce KingMap
下载PDF
基于MapReduce的并行化电网运行数据处理方法研究 被引量:1
3
作者 黄新宇 高嵩 +2 位作者 邱刚 谭笑 陈杰 《电子设计工程》 2024年第4期98-102,共5页
在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方... 在大规模新能源的新型电力系统中,由于云端电力数据存在结构复杂、数据量大及多维度的特点,因此不利于发挥数据对运行的指导作用,甚至有可能危害电力系统的安全、稳定运行。针对上述问题,文中提出了一种基于MapReduce的电网数据分析方法。其将云计算应用于新型电力系统,并构建了基于MapReduce云计算模型的并行化处理算法,进而提升了系统的响应速度。通过将该方法应用于电网的数据处理结果表明,所提方法可以有效地提高电网运行数据处理的准确性和工作效率。在海量数据的工况下,其处理效率约为30 min,且随着数据量的增加仍可保持稳定性与准确性,实现了网格化的并行分析。 展开更多
关键词 电网运行数据 mapreduce 并行计算 数据处理
下载PDF
基于MapReduce的负载均衡策略研究
4
作者 李冬月 尹铁源 《信息与电脑》 2024年第2期177-179,共3页
MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各... MapReduce是Hadoop集群框架中的重要组件,用于大规模数据集的并行运算。文章针对MapReduce中存在的负载均衡问题,提出基于抽样的两阶段哈希分区策略,采用二层抽样技术进行数据采样。在分区第一阶段使用Hash算法对样本进行初始分区,将各分区大小与阈值比较,以确定是否是异常分区。在分区第二阶段融合了偏移分区和细粒度划分的思想,对异常分区进行二次哈希分区操作。实验结果表明,该策略有效解决了MapReduce中的负载均衡问题,减少了数据不平衡带来的性能损失,提高了资源的利用率。 展开更多
关键词 mapreduce 负载均衡 抽样
下载PDF
基于MapReduce集群框架的外观专利检索系统设计
5
作者 孙惠芬 《镇江高专学报》 2024年第2期77-81,共5页
基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hado... 基于MapReduce集群框架的外观专利检索系统设计旨在提高专利检索的效率和准确性。该系统以Hadoop分布式文件系统(HDFS)为存储基础,利用MapReduce并行计算模型实现专利数据的快速处理和检索。通过搭建Linux集群环境和分布式计算平台Hadoop,系统能有效加速外观专利检索,提高检索效率和准确性。 展开更多
关键词 外观专利检索系统 mapreduce集群框架 图像检索 全文检索技术
下载PDF
Classification with Convolutional Neural Networks in MapReduce
6
作者 Min Chen 《Journal of Computer and Communications》 2024年第8期174-190,共17页
Deep learning (DL) techniques, more specifically Convolutional Neural Networks (CNNs), have become increasingly popular in advancing the field of data science and have had great successes in a wide array of applicatio... Deep learning (DL) techniques, more specifically Convolutional Neural Networks (CNNs), have become increasingly popular in advancing the field of data science and have had great successes in a wide array of applications including computer vision, speech, natural language processing, etc. However, the training process of CNNs is computationally intensive and has high computational cost, especially when the dataset is huge. To overcome these obstacles, this paper takes advantage of distributed frameworks and cloud computing to develop a parallel CNN algorithm. MapReduce is a scalable and fault-tolerant data processing tool that was developed to provide significant improvements in large-scale data-intensive applications in clusters. A MapReduce-based CNN (MCNN) is developed in this work to tackle the task of image classification. In addition, the proposed MCNN adopted the idea of adding dropout layers in the networks to tackle the overfitting problem. Close examination of the implementation of MCNN as well as how the proposed algorithm accelerates learning are discussed and demonstrated through experiments. Results reveal high classification accuracy and significant improvements in speedup, scaleup and sizeup compared to the standard algorithms. 展开更多
关键词 Distributed System Image Classification CNNS mapreduce OVERFITTING
下载PDF
基于MapReduce平台的大数据查询与处理优化算法
7
作者 何健 《电脑编程技巧与维护》 2024年第5期107-109,共3页
基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用... 基于MapReduce编程并行计算框架、RSJ表连接算法等软件技术,构建了混合式MapReduce并行运算处理系统,通过读取元信息管理表的数据、提取表连接属性信息,按照表数据的属性列进行完整的数据复制与存储,得到合并汇总后完整的共享信息,使用改进RSJ的分布式缓存表连接算法滤除不满足连接条件的数据。仿真实验表明,运用MapReduce并行计算框架和RSJ表连接算法进行数据处理,可减少Map端输出的数据量,缩短网络数据传输与处理时长,实现海量化大数据查询与处理的优化目标。 展开更多
关键词 mapreduce并行运算处理 表连接算法 大数据查询与处理 优化
下载PDF
基于Hadoop和MapReduce实现词频的统计与排序
8
作者 孔瑞平 《电脑编程技巧与维护》 2024年第2期15-17,共3页
在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明... 在大数据背景下,词频统计是被频繁提及的一个需求。一个词在文档中出现的频率越高就越重要,通过对每个词出现频率的统计而得出质的评价,从而为用户提供大量相关行业的数据信息,最终助力用户简便、快速地找到所需信息,为其做出精确、明智、及时的决策保驾护航。因此,将在Hadoop集群环境下,运用MapReduce计算框架来实现英文单词的统计与排序功能。 展开更多
关键词 HADOOP集群 mapreduce计算框架 词频统计与排序
下载PDF
基于FP-tree和MapReduce的集合相似度自连接算法 被引量:1
9
作者 冯禹洪 吴坤汉 +4 位作者 黄志鸿 冯洋洲 陈欢欢 白鉴聪 明仲 《计算机研究与发展》 EI CSCD 北大核心 2023年第12期2890-2906,共17页
利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用.基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点.但现有算法在阈值低时产生较大规模的候选集,导致性能... 利用集合相似度自连接算法找出一个集合集中所有相似度大于给定阈值的集合对有着广泛的应用.基于过滤-验证框架和并行分布式计算框架MapReduce的集合相似度连接是近年来的研究热点.但现有算法在阈值低时产生较大规模的候选集,导致性能不理想.针对这一问题,提出采用频繁模式树FP-tree及其派生结构FP-tree*将数据压缩在内存中计算集合相似度自连接以减小候选集规模.首先设计并讨论基于现有FP-tree*的集合相似度连接计算及其优缺点,提出遍历效率更高的线性频繁模式树结构模型TELP-tree及基于它的算法TELP-SJ(TELP-tree self join),其包括分别面向构建树和遍历树的2阶段过滤算法,这些算法可以减小树规模和减少树遍历.然后,设计基于MapReduce的并行分布式算法FastTELP-SJ.最后,基于4组真实应用数据集进行3组性能比较实验.实验结果表明FastTELP-SJ算法面向高维大规模集合相似度自连接计算时,包括执行时间、内存占用率、磁盘使用量和可扩展性的运行效率最好. 展开更多
关键词 相似度连接 FP树 mapreduce框架 Jaccard函数 集合
下载PDF
混合存储模式下MapReduce作业调度 被引量:3
10
作者 杨振宇 牛天洋 吕敏 《计算机系统应用》 2023年第3期70-85,共16页
在异构Hadoop集群场景中,为了缓和由于纠删码和副本存储模式混合使用,以及服务器节点本身实时算力差异造成的MapReduce作业处理效率低下的问题,本文实现了一种根据数据存储情况和节点实时负载来在多并发场景下动态调节MapReduce作业任... 在异构Hadoop集群场景中,为了缓和由于纠删码和副本存储模式混合使用,以及服务器节点本身实时算力差异造成的MapReduce作业处理效率低下的问题,本文实现了一种根据数据存储情况和节点实时负载来在多并发场景下动态调节MapReduce作业任务分配情况的调度策略.该策略通过修改当前Hadoop框架中的数据存储选址策略并对节点任务并发量进行动态控制,在多作业并发时实现更加均衡的作业间资源分配.实验结果表明,相较于Hadoop默认的两种作业调度策略,本文提出的调度模式能够将作业完成时间缩短约17%,并有效避免部分作业面临的饥饿现象. 展开更多
关键词 mapreduce 作业调度 纠删码 异构集群 混合存储 云计算 负载均衡 大数据
下载PDF
基于MapReduce的输电监测数据智能检索模型 被引量:3
11
作者 赵松燕 曲朝阳 +4 位作者 郭晓利 余通 黎新 谢铭 余福 《电力系统保护与控制》 EI CSCD 北大核心 2023年第22期177-187,共11页
随着新型电力系统发展,输电监测文本数据呈现出体量大、增速快等特点,且因行业数据传输协议私有化,导致数据检索性能低,影响输电线路实时决策分析。因此提出了基于MapReduce的输电监测数据智能检索模型。首先,改进了SimHash算法,实现输... 随着新型电力系统发展,输电监测文本数据呈现出体量大、增速快等特点,且因行业数据传输协议私有化,导致数据检索性能低,影响输电线路实时决策分析。因此提出了基于MapReduce的输电监测数据智能检索模型。首先,改进了SimHash算法,实现输电线路在线监测文本数据检索向量的高效提取。并引入多属性决策以及综合评分机制,实现目标数据的精准检索,提升数据的检索精度及查全率。其次,针对数据体量大、增速快的特点,设计了基于MapReduce的电力数据检索模型。最后,通过电网实例对比分析,验证了所提方法的检索精度、查全率及检索效率。 展开更多
关键词 新型电力系统 输电线路数据 改进SimHash 智能检索 mapreduce
下载PDF
基于两阶分区的MapReduce实验室系统负载均衡研究 被引量:1
12
作者 郑文丽 熊贝贝 +2 位作者 程立勋 蔡伊娜 包先雨 《计算机测量与控制》 2023年第4期252-257,共6页
在实验室系统处理海量原始数据时,实际应用场景中存在采样率高、偏度(skewness)高的特殊情况,导致在使用两阶分区算法在平衡同构环境下的Reducer节点负载时,无法有效地处理这些问题,为此,引入MapReduce的并行化处理,可以提高实验室系统... 在实验室系统处理海量原始数据时,实际应用场景中存在采样率高、偏度(skewness)高的特殊情况,导致在使用两阶分区算法在平衡同构环境下的Reducer节点负载时,无法有效地处理这些问题,为此,引入MapReduce的并行化处理,可以提高实验室系统中采样数据利用率;同时,为了解决数据偏度和采样度高的问题,则采用了ICSC分区调度的算法;经过实验证明,基于两阶分区的MapReduce负载均衡算法能够有效减少Mapper和Reducer节点空转的时间;随着数据偏度的增加,算法的执行时长基本不产生变化,即数据偏度对该算法执行时间的影响较小,此外,数据采样度的增加,ICSC分区调度算法也保持着对比模型中最少的时间开销;因此,基于两阶分区的MapReduce负载均衡算法弱化了Reducer节点间的依赖性,并提升MapReduce任务的执行效率和容错率,从而高效地实现MapReduce框架下的实验室系统中数据处理的负载均衡。 展开更多
关键词 两阶分区 mapreduce 分区调度 负载均衡 实验室系统
下载PDF
MapReduce与Spark的Shuffle过程比较——以词频统计为例
13
作者 汪世伟 陈新房 杨丽佳 《电脑与电信》 2023年第12期29-32,38,共5页
MapReduce和Spark作为大数据处理框架,都用于处理和分析大规模数据集,为了深入理解二者的异同,选取HadoopMapReduce与Spark计算模型中涉及核心环节Shuffle过程原理深入剖析,并以单词词频统计算法Shuffle过程为例,对比实验计算过程,结果... MapReduce和Spark作为大数据处理框架,都用于处理和分析大规模数据集,为了深入理解二者的异同,选取HadoopMapReduce与Spark计算模型中涉及核心环节Shuffle过程原理深入剖析,并以单词词频统计算法Shuffle过程为例,对比实验计算过程,结果表明Spark的Shuffle过程比MapReduce的Shuffle过程运算速度更快,效率更高。 展开更多
关键词 HADOOP mapreduce SPARK 词频统计
下载PDF
New Spam Filtering Method with Hadoop Tuning-Based MapReduce Naïve Bayes
14
作者 Keungyeup Ji Youngmi Kwon 《Computer Systems Science & Engineering》 SCIE EI 2023年第4期201-214,共14页
As the importance of email increases,the amount of malicious email is also increasing,so the need for malicious email filtering is growing.Since it is more economical to combine commodity hardware consisting of a medi... As the importance of email increases,the amount of malicious email is also increasing,so the need for malicious email filtering is growing.Since it is more economical to combine commodity hardware consisting of a medium server or PC with a virtual environment to use as a single server resource and filter malicious email using machine learning techniques,we used a Hadoop MapReduce framework and Naïve Bayes among machine learning methods for malicious email filtering.Naïve Bayes was selected because it is one of the top machine learning methods(Support Vector Machine(SVM),Naïve Bayes,K-Nearest Neighbor(KNN),and Decision Tree)in terms of execution time and accuracy.Malicious email was filtered with MapReduce programming using the Naïve Bayes technique,which is a supervised machine learning method,in a Hadoop framework with optimized performance and also with the Python program technique with the Naïve Bayes technique applied in a bare metal server environment with the Hadoop environment not applied.According to the results of a comparison of the accuracy and predictive error rates of the two methods,the Hadoop MapReduce Naïve Bayes method improved the accuracy of spam and ham email identification 1.11 times and the prediction error rate 14.13 times compared to the non-Hadoop Python Naïve Bayes method. 展开更多
关键词 HADOOP hadoop distributed file system(HDFS) mapreduce configuration parameter malicious email filtering Naïve Bayes
下载PDF
基于MapReduce的健康大数据并行挖掘算法研究
15
作者 陈榆 何慧敏 +1 位作者 梁志胜 欧旭 《现代电子技术》 2023年第12期79-83,共5页
随着信息技术的发展,健康大数据呈指数级别剧增,但数据量过大使得较多有价值的数据被埋没,医疗服务的质量与效率难以提升。为解决上述问题,文中提出一种基于MapReduce的健康大数据并行挖掘算法。首先对健康大数据进行预处理,消除一些不... 随着信息技术的发展,健康大数据呈指数级别剧增,但数据量过大使得较多有价值的数据被埋没,医疗服务的质量与效率难以提升。为解决上述问题,文中提出一种基于MapReduce的健康大数据并行挖掘算法。首先对健康大数据进行预处理,消除一些不利因素对数据的影响;再以预处理后的健康大数据为依据,获取初始簇中心,度量健康大数据与簇中心之间的距离,聚类处理健康大数据;最后,应用MapReduce制定健康大数据并行挖掘程序,执行制定程序即可完成健康大数据的并行挖掘。实验结果表明,所提算法的健康大数据挖掘效率最大值为94 GB/s,加速比最大值为4.5,相比于其他方法,该算法对健康大数据挖掘的性能更佳。 展开更多
关键词 健康大数据 并行挖掘算法 mapreduce 数据预处理 数据聚类 挖掘程序
下载PDF
基于MapReduce物联网大数据处理框架设计
16
作者 李红 邱凯 《信息技术》 2023年第7期173-178,共6页
针对传统方法处理物联网中大数据时缺乏可扩展性,提出了基于MapReduce的物联网大数据处理框架,用于实现对各种形式的数据资源,包括结构化、半结构化和非结构化数据的处理,该框架为基于物联网的大数据智能应用提供了技术支持。使用K-最... 针对传统方法处理物联网中大数据时缺乏可扩展性,提出了基于MapReduce的物联网大数据处理框架,用于实现对各种形式的数据资源,包括结构化、半结构化和非结构化数据的处理,该框架为基于物联网的大数据智能应用提供了技术支持。使用K-最近邻技术来清除噪声数据;使用奇异值分解来降低数据的维数;使用模糊C均值和基于密度的空间聚类的混合技术来处理噪声数据。实验结果表明,所提出的框架具有较好的可扩展性和拟合精度,在IADL活动数据集上的准确率为98.9%。 展开更多
关键词 物联网 mapreduce 大数据 奇异值分解 KNN
下载PDF
基于MapReduce的反恐情报分析流程再造研究
17
作者 查荣林 《广西警察学院学报》 2023年第2期81-86,共6页
在反恐情报分析领域中,MapReduce框架及其运行机理对反恐情报分析流程再造具有重要的借鉴价值,对优化新时期反恐情报分析工作至关重要。新时期反恐情报分析工作面临数据关联程度待提高、数据分析能力需加强、数据性能扩展和数据容错机... 在反恐情报分析领域中,MapReduce框架及其运行机理对反恐情报分析流程再造具有重要的借鉴价值,对优化新时期反恐情报分析工作至关重要。新时期反恐情报分析工作面临数据关联程度待提高、数据分析能力需加强、数据性能扩展和数据容错机制需完善等挑战。而基于MapReduce的反恐情报分析框架有助于重塑反恐情报分析流程,加强深层次涉恐数据的挖掘和分析,为优化反恐情报分析机制提供工具支撑。 展开更多
关键词 mapreduce 反恐情报 情报分析 流程再造
下载PDF
迭代式MapReduce研究进展 被引量:2
18
作者 李金忠 汤鹏杰 +1 位作者 夏洁武 谭云兰 《计算机工程与应用》 CSCD 北大核心 2015年第12期123-132,共10页
迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细... 迭代计算普遍存在于大数据处理中,而传统的MapReduce不能显式地支持迭代计算。近几年,研究者扩展和改进原始MapReduce,已开发了若干迭代式MapReduce以更好地为大数据处理而支持迭代计算。对迭代式MapReduce编程框架进行综合评述,较详细地阐述了这些研究成果,给出了它们各自的基本思想,并分析了它们各自的特点、优势和不足,且对比了它们所采用的一些技术。对迭代式MapReduce未来的发展趋势进行了展望。 展开更多
关键词 mapreduce 迭代计算 迭代式mapreduce 并行编程模型 大数据处理
下载PDF
基于MapReduce的煤矿综合管控平台接口研究
19
作者 刘佳 矫德余 李哲 《煤矿机电》 2023年第5期54-58,共5页
针对基于华为MapReduce大数据平台的煤矿智能化综合管控平台,设计了一套融通前后端数据的接口服务方法。利用Phoenix工具在Hbase上进行数据遍历查询,将结果通过HTTP协议以图形化接口的形式供前端调用,为了提高实时数据的传输效率,采用... 针对基于华为MapReduce大数据平台的煤矿智能化综合管控平台,设计了一套融通前后端数据的接口服务方法。利用Phoenix工具在Hbase上进行数据遍历查询,将结果通过HTTP协议以图形化接口的形式供前端调用,为了提高实时数据的传输效率,采用前后端分离架构并引入Redis缓存层,在实现数据管理和权限安全的基础上,进一步实现毫秒级请求的响应需求。实践表明,该方法能够很好地实现MapReduce大数据平台下前后端数据的稳定和高效传输,满足实际应用需求。 展开更多
关键词 综合管控平台 mapreduce HBASE PHOENIX
下载PDF
基于MapReduce云计算的报表平台技术与应用
20
作者 俞红威 朱建 蔡玉立 《江苏通信》 2023年第5期71-75,共5页
随着企业数字化程度越来越高,企业已经积累了大量的业务数据,并且通过EDA建立了集中的数据仓库,业务数据量都达到PB级规模。同时企业对数据运用和报表分析的及时性也越来越高,传统的报表计算方法已经很难满足企业的要求。当前云计算技... 随着企业数字化程度越来越高,企业已经积累了大量的业务数据,并且通过EDA建立了集中的数据仓库,业务数据量都达到PB级规模。同时企业对数据运用和报表分析的及时性也越来越高,传统的报表计算方法已经很难满足企业的要求。当前云计算技术及大数据的发展,给此类复杂报表的快速取数计算提供了一种新的解决方案。本文结合云计算和大数据相关技术,利用MapReduce并行计算原理介绍在其报表平台中的核心技术和深度应用。 展开更多
关键词 云计算 mapreduce 分布式计算 RPC远程调用
下载PDF
上一页 1 2 103 下一页 到第
使用帮助 返回顶部