期刊文献+
共找到1,596,222篇文章
< 1 2 250 >
每页显示 20 50 100
动态语言实现MapReduce应用
1
作者 高昂 《程序员》 2010年第5期26-26,共1页
并行计算技术的发展和网络带宽的提升,让云存储和云计算一步步走进实际业务应用之中。对于动态语言开发者,如果希望用动态语言借助Hadoop平台实现分治规约应用,并不是一件复杂的事情。Hadoop框架使用Java语言开发,但业务处理不要求必须... 并行计算技术的发展和网络带宽的提升,让云存储和云计算一步步走进实际业务应用之中。对于动态语言开发者,如果希望用动态语言借助Hadoop平台实现分治规约应用,并不是一件复杂的事情。Hadoop框架使用Java语言开发,但业务处理不要求必须使用Java语言,而可以使用Python或C++等其他语言进行编码。 展开更多
关键词 JAVA语言 mapreduce 业务应用 并行计算技术 Python 网络带宽 业务处理 开发者
下载PDF
MapReduce模型在大规模数据并行挖掘中的应用
2
作者 唐婧 杜微 周翼 《智能物联技术》 2024年第2期38-42,共5页
MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区... MapReduce并行编程模型通过定义良好的接口和运行支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度。系统阐述MapReduce的基本工作原理及其工作流程,以TeraSort算法为例,针对其存在的问题,提出动态数据分区和数据压缩等优化建议。研究成果表明,优化后的TeraSort算法能够显著缩短数据处理时间,优化系统的吞吐量,并改善资源分配的均衡性。 展开更多
关键词 mapreduce 大规模数据 并行挖掘 TeraSort
下载PDF
基于MapReduce的并行PLSA算法及在文本挖掘中的应用 被引量:7
3
作者 李宁 罗文娟 +2 位作者 庄福振 何清 史忠植 《中文信息学报》 CSCD 北大核心 2015年第2期79-86,共8页
PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来... PLSA(Probabilistic Latent Semantic Analysis)是一种典型的主题模型。复杂的建模过程使其难以处理海量数据,针对串行PLSA难以处理海量数据的问题,该文提出一种基于MapReduce计算框架的并行PLSA算法,能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,并把并行PLSA算法运用到文本聚类和语义分析的文本挖掘应用中。实验结果表明该算法在处理较大数据量时表现出了很好的性能。 展开更多
关键词 概率主题模型 mapreduce 并行 语义分析
下载PDF
并行MapReduce PLS算法及其在光谱分析中的应用 被引量:5
4
作者 杨辉华 杜玲玲 +5 位作者 李灵巧 唐天彪 郭拓 梁琼麟 王义明 罗国安 《光谱学与光谱分析》 SCIE EI CAS CSCD 北大核心 2012年第9期2399-2404,共6页
偏最小二乘(PLS)算法是常用的光谱建模算法,然而对于海量光谱处理情形,在单台计算机上建模及优化时间开销很大。基于MapReduce编程模式,提出了并行MapReduce PLS回归算法,包括并行数据标准化和并行主成分提取两个过程。在多台普通计算... 偏最小二乘(PLS)算法是常用的光谱建模算法,然而对于海量光谱处理情形,在单台计算机上建模及优化时间开销很大。基于MapReduce编程模式,提出了并行MapReduce PLS回归算法,包括并行数据标准化和并行主成分提取两个过程。在多台普通计算机上搭建Hadoop云计算集群平台,以近红外光谱处理为例,开展了算法验证实验。实验结果表明,基于MapReduce编程模式的并行PLS算法对海量近红外光谱数据集进行回归建模时,能有效提高建模速度,随计算机台数的增多可得到接近线性的加速比,并具有良好的扩展性。 展开更多
关键词 并行偏最小二乘 近红外光谱 mapreduce 并行计算 HADOOP 云计算
下载PDF
基于MapReduce的改进的Apriori算法及其应用研究 被引量:10
5
作者 赵月 任永功 刘洋 《计算机科学》 CSCD 北大核心 2017年第6期250-254,共5页
随着移动通信和互联网技术的迅猛发展,如何高效地分析移动用户的需求并及时推送有用信息成为数据挖掘领域的热点之一。针对上述问题,提出一种基于云计算Hadoop平台的分布式关联规则MRS-Apriori算法。该方法在经典Apriori算法的基础上优... 随着移动通信和互联网技术的迅猛发展,如何高效地分析移动用户的需求并及时推送有用信息成为数据挖掘领域的热点之一。针对上述问题,提出一种基于云计算Hadoop平台的分布式关联规则MRS-Apriori算法。该方法在经典Apriori算法的基础上优化了数据库编码规则,增加了判断标记Judgemark来判断事务项是否频繁,提高了MRS-Apriori算法在连接时扫描数据库的效率。在编码的基础上,采用Hadoop平台下的MapReduce编程框架模型实现并行化处理,提高了迭代时连接步骤的效率,降低了大规模数据样本运算的时间开销。实验结果表明,改进的MRS-Apriori算法可以有效地减少运算时间,在处理大规模数据集上具有较高的准确性。 展开更多
关键词 编码规则 关联规则 频繁项集 mapreduce框架
下载PDF
MapReduce编程模型在网络I/O密集型程序中的应用研究 被引量:4
6
作者 李明 胥光辉 戢瑶 《计算机应用研究》 CSCD 北大核心 2011年第9期3372-3374,共3页
利用开源Hadoop平台,重点研究了MapReduce在轻量数据集、网络I/O密集型程序的适用性。采用MapReduce编程模型改造了一个典型的轻量数据集、网络I/O密集型应用———FTP站点扫描程序;搭建了一个小规模Hadoop集群环境,调整了Hadoop平台的... 利用开源Hadoop平台,重点研究了MapReduce在轻量数据集、网络I/O密集型程序的适用性。采用MapReduce编程模型改造了一个典型的轻量数据集、网络I/O密集型应用———FTP站点扫描程序;搭建了一个小规模Hadoop集群环境,调整了Hadoop平台的默认配置,并用真实数据对改造前后的程序进行了性能测试。实验证明,MapReduce编程模型具有良好的分布式特性,可适用于轻量数据集、网络I/O密集型程序。 展开更多
关键词 HADOOP mapreduce 分布式 网络I/O密集型
下载PDF
基于应用程序的MapReduce性能优化 被引量:4
7
作者 高莉莎 刘正涛 应毅 《计算机技术与发展》 2015年第7期96-99,106,共5页
针对MapReduce框架执行效率不佳的问题,对MapReduce性能优化的多个方案进行了研究。首先阐述了云计算的定义、特征以及专用批处理Paa S平台Hadoop的组成,之后简单介绍了MapReduce框架和MapReduce框架下的应用程序开发,接着着重讨论了Map... 针对MapReduce框架执行效率不佳的问题,对MapReduce性能优化的多个方案进行了研究。首先阐述了云计算的定义、特征以及专用批处理Paa S平台Hadoop的组成,之后简单介绍了MapReduce框架和MapReduce框架下的应用程序开发,接着着重讨论了MapReduce性能优化的三个主流方向:系统实现优化、参数调优、应用程序优化。并从应用程序着手,提出多个解决方法,进行了in-Map Reduce优化算法、脚本语言/编译语言对比、小文件预处理优化等多个实验,最后对优化技术和实验数据进行了分析。实验结果表明,优化应用程序是提高MapReduce性能的有效手段。 展开更多
关键词 mapreduce 应用程序 性能优化 in-Map REDUCE 小文件优化
下载PDF
旅游大数据的MapReduce客户细分应用 被引量:7
8
作者 汪永旗 王惠娇 《华侨大学学报(自然科学版)》 CAS 北大核心 2015年第3期292-296,共5页
分析K-means聚类算法和Hadoop云平台的特点,对聚类算法进行改进,给出算法的MapReduce实现.通过加速比实验和旅游数据细分实验,验证了算法的有效性和高可扩展性.针对旅游大数据的特点,构建了多指标的RFM扩展模型,通过文中算法聚类,得到... 分析K-means聚类算法和Hadoop云平台的特点,对聚类算法进行改进,给出算法的MapReduce实现.通过加速比实验和旅游数据细分实验,验证了算法的有效性和高可扩展性.针对旅游大数据的特点,构建了多指标的RFM扩展模型,通过文中算法聚类,得到与预期相近的聚类结果.实验结果表明:文中算法具有较高的实用价值. 展开更多
关键词 旅游大数据 mapreduce模型 聚类 客户细分
下载PDF
应用MapReduce的多维小波变换模型 被引量:2
9
作者 潘丽姣 金伟健 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2016年第1期97-100,共4页
针对小波变换的性能和扩展性问题,提出基于MapReduce的多维小波变换模型,该模型将多维小波变换的线性处理改造成基于多处理器的并行计算.描述了具体的实现算法和模型设计,通过在Hadoop平台上对该模型进行实验分析,实验结果表明,在多信... 针对小波变换的性能和扩展性问题,提出基于MapReduce的多维小波变换模型,该模型将多维小波变换的线性处理改造成基于多处理器的并行计算.描述了具体的实现算法和模型设计,通过在Hadoop平台上对该模型进行实验分析,实验结果表明,在多信号的多维小波变换时,使用MapReduce的多维小波变换模型具有良好的执行效率和扩展性. 展开更多
关键词 mapreduce 小波变换 HADOOP 多维小波
下载PDF
基于MapReduce的BP神经网络在精准施肥中的应用 被引量:8
10
作者 苑超 李东明 李岩 《中国农机化学报》 2016年第2期191-195,共5页
本研究借助MapReduce强大的并行运算能力和良好的扩展性,尝试解决传统BP神经网络在处理大数据训练集时的瓶颈问题。通过农田肥料效应实验数据,以施肥量作为神经网络输入,以最终产量作为输出,建立精准施肥模型。该模型通过求解非线性规... 本研究借助MapReduce强大的并行运算能力和良好的扩展性,尝试解决传统BP神经网络在处理大数据训练集时的瓶颈问题。通过农田肥料效应实验数据,以施肥量作为神经网络输入,以最终产量作为输出,建立精准施肥模型。该模型通过求解非线性规划问题,能同时获得最大产量和最优施肥量,解决需要预估产量的问题。在预测精准性方面,通过大数据集学习得到的施肥模型效果明显优于小数据集的学习结果,能够有效地指导精准施肥。 展开更多
关键词 精准施肥 BP神经网络 mapreduce 云计算
下载PDF
基于MapReduce的Eclat改进算法研究与应用 被引量:4
11
作者 张春 汲磊举 《北京交通大学学报》 CAS CSCD 北大核心 2016年第3期1-6,共6页
针对Eclat算法在挖掘海量数据中的频繁项目集时存在的内存和计算资源不足等问题,将Eclat算法与目前流行的大规模数据集并行编程模型MapReduce结合,解决了Eclat算法在数据挖掘过程存在的瓶颈问题,运用于动车组故障诊断系统中,提高了关联... 针对Eclat算法在挖掘海量数据中的频繁项目集时存在的内存和计算资源不足等问题,将Eclat算法与目前流行的大规模数据集并行编程模型MapReduce结合,解决了Eclat算法在数据挖掘过程存在的瓶颈问题,运用于动车组故障诊断系统中,提高了关联规则挖掘的效率. 展开更多
关键词 Eclat算法 数据挖掘 mapreduce 关联规则
下载PDF
一种MapReduce系统能耗优化的任务调度算法
12
作者 王珏 《江西师范大学学报(自然科学版)》 CAS 北大核心 2024年第4期364-370,共7页
该文以能耗为目标,将一个作业中的任务调度问题表述为整数线性规划,并在遵循服务级别协议的前提下,通过优化Map和Reduce任务在slot上的调度策略来最小化系统的能耗,提出了一种能耗敏感型的任务调度算法.实验结果表明:与其他常用的算法相... 该文以能耗为目标,将一个作业中的任务调度问题表述为整数线性规划,并在遵循服务级别协议的前提下,通过优化Map和Reduce任务在slot上的调度策略来最小化系统的能耗,提出了一种能耗敏感型的任务调度算法.实验结果表明:与其他常用的算法相比,该算法在TeraSort、PageRank和k-means聚类工作负载上能够接近能耗的最小值. 展开更多
关键词 mapreduce 大数据 整数线性规划 调度策略
下载PDF
基于Hadoop MapReduce模型的应用研究 被引量:69
13
作者 谢桂兰 罗省贤 《微型机与应用》 2010年第8期4-7,共4页
MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的... MapReduce是一种简化并行计算的分布式编程模型,是Google的一项重要技术,通常被用于数据密集型的分布式并行计算。探讨了来自Apache开源的分布式计算平台Hadoop的核心设计MapReduce编程模型,并通过算法实验分析和研究了MapReduce模型的工作方式和应用方法。 展开更多
关键词 分布式并行计算 HADOOP 编程模型 mapreduce
下载PDF
MapReduce在分布式搜索引擎中的应用 被引量:6
14
作者 吴文忠 易平 《计算机系统应用》 2012年第2期249-251,224,共4页
MapReduce是一种分布式的并行编程模式,它可以实现大型数据集的并行运算。Lucene是Apache下的搜索引擎开发包,当索引文件不断增大时,Lucene搜索便会出现瓶颈问题。通过利用MapReduce的思想,按城市划分策略将大量并发的搜索请求映射到对... MapReduce是一种分布式的并行编程模式,它可以实现大型数据集的并行运算。Lucene是Apache下的搜索引擎开发包,当索引文件不断增大时,Lucene搜索便会出现瓶颈问题。通过利用MapReduce的思想,按城市划分策略将大量并发的搜索请求映射到对应的分布式服务器中进行Map操作,再结合Lucene,从对应索引服务器中查询后利用Reduce操作返回最终结果。实验结果表明,这不仅解决了大数据量查询的瓶颈问题,还将系统效率提高了66.7%。 展开更多
关键词 mapreduce LUCENE 分布式搜索
下载PDF
MapReduce大数据分析在煤矿的应用研究 被引量:5
15
作者 刘玉海 《软件》 2016年第5期101-104,共4页
Map Reduce作为数据处理的概念框架对计算、存储、应用等分布式资源进行大规模可扩展的整合,结合互联网技术为煤矿企业用户提供计算和存储服务并建立安全生产大数据分析系统,这必将成为提升煤矿安全生产的信息手段之一。文中实例是基于H... Map Reduce作为数据处理的概念框架对计算、存储、应用等分布式资源进行大规模可扩展的整合,结合互联网技术为煤矿企业用户提供计算和存储服务并建立安全生产大数据分析系统,这必将成为提升煤矿安全生产的信息手段之一。文中实例是基于Hadoop Map Reduce大数据系统对矿井瓦斯涌出量进行了预测仿真分析,能为矿井瓦斯治理和安全生产提供了可靠的依据。 展开更多
关键词 HADOOP mapreduce 云计算 煤矿 瓦斯涌出量
下载PDF
大数据应用中节点休眠结合MapReduce作业的能量感知调度方法 被引量:1
16
作者 邵孟良 齐德昱 《计算机应用与软件》 北大核心 2020年第6期40-47,82,共9页
针对大数据应用中,数据中心执行大规模数据密集型应用程序时能耗巨大的问题,提出一种节点休眠结合MapReduce作业的能量感知调度方法。构建一个能够同时提高MapReduce应用程序能效并满足服务水平协议(service level agreement,SLA)的系... 针对大数据应用中,数据中心执行大规模数据密集型应用程序时能耗巨大的问题,提出一种节点休眠结合MapReduce作业的能量感知调度方法。构建一个能够同时提高MapReduce应用程序能效并满足服务水平协议(service level agreement,SLA)的系统框架,用于执行大规模数据处理;将节点休眠调度算法与单个Map-Reduce作业的能量感知调度问题建模为整数程序;结合两种能量感知的节点休眠MapReduce启发式调度算法(Node Dormancy MapReduce Scheduling Algorithms,NDMRSA-1和NDMRSA-2),以实现任务分配的自动映射和任务到机器插槽的自动归并,从而最大限度地减少执行应用程序时消耗的能量。实验结果表明,NDMRSA-1和NDMRSA-2能够找到接近最佳的工作调度,平均消耗的能量比通过最小化完工时间的通用实践调度程序少约40%,有效实现了作业时的能耗最小化。 展开更多
关键词 mapreduce 节点休眠 大数据 能量感知调度 最小能量消耗
下载PDF
一种基于改进的链式MapReduce的并行ETL应用 被引量:2
17
作者 吴斌 刘心光 《电信科学》 北大核心 2013年第12期1-8,共8页
介绍了并行ETL的相关工作和常见的处理多MapReduce作业流程的方法;提出一种改进的链式MapReduce框架.并将此框架应用于一个并行ETL工具,同时提出一些针对ETL处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O... 介绍了并行ETL的相关工作和常见的处理多MapReduce作业流程的方法;提出一种改进的链式MapReduce框架.并将此框架应用于一个并行ETL工具,同时提出一些针对ETL处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明.本ETL工具的性能平均比Hive快10%~20%。 展开更多
关键词 改进的链式mapreduce ETL 优化规则
下载PDF
MapReduce技术在日志分析中的研究应用 被引量:2
18
作者 林勇 吴翀 +1 位作者 严盟 彭敏佳 《计算机时代》 2017年第6期26-28,共3页
Hadoop技术的核心框架MapReduce非常适用于日志分析系统,并具有良好的易用性和可扩展性。文章将MapReduce的日志处理技术应用于某项目平台的日志数据分析中,以实验结果证明了MapReduce能较好地解决Web日志处理单机所面临的效率低下问题... Hadoop技术的核心框架MapReduce非常适用于日志分析系统,并具有良好的易用性和可扩展性。文章将MapReduce的日志处理技术应用于某项目平台的日志数据分析中,以实验结果证明了MapReduce能较好地解决Web日志处理单机所面临的效率低下问题,能更好地整合计算机资源。 展开更多
关键词 HADOOP mapreduce WEB日志 日志分析
下载PDF
基于MapReduce的潜在因素算法在推荐系统中的研究与应用 被引量:2
19
作者 彭建喜 《科技通报》 北大核心 2013年第12期124-126,共3页
随着电子商务的发展,推荐系统的开发成为各大互联网商店的一个重要部分。推荐系统中的用户购买相似度推荐算法被普遍应用,该类算法包含两种类型:基于邻居模型的算法和潜在因素算法。但是,随着网上商店的增多,淘宝等大型网上电子商城的兴... 随着电子商务的发展,推荐系统的开发成为各大互联网商店的一个重要部分。推荐系统中的用户购买相似度推荐算法被普遍应用,该类算法包含两种类型:基于邻居模型的算法和潜在因素算法。但是,随着网上商店的增多,淘宝等大型网上电子商城的兴起,传统的用户购买相似度推荐算法不能有效地处理互联网爆炸式的大数据信息,快速完成推荐系统的推荐工作。针对用户购买商品后的潜在因素,提出了基于MapReduce计算框架的分布式潜在因素算法,该算法能够有效地完成推荐系统的推荐工作,实现系统的实时性。实验结果表明,本文提出的算法具有很高的执行效率以及低误差率。 展开更多
关键词 mapreduce 分布式 潜在因素算法
下载PDF
基于MapReduce的分布式EM算法的研究与应用 被引量:2
20
作者 胡爱娜 《科技通报》 北大核心 2013年第6期68-70,共3页
EM(Expectation-Maximization)算法在机器学习和自然语言处理方面应用非常广泛。随着电子信息技术的高速发展,人们更加需要从大量的数据信息中提出更多有价值的知识,用于后续的研究工作。但是,传统的应用到机器学习等领域的EM算法不能... EM(Expectation-Maximization)算法在机器学习和自然语言处理方面应用非常广泛。随着电子信息技术的高速发展,人们更加需要从大量的数据信息中提出更多有价值的知识,用于后续的研究工作。但是,传统的应用到机器学习等领域的EM算法不能有效地处理当今社会海量规模的数据。本文基于现有流行的MapReduce计算框架,提出了求解混合模型的分布式EM算法。该算法能够高效地完成极大似然估计。实验表明,本文提出的算法具有很好的加速比以及可扩展性。 展开更多
关键词 EM算法 混合模型 mapreduce 云计算 分布式 机器学习
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部