期刊文献+
共找到709篇文章
< 1 2 36 >
每页显示 20 50 100
MapReduce:新型的分布式并行计算编程模型 被引量:111
1
作者 李成华 张新访 +1 位作者 金海 向文 《计算机工程与科学》 CSCD 北大核心 2011年第3期129-135,共7页
MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干... MapReduce是Google提出的分布式并行计算编程模型,用于大规模数据的并行处理。Ma-pReduce模型受函数式编程语言的启发,将大规模数据处理作业拆分成若干个可独立运行的Map任务,分配到不同的机器上去执行,生成某种格式的中间文件,再由若干个Reduce任务合并这些中间文件获得最后的输出文件。用户在使用MapReduce模型进行大规模数据处理时,可以将主要精力放在如何编写Map和Reduce函数上,其它并行计算中的复杂问题诸如分布式文件系统、工作调度、容错、机器间通信等都交给MapReduce系统处理,在很大程度上降低了整个编程难度。MapReduce日益成为云计算平台的主流编程模型。Apache Hadoop项目提供开源的MapReduce系统还有待进一步完善。 展开更多
关键词 mapreduce 并行计算编程模型 云计算
下载PDF
面向结构化篇级科技文献数据治理的高性能分布式计算框架研究
2
作者 范萌 常志军 +1 位作者 钱力 郭丹 《情报杂志》 北大核心 2024年第3期182-189,121,共9页
[研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理... [研究目的]为解决MapReduce、Spark等主流分布式计算框架存在的研发周期长、技术门槛高等问题,提出了一种高灵活、低门槛的高性能计算框架ArticleCF。[研究方法]ArticleCF框架吸收了主流分布式技术的优点,同时深度结合科技文献数据治理的特性,设计了Master/Slave的软件架构,在功能上针对科技文献数据特点进行多个维度的设计,重点设计了分布式任务分发策略、并行计算策略以及故障转移机制。[研究结论]通过21个指标将ArticleCF与MapReduce、Spark、Storm进行对比实验,有效验证所提方法的可行性、有效性,ArticleCF能够满足海量结构化科技文献数据的多样化处理需求。 展开更多
关键词 科技文献 数据治理 分布式计算 结构化数据 在线可视化编程 高性能计算 mapreduce SPARK
下载PDF
分布式并行编程模型MapReduce及其应用研究 被引量:2
3
作者 郑瑛 《西南民族大学学报(自然科学版)》 CAS 2017年第2期161-166,共6页
在传统的并行编程模型中,对大量数据如何进行并行计算、如何为每个任务分发数据、如何处理单点故障等问题,都需要大量的程序分析和设计,这些问题的有效处理都需要程序员显式地使用有关技术来解决.对于程序员来说,这是一项具有极大困难... 在传统的并行编程模型中,对大量数据如何进行并行计算、如何为每个任务分发数据、如何处理单点故障等问题,都需要大量的程序分析和设计,这些问题的有效处理都需要程序员显式地使用有关技术来解决.对于程序员来说,这是一项具有极大困难的工作,使得原本简单的运算反而变得非常复杂,这些问题的存在也在一定程度上制约了并行程序的普及.而MapReduce计算模型能有效地解决上述问题,阐述了Google的MapReduce计算模型的实现机制,并通过实例描述了该模型的执行过程. 展开更多
关键词 分布式并行编程模型 mapreduce 函数式编程语言
下载PDF
基于MapReduce的分布式近邻传播聚类算法 被引量:53
4
作者 鲁伟明 杜晨阳 +2 位作者 魏宝刚 沈春辉 叶振超 《计算机研究与发展》 EI CSCD 北大核心 2012年第8期1762-1772,共11页
随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处... 随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. 展开更多
关键词 近邻传播聚类 分布式计算 mapreduce 数据划分 聚类融合
下载PDF
基于MapReduce的分布式网络数据聚类算法 被引量:9
5
作者 陈东明 刘健 +1 位作者 王冬琦 徐晓伟 《计算机工程》 CAS CSCD 2013年第7期76-82,共7页
时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利... 时空复杂度较高以及物理机器内存不足,会导致传统聚类算法不能有效地分析处理大规模数据网络。针对该问题,在MapReduce分布式模型的基础上,提出一种网络数据分布式聚类算法。根据MRC理论设计有限MapReduce轮数,控制混洗过程所需时间,利用Map内合并技术对网络流量进行控制,在进行中间结果合并时仅对社团合并,而不考虑社团内部节点,以控制内存开销。使用模拟生成的数据在集群中进行实验,结果表明,当数据规模和集群规模增大时,该算法具有较好的加速比和扩展性。 展开更多
关键词 聚类算法 分布式聚类 mapreduce编程模型 数据挖掘 社团结构
下载PDF
基于MapReduce的分布式ETL体系结构研究 被引量:9
6
作者 宋杰 郝文宁 +2 位作者 陈刚 靳大尉 赵水宁 《计算机科学》 CSCD 北大核心 2013年第6期152-154,共3页
针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——MDETL(MapReduce Distributed ETL)。该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执... 针对传统ETL工具集中式执行方式的不足,提出了一种基于MapReduce的分布式ETL体系结构——MDETL(MapReduce Distributed ETL)。该体系结构采用MapReduce并发处理海量数据的并行编程模型,结合分布式ETL的集群运算方法,实现了集群分布式执行ETL流程,从而提高了整个ETL系统的灵活性和吞吐率,并具有较好的可扩展性和负载平衡性能,提高了执行效率。 展开更多
关键词 ETL mapreduce 分布式
下载PDF
基于分布式任务调度技术对在线监控系统自动化任务的优化研究
7
作者 孔华 《大坝与安全》 2024年第1期25-31,共7页
目前水电站大坝运行安全在线监控系统中自动化任务涉及数据处理、信息推送、消息通知和系统监控等多个模块,各模块的自动化任务独立管理维护,存在执行标准不统一、记录不规范及管理混乱等问题,导致自动化任务执行效率低,运维难度大。为... 目前水电站大坝运行安全在线监控系统中自动化任务涉及数据处理、信息推送、消息通知和系统监控等多个模块,各模块的自动化任务独立管理维护,存在执行标准不统一、记录不规范及管理混乱等问题,导致自动化任务执行效率低,运维难度大。为解决这一问题,系统引入了PowerJob分布式任务调度平台,充分利用其集中管理、可视化、高可靠性和在线日志追溯等优势对自动化任务进行优化改造,通过PowerJob实现了任务集中配置、集中调度、多节点并行执行、工作流编排和实时监控等功能,并进行了针对性的扩展开发以满足大坝监控系统的自动化任务执行需求,提高了自动化任务的执行效率和运维便利性。 展开更多
关键词 自动化 分布式调度 PowerJob mapreduce 大坝监控系统
下载PDF
MapReduce框架下基于抽样的分布式K-Means聚类算法 被引量:6
8
作者 杨杰明 吴启龙 +3 位作者 曲朝阳 杨烁 阚中峰 高冶 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2017年第1期109-115,共7页
提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行... 提出一种MapReduce框架下基于抽样的分布式K-Means聚类算法,解决海量数据环境下并行执行K-Means算法时,时间开销较大的问题.该算法使用抽样方法,在保证数据分布不变的前提下,对数据集的规模进行约减,并在MapReduce框架下对聚类算法进行优化.实验结果表明,该算法在保持良好聚类效果的同时,能有效缩短聚类时间,对大规模数据集具有较高的执行效率和较好的可扩展性. 展开更多
关键词 抽样 mapreduce 分布式计算 K-MEANS聚类算法
下载PDF
基于MapReduce架构的就地化分布式母线保护研究 被引量:14
9
作者 周小波 唐治国 《电力系统保护与控制》 EI CSCD 北大核心 2018年第6期128-135,共8页
为了解决目前母线保护装置就地安放时支持间隔少和部分保护性能差的现状,提出在HSR环网分布式母线保护的基础上,引入基于MapReduce架构的分布式设计方法。将保护子机分为调度节点和任务节点,对母线保护的差动保护模块根据子机的个数分... 为了解决目前母线保护装置就地安放时支持间隔少和部分保护性能差的现状,提出在HSR环网分布式母线保护的基础上,引入基于MapReduce架构的分布式设计方法。将保护子机分为调度节点和任务节点,对母线保护的差动保护模块根据子机的个数分配于不同的子机计算并进行合并,而对于各子机相关的后备保护则分配于对应子机和负责备用计算子机完成,实现母线保护的分布式计算和逻辑判断,并经过"动作三取二"逻辑出口跳闸。经过RTDS动模试验验证,此设计方案可靠性高,提高了保护装置的可用资源和性能。 展开更多
关键词 mapreduce 分布式计算 键值对:HSR 就地化 母线保护
下载PDF
基于MapReduce模型的分布式天文交叉证认 被引量:2
10
作者 赵青 孙济洲 +4 位作者 肖健 于策 崔辰州 刘旭 袁鳌 《计算机应用研究》 CSCD 北大核心 2010年第9期3322-3325,共4页
交叉证认是实现多波段数据融合的关键技术,目前还缺乏对其分布式算法的研究。快速增长的数据规模使该问题必须要依赖分布式并行计算技术解决。提出了一种基于MapReduce分布式模型的新方法,根据Map-Reduce的要点,尽量减少了任务间的通信... 交叉证认是实现多波段数据融合的关键技术,目前还缺乏对其分布式算法的研究。快速增长的数据规模使该问题必须要依赖分布式并行计算技术解决。提出了一种基于MapReduce分布式模型的新方法,根据Map-Reduce的要点,尽量减少了任务间的通信量,并通过合理设置划分粒度保证了效率与存储间的平衡。实验结果表明,该方法对海量数据交叉证认的效率提升明显,在大规模集群上达到了接近线性的加速比。该方法为交叉证认提供了一种快速有效的解决途径。 展开更多
关键词 天文交叉证认 mapreduce 并行计算 分布式计算
下载PDF
分布式网络环境中基于MapReduce的WordCount实现 被引量:10
11
作者 张文光 陈俊 +1 位作者 姚钰辉 申田静 《贵州师范大学学报(自然科学版)》 CAS 2015年第1期93-97,共5页
基于Hadoop的MapReduce分布计算模型,在伪分布模式下以Word Count实现为例,研究了MapReduce系统架构及运行机制、编程模型以及它作业的生命周期,实现了基于MapReduce的文本文字计数功能。
关键词 云计算 分布式网络 HADOOP mapreduce
下载PDF
燃煤锅炉分布式控制系统设计
12
作者 杜红霞 《现代制造技术与装备》 2024年第4期139-141,共3页
燃煤锅炉是一种重要的能量转换设备,对其燃烧过程的稳定控制是燃料充分燃烧的必要条件。为提高锅炉系统的环保性,采用工控机(Industrial Personal Computer,IPC)与可编程逻辑控制器(Programmable Logic Controller,PLC)相结合的方式,设... 燃煤锅炉是一种重要的能量转换设备,对其燃烧过程的稳定控制是燃料充分燃烧的必要条件。为提高锅炉系统的环保性,采用工控机(Industrial Personal Computer,IPC)与可编程逻辑控制器(Programmable Logic Controller,PLC)相结合的方式,设计了燃煤锅炉的分布式控制系统。以给煤量控制为例,阐述了控制方法的设计过程。依据燃煤锅炉的工艺过程,采用WinCC组态软件设计监控系统,以实现锅炉的远程交互控制,提高锅炉运行的安全性和稳定性。 展开更多
关键词 燃煤锅炉 分布式控制系统 工控机(IPC) 编程逻辑控制器(PLC) 监控系统
下载PDF
MapReduce在分布式搜索引擎中的应用 被引量:6
13
作者 吴文忠 易平 《计算机系统应用》 2012年第2期249-251,224,共4页
MapReduce是一种分布式的并行编程模式,它可以实现大型数据集的并行运算。Lucene是Apache下的搜索引擎开发包,当索引文件不断增大时,Lucene搜索便会出现瓶颈问题。通过利用MapReduce的思想,按城市划分策略将大量并发的搜索请求映射到对... MapReduce是一种分布式的并行编程模式,它可以实现大型数据集的并行运算。Lucene是Apache下的搜索引擎开发包,当索引文件不断增大时,Lucene搜索便会出现瓶颈问题。通过利用MapReduce的思想,按城市划分策略将大量并发的搜索请求映射到对应的分布式服务器中进行Map操作,再结合Lucene,从对应索引服务器中查询后利用Reduce操作返回最终结果。实验结果表明,这不仅解决了大数据量查询的瓶颈问题,还将系统效率提高了66.7%。 展开更多
关键词 mapreduce LUCENE 分布式搜索
下载PDF
基于MapReduce的分布式期望最大化算法 被引量:4
14
作者 胡爱娜 蔡晓艳 《科学技术与工程》 北大核心 2013年第16期4603-4606,共4页
利用MapReduce编程模型的简化性和期望最大化算法(Expectation maximization,EM)的高精度、恒收敛性,提出了一种对数据集规模无限制的数据处理算法;并通过对高斯混合模型的参数估计进行算法性能的测试。结果表明,算法能改善传统EM算法... 利用MapReduce编程模型的简化性和期望最大化算法(Expectation maximization,EM)的高精度、恒收敛性,提出了一种对数据集规模无限制的数据处理算法;并通过对高斯混合模型的参数估计进行算法性能的测试。结果表明,算法能改善传统EM算法在处理大规模数据集时效率低的缺点,具有较好的加速比及可扩展性。 展开更多
关键词 EM算法 高斯混合模型 mapreduce 分布式
下载PDF
基于MapReduce的分布式EM算法的研究与应用 被引量:2
15
作者 胡爱娜 《科技通报》 北大核心 2013年第6期68-70,共3页
EM(Expectation-Maximization)算法在机器学习和自然语言处理方面应用非常广泛。随着电子信息技术的高速发展,人们更加需要从大量的数据信息中提出更多有价值的知识,用于后续的研究工作。但是,传统的应用到机器学习等领域的EM算法不能... EM(Expectation-Maximization)算法在机器学习和自然语言处理方面应用非常广泛。随着电子信息技术的高速发展,人们更加需要从大量的数据信息中提出更多有价值的知识,用于后续的研究工作。但是,传统的应用到机器学习等领域的EM算法不能有效地处理当今社会海量规模的数据。本文基于现有流行的MapReduce计算框架,提出了求解混合模型的分布式EM算法。该算法能够高效地完成极大似然估计。实验表明,本文提出的算法具有很好的加速比以及可扩展性。 展开更多
关键词 EM算法 混合模型 mapreduce 云计算 分布式 机器学习
下载PDF
基于MapReduce的分布式云计算数据挖掘方法 被引量:2
16
作者 薛慧敏 《安阳师范学院学报》 2020年第5期24-27,共4页
MapReduce为经典的分布式计算模型,是云计算环境下开展高效数据挖掘的有力支撑。为此,基于MapReduce搭建了分布式云计算框架,以K-means聚类算法为例,探寻一种高效处理大规模数据挖掘问题的方法。在传统MapReduce计算模型基础上,为执行Ma... MapReduce为经典的分布式计算模型,是云计算环境下开展高效数据挖掘的有力支撑。为此,基于MapReduce搭建了分布式云计算框架,以K-means聚类算法为例,探寻一种高效处理大规模数据挖掘问题的方法。在传统MapReduce计算模型基础上,为执行Map函数操作的设备增加Combiner函数,以便一次性合并Map函数输出结果,减少多次合并操作,提升K-means聚类算法数据挖掘效率。测试结果显示,此算法在不同节点运算环境下的聚类时间开销最低,并且算法运行的稳定性较强,无显著波动情况。 展开更多
关键词 mapreduce 分布式 云计算 数据挖掘
下载PDF
基于MapReduce的分布式AP聚类算法
17
作者 冷泳林 《计算机与现代化》 2014年第10期104-107,共4页
随着网络的普遍应用,网络中产生的数据急剧增长,大规模数据处理面临严峻挑战。本文在对AP聚类算法进行研究的基础上,利用MapReduce编程模型思想对AP聚类算法进行改进,设计在云平台Hadoop环境下运行的基于MapReduce的分布式AP聚类算法,... 随着网络的普遍应用,网络中产生的数据急剧增长,大规模数据处理面临严峻挑战。本文在对AP聚类算法进行研究的基础上,利用MapReduce编程模型思想对AP聚类算法进行改进,设计在云平台Hadoop环境下运行的基于MapReduce的分布式AP聚类算法,并在实验中对不同规模的图数据进行聚类测试,实验结果表明分布式的AP聚类算法具有很好的时间效率和加速比。 展开更多
关键词 mapreduce模型 分布式AP聚类算法 HADOOP
下载PDF
基于MapReduce的分布式光线跟踪的设计与实现 被引量:7
18
作者 郑欣杰 朱程荣 熊齐邦 《计算机工程》 CAS CSCD 北大核心 2007年第22期83-85,共3页
提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduce架构简化了分布式程序设计。使用分布式计算进行光线跟踪,充分利用了现有低端硬件设备的处理能力。实验表明,该方案通过并行计算大大加快了... 提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduce架构简化了分布式程序设计。使用分布式计算进行光线跟踪,充分利用了现有低端硬件设备的处理能力。实验表明,该方案通过并行计算大大加快了渲染速度。 展开更多
关键词 mapreduce HADOOP 分布式计算 光线跟踪
下载PDF
基于分布式信息流控制的MapReduce隐私安全加强方案研究
19
作者 许帅 《计算机与现代化》 2012年第3期93-97,102,共6页
随着信息技术的发展,分布式系统被广泛应用于金融、医疗等领域。其中以基于MapReduce的数据挖掘为代表的应用对隐私的保护往往有很高的要求。本文提出一个基于分布式信息流控制的MapReduce框架,用以保证MapReduce中信息的私密性和完整性... 随着信息技术的发展,分布式系统被广泛应用于金融、医疗等领域。其中以基于MapReduce的数据挖掘为代表的应用对隐私的保护往往有很高的要求。本文提出一个基于分布式信息流控制的MapReduce框架,用以保证MapReduce中信息的私密性和完整性,同时给出系统原型的实现。 展开更多
关键词 信息流控制 分布式系统 mapreduce 隐私保护
下载PDF
基于Spark MapReduce框架的分布式渲染系统研究 被引量:7
20
作者 高官涛 郑小盈 +4 位作者 宋应文 周星宇 吴佳明 霍雷 张嘉璐 《软件导刊》 2013年第12期26-29,共4页
三维渲染是电影、动画和游戏制作所需的重要工具,耗费大量时间和资源,是计算密集和数据密集的复杂过程。分布式渲染是目前提高渲染效率最有效可行的手段之一。提出了一套基于Spark MapReduce的分布式渲染系统,该系统使用由集群资源管理... 三维渲染是电影、动画和游戏制作所需的重要工具,耗费大量时间和资源,是计算密集和数据密集的复杂过程。分布式渲染是目前提高渲染效率最有效可行的手段之一。提出了一套基于Spark MapReduce的分布式渲染系统,该系统使用由集群资源管理器Apache Mesos、支持内存驻留的MapReduce计算框架Spark、分布式Hadoop文件系统构成的分布式计算集群。在这个集群之上,设计并实现一个符合MapReduce算法工作模式的渲染接口程序,用于调用外部渲染程序Blender实现单帧渲染任务。测试结果表明,基于Spark MapReduce框架的分布式渲染能够显著提高渲染速度,减轻开发所需工作量。 展开更多
关键词 三维渲染技术 分布式计算 mapreduce 内存驻留
下载PDF
上一页 1 2 36 下一页 到第
使用帮助 返回顶部