期刊文献+
共找到35,226篇文章
< 1 2 250 >
每页显示 20 50 100
基于项目属性相似和MapReduce并行化的Slope One算法 被引量:2
1
作者 胡旭 鲁汉榕 +1 位作者 陈新 周国安 《空军预警学院学报》 2015年第1期54-58,67,共6页
针对Slope One算法存在预测精度依赖于用户对待预测项目的评分数量的缺陷,提出了一种基于项目属性相似度和Map Reduce并行化的Slope One算法.首先计算项目间的属性相似度,并将其与Slope One算法相融合以提高预测精度,然后在Hadoop平台... 针对Slope One算法存在预测精度依赖于用户对待预测项目的评分数量的缺陷,提出了一种基于项目属性相似度和Map Reduce并行化的Slope One算法.首先计算项目间的属性相似度,并将其与Slope One算法相融合以提高预测精度,然后在Hadoop平台上对改进算法基于Map Reduce进行并行化实现.在Movie Lens数据集上的实验结果表明,相对于Slope One算法和加权Slope One算法,本文提出的改进Slope One算法具有更高的预测精度,并更适用于大规模数据集. 展开更多
关键词 SLOPE One算法 属性相似度 mapreduce并行
下载PDF
一种网格化聚类算法的MapReduce并行化研究 被引量:3
2
作者 张磊 张公让 张金广 《计算机技术与发展》 2013年第2期60-64,共5页
面对增量式增长的聚类数据,受云计算并行化处理模式的启发,文中对一种网格化聚类算法进行了MapReduce并行化研究。该算法首先利用网格处理技术对数据进行预处理,用网格预处理后所得单元的重心点取代该单元中保存的所有点,然后在MapReduc... 面对增量式增长的聚类数据,受云计算并行化处理模式的启发,文中对一种网格化聚类算法进行了MapReduce并行化研究。该算法首先利用网格处理技术对数据进行预处理,用网格预处理后所得单元的重心点取代该单元中保存的所有点,然后在MapReduce框架下将各个单元的重心点作为聚类分析的基本数据单元,进行聚类分析。实验结果表明,该算法MapReduce并行化后部署在Hadoop集群上运行,具有与原来相同的聚类效果,并能节省聚类分析的时间和降低计算的复杂度,适合用于高纬度、增量式的海量数据的分析和挖掘。 展开更多
关键词 网格 聚类 数据挖掘 mapreduce并行
下载PDF
基于Hadoop MapReduce并行近似谱聚类算法研究与实现 被引量:4
3
作者 杨煜 赵成贵 《计算机应用与软件》 CSCD 2015年第8期17-21,63,共6页
随着信息时代的来临,互联网产生的大规模高维数据呈现几何级数增长,对其进行谱聚类在计算时间和内存使用上都存在瓶颈问题,尤其是求Laplacian矩阵特征向量分解。鉴于Hadoop MapReduce并行编程模型对密集型数据处理的优势,基于t最近邻稀... 随着信息时代的来临,互联网产生的大规模高维数据呈现几何级数增长,对其进行谱聚类在计算时间和内存使用上都存在瓶颈问题,尤其是求Laplacian矩阵特征向量分解。鉴于Hadoop MapReduce并行编程模型对密集型数据处理的优势,基于t最近邻稀疏化近似相似Laplacian矩阵,设计Hadoop MapReduce并行近似谱聚类算法,以期解决上述瓶颈问题。实验使用UCI Bag of Words数据集验证所设计算法的正确性和有效性,结果显示该并行设计在谱聚类质量和性能方面达到了一定的预期效果。 展开更多
关键词 Hadoop分布式系统 mapreduce并行计算 近似谱聚类算法 稀疏近似相似矩阵 大规模高维数据
下载PDF
MapReduce并行编程模型研究综述 被引量:187
4
作者 李建江 崔健 +2 位作者 王聃 严林 黄义双 《电子学报》 EI CAS CSCD 北大核心 2011年第11期2635-2642,共8页
MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成... MapReduce并行编程模型通过定义良好的接口和运行时支持库,能够自动并行执行大规模计算任务,隐藏底层实现细节,降低并行编程的难度.本文对MapReduce的国内外相关研究现状进行了综述,阐述和分析了当前国内外与MapReduce相关的典型研究成果的特点和不足,重点对MapReduce涉及的关键技术(包括:模型改进、模型针对不同平台的实现、任务调度、负载均衡和容错)的研究现状进行了深入的分析.本文最后还对MapReduce未来的发展趋势进行了展望. 展开更多
关键词 mapreduce 并行编程模型 运行时支持库 海量数据处理
下载PDF
MapReduce并行编程模型研究综述 被引量:24
5
作者 杜江 张铮 +1 位作者 张杰鑫 邰铭 《计算机科学》 CSCD 北大核心 2015年第S1期537-541 564,564,共6页
MapReduce并行编程模型的出现简化了并行编程的复杂度。通过调用方便的接口和运行时支持库,MapReduce并行编程模型可令大规模并行计算任务自动并发地执行而不必关心底层的具体实现细节,从而令MapReduce并行编程模型在大规模中低性能集... MapReduce并行编程模型的出现简化了并行编程的复杂度。通过调用方便的接口和运行时支持库,MapReduce并行编程模型可令大规模并行计算任务自动并发地执行而不必关心底层的具体实现细节,从而令MapReduce并行编程模型在大规模中低性能集群中发挥出色的计算能力,且可节约成本。对国内外关于MapReduce并行编程模型的研究现状进行了综述,分析了目前国内外相关研究成果的优缺点,并对MapReduce并行编程模型的未来发展进行了展望。 展开更多
关键词 mapreduce 并行编程模型 并行计算 海量数据处理
下载PDF
KNN分类算法的MapReduce并行化实现 被引量:21
6
作者 闫永刚 马廷淮 王建 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2013年第4期550-555,共6页
为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并... 为了提高k-nearest neighbor algorithm(KNN)算法处理大数据集的能力,本文利用Map Reduce并行编程模型,同时结合KNN算法自身的特点,给出了KNN算法在Hadoop平台下的并行化实现。通过设计Map、Combine和Reduce 3个函数,实现了KNN算法的并行化。Map函数完成每个测试样本与训练样本之间的相似度计算,Combine函数作为一个本地的Reduce操作,用以减少中间计算量及通信开销,Reduce函数则根据上述函数得到的中间结果计算出k近邻并作出分类判断。实验结果表明:较之以往的单机版方法,在Hadoop集群上实现的并行化KNN算法具有较好的加速比和良好的扩展性。 展开更多
关键词 KNN分类 并行计算 mapreduce模型 HADOOP
下载PDF
MapReduce并行编程架构模型研究 被引量:23
7
作者 江务学 张璟 王志明 《微电子学与计算机》 CSCD 北大核心 2011年第6期168-170,175,共4页
针对高质量高效率的MapReduce应用程序的开发,分析了基于Hadoop MapReduce模型的工作机制,从开发类库级阐述了MapReduce并行工作流程,提出了一个具有通用性的MapReduce开发框架原型,对开源的Ma-pReduce模型的改进作了一些展望.
关键词 mapreduce模型 并行编程 心跳程序
下载PDF
基于MapReduce并行架构的大数据社会网络社团挖掘方法 被引量:10
8
作者 邓波 张玉超 +1 位作者 金松昌 林旺群 《计算机研究与发展》 EI CSCD 北大核心 2013年第S2期187-195,共9页
随着社会网络数据规模的急剧上升,传统的社会网络社团挖掘方法无法有效应对大数据社会网络场景.基于MapReduce并行计算框架,提出了一种针对大数据社会网络的社团挖掘方法.借助于信息压缩理论模型,该方法首先对给定的社会网络进行二进制... 随着社会网络数据规模的急剧上升,传统的社会网络社团挖掘方法无法有效应对大数据社会网络场景.基于MapReduce并行计算框架,提出了一种针对大数据社会网络的社团挖掘方法.借助于信息压缩理论模型,该方法首先对给定的社会网络进行二进制信息编码,然后按照信息描述长度理论并行计算社会网络中给定编码方案的信息描述长度,从而将社会网络社团并行挖掘问题转化为并行搜索社会网络中最小信息描述长度所对应的编码方案问题.通过采用并行随机迭代方式搜索大数据社会网络编码状态空间中的最佳编码方案,提出的大数据社会网络社团挖据方法具有自动发现最佳社团数量、算法复杂度低、计算精度高和高可扩展性等特点.与同类方法进行实验对比,从算法的计算精度和计算性能两方面验证了所提方法的有效性. 展开更多
关键词 大数据社会网络 mapreduce 社团 信息压缩 随机游走
下载PDF
改进K-means算法的MapReduce并行化研究 被引量:7
9
作者 李兰英 董义明 +1 位作者 孔银 周秋丽 《哈尔滨理工大学学报》 CAS 北大核心 2016年第1期31-35,共5页
针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题,本文提出了改进的K-means算法,首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类,最后将算法在Map... 针对K-means在处理海量数据时,因初始聚类中心的选取不确定,从而导致收敛速度过慢的问题,本文提出了改进的K-means算法,首先用模糊聚类的思想对数据集进行模糊分类,其次采用动态计算聚类中心的方式对数据集进行二次分类,最后将算法在MapReduce模型上进行了实现.实验结果表明,改进后的算法不仅提高了加速比,而且算法的收敛速度更快. 展开更多
关键词 聚类 mapreduce K—means 加速比
下载PDF
基于列存储的MapReduce并行连接算法 被引量:5
10
作者 张滨 乐嘉锦 《计算机工程》 CAS CSCD 2014年第8期70-75,85,共7页
针对传统关系型数据库在对大数据进行操作时,系统性能严重下降、计算效率提升有限以及可扩展性差等问题,引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce并行连接算法。设计面向大数据的分布式计算模型,包括MapReduc... 针对传统关系型数据库在对大数据进行操作时,系统性能严重下降、计算效率提升有限以及可扩展性差等问题,引入MapReduce并行计算模型,提出一种大数据上基于列存储的MapReduce并行连接算法。设计面向大数据的分布式计算模型,包括MapReduce分布式环境下的列存储文件格式MCF,采用协同定位策略实现对分布式存储的优化。使用分片聚集和子连接启发式优化方法,实现大数据在MapReduce分布式环境下并行连接算法。实验结果证明,在大数据分析处理中,该算法在执行时间和负载能力上有着较好的优化性能,同时具有良好的可扩展性。 展开更多
关键词 大数据 列存储 mapreduce模型 MCF存储格式 并行连接 启发式优化方法
下载PDF
粗粒度并行遗传算法的MapReduce并行化实现 被引量:6
11
作者 程兴国 肖南峰 《重庆理工大学学报(自然科学)》 CAS 2013年第10期66-70,74,共6页
针对粗粒度并行遗传算法的特点,给出了MapReduce编程模型实现遗传算法的方法。将随机生成的初始种群分割成若干个子种群,用Map方法实现单个子种群的传统遗传算法。各个子种群在不同的Node上相互独立地并发执行个体适应值计算、选择、交... 针对粗粒度并行遗传算法的特点,给出了MapReduce编程模型实现遗传算法的方法。将随机生成的初始种群分割成若干个子种群,用Map方法实现单个子种群的传统遗传算法。各个子种群在不同的Node上相互独立地并发执行个体适应值计算、选择、交叉和变异等操作,在Partition环节将每个子群所提取的最优个体迁移到其他子种群中,以实现各个子种群的共同进化。该方法充分利用了MapReduce的高度并行性,提高了算法的效率,同时在一定程度上克服了过早收敛和局部最优解问题。 展开更多
关键词 遗传算法 粗粒度并行遗传算法 mapreduce
下载PDF
MapReduce并行计算技术发展综述 被引量:18
12
作者 应毅 刘亚军 《计算机系统应用》 2014年第4期1-6,11,共7页
经过几年的发展,并行编程模型MapReduce产生了若干个改进框架,它们都是针对传统MapReduce的不足进行的修正或重写.本文阐述和分析了这些研究成果,包括:以HaLoop为代表的迭代计算框架、以Twitter Storm为代表的实时计算框架、以Apache H... 经过几年的发展,并行编程模型MapReduce产生了若干个改进框架,它们都是针对传统MapReduce的不足进行的修正或重写.本文阐述和分析了这些研究成果,包括:以HaLoop为代表的迭代计算框架、以Twitter Storm为代表的实时计算框架、以Apache Hama为代表的图计算框架以及以Apache YARN为代表的框架管理平台.这些专用系统在大数据领域发挥着越来越重要的作用. 展开更多
关键词 并行计算 大数据处理
下载PDF
MapReduce并行化压缩近邻算法 被引量:1
13
作者 翟俊海 郝璞 +1 位作者 王婷婷 张明阳 《小型微型计算机系统》 CSCD 北大核心 2017年第12期2678-2682,共5页
压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN算法的内存需求和计算负担.但在最坏情况下,CNN算法的计算时间复杂度为O(n3),n为训练集中包含的样例数.当... 压缩近邻(CNN:Condensed Nearest Neighbors)是Hart针对K-近邻(K-NN:K-Nearest Neighbors)提出的样例选择算法,目的是为了降低K-NN算法的内存需求和计算负担.但在最坏情况下,CNN算法的计算时间复杂度为O(n3),n为训练集中包含的样例数.当CNN算法应用于大数据环境时,高计算时间复杂度会成为其应用的瓶颈.针对这一问题,本文提出了基于MapReduce并行化压缩近邻算法.在Hadoop环境下,编程实现了并行化的CNN,并与原始的CNN算法在6个数据集上进行了实验比较.实验结果显示,本文提出的算法是行之有效的,能解决上述问题. 展开更多
关键词 压缩近邻 K-近邻 样例选择 mapreduce
下载PDF
基于MapReduce并行处理的机电特种设备故障诊断系统设计 被引量:11
14
作者 王林 姜萌 《计算机测量与控制》 2021年第2期5-9,共5页
针对直流接地故障检测系统检测结果误差大的问题,提出了基于MapReduce并行处理的机电特种设备故障诊断系统设计;根据系统总体架构,将硬件结构分为故障检测显示单元和数据处理及传输单元;整流电流,使用二极管整流装置设计集流故障检测指... 针对直流接地故障检测系统检测结果误差大的问题,提出了基于MapReduce并行处理的机电特种设备故障诊断系统设计;根据系统总体架构,将硬件结构分为故障检测显示单元和数据处理及传输单元;整流电流,使用二极管整流装置设计集流故障检测指示电路;采用多层差分电路获取脉冲信号,以低电平电压位置的故障检测器作为检测点,设计电流突变检测模块;使用DH08型号开关状态检测模块,具有8路交流输入,由此检测设备断电故障;选配6AU1410-0AB00-0AA0型西门子报警模块,对故障点进行报警处理;设计MapReduce执行流程,分析4个MapReduce作业训练过程,计算数据属性特征词在每个故障类中的频率值,由此完成故障诊断;以轴承故障为例,进行实验验证分析;由实验测试结果可知,该系统与实际波形差别较小,其对A相、B相C相电流短路故障诊断的时间点波形变化与实际曲线基本一致,在0A附近波动,说明该方法具有精准检测结果,能够为机电特种设备广泛应用提供设备支持。 展开更多
关键词 mapreduce 并行处理 机电特种设备 故障诊断
下载PDF
ABC_Kmeans聚类算法的MapReduce并行化研究 被引量:5
15
作者 袁小艳 《计算机测量与控制》 2016年第1期252-254,258,共4页
随着数据的海量增长,数据聚类算法的研究面临着海量数据挖掘和处理的挑战;针对K-means聚类算法对初始聚类中心的依赖性太强、全局搜索能力也差等缺点,将一种改进的人工蜂群算法与K-means算法相结合,提出了ABC_Kmeans聚类算法,以提高聚... 随着数据的海量增长,数据聚类算法的研究面临着海量数据挖掘和处理的挑战;针对K-means聚类算法对初始聚类中心的依赖性太强、全局搜索能力也差等缺点,将一种改进的人工蜂群算法与K-means算法相结合,提出了ABC_Kmeans聚类算法,以提高聚类的性能;为了提高聚类算法处理海量数据的能力,采用MapReduce模型对ABC_Kmeans进行并行化处理,分别设计了Map、Combine和Reduce函数;通过在多个海量数据集上进行实验,表明ABC_Kmeans算法的并行化设计具有良好的加速比和扩展性,适用于当今海量数据的挖掘和处理。 展开更多
关键词 K-MEANS 聚类 人工蜂群 mapreduce
下载PDF
云计算环境下Apriori算法的MapReduce并行化 被引量:3
16
作者 李晓飞 《长春工业大学学报》 CAS 2013年第6期736-740,共5页
借助分割数据技术优化了经典的Apriori算法,实现了对候选项集的分组统计。给出了优化Apriori算法的MapReduce编程实现模型,达到了Apriori算法并行化的目的。实验结果表明,该算法能够大量减少键/值对的产生,提高了算法的效率,并且随着挖... 借助分割数据技术优化了经典的Apriori算法,实现了对候选项集的分组统计。给出了优化Apriori算法的MapReduce编程实现模型,达到了Apriori算法并行化的目的。实验结果表明,该算法能够大量减少键/值对的产生,提高了算法的效率,并且随着挖掘频繁项目集节点数的增加,算法的加速比成线性提高。 展开更多
关键词 云计算 APRIORI算法 mapreduce模型 并行 数据分割
下载PDF
词类共现频率的MapReduce并行生成方法 被引量:1
17
作者 程兴国 肖南峰 《重庆理工大学学报(自然科学)》 CAS 2013年第11期53-57,64,共6页
语料库在自然语言处理(NLP)领域的应用越来越广泛,词类共现频率的统计是其研究内容之一。针对词类共现的计算特点,给出了基于MapReduce编程模型实现的并行方法,即pairs和stripes方法[1]。虽然stripes模式性能明显优于pairs模式,但其在... 语料库在自然语言处理(NLP)领域的应用越来越广泛,词类共现频率的统计是其研究内容之一。针对词类共现的计算特点,给出了基于MapReduce编程模型实现的并行方法,即pairs和stripes方法[1]。虽然stripes模式性能明显优于pairs模式,但其在词汇表很大时存在内存溢出问题。针对此缺陷,给出了划分词汇表的解决方法,对输入词汇表进行拆分,此过程可利用MapReduce模型进行预处理。实验结果表明:利用MapReduce的并行性能较好地提高海量语料库中词类共现频率统计的效率和性能。 展开更多
关键词 语料库 词类共现频率 自然语言处理 mapreduce HADOOP
下载PDF
K-Means算法的MapReduce并行实现 被引量:1
18
作者 蒋溢 刘鑫洋 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第11期180-185,共6页
首先搭建了Hadoop集群,然后在MapReduce模型中实现K-Means算法,最后设计多组实验验证了算法的稳定性和准确率.
关键词 Hadoop分布式计算 K-MEANS mapreduce
下载PDF
云计算环境下基于MapReduce并行的Apriori算法优化研究 被引量:5
19
作者 李莉 《自动化与仪器仪表》 2014年第7期1-4,共4页
根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框... 根据MapReduce模型并行运行实现的特点,针对可扩展性差的传统Apriori的特点和传统Apriori算法,采用了"云"强大的廉价计算处理方式和关联规则挖掘算法,改进提高Apriori算法的运算效率。通过改进在云计算环境下MapReduce编程框架,并且结合验证MR-Apriori算法的实验为基础,这对传统意义上的Apriori算法在数据挖掘过程中所出现的客观问题进行处理,从而真正意义上的完成了本文研究的基于MapReduce并行的Apriori算法的扩展性提升的目标,并且表明了元计算技术结合关联规则挖掘算法的可能性。 展开更多
关键词 云计算 mapreduce模型 APRIORI算法 关联规则
下载PDF
检测僵尸网络的贝叶斯算法的MapReduce并行化实现 被引量:1
20
作者 邵秀丽 刘一伟 +1 位作者 耿梅洁 韩健斌 《智能系统学报》 CSCD 北大核心 2014年第1期26-33,共8页
僵尸网络严重威胁互联网的安全,目前主流的僵尸网络检测方法准确性较低,针对此问题,考虑贝叶斯算法具有较高的准确性,提出了基于Hadoop平台的MapReduce机制的贝叶斯算法。该方法以主机对作为分析对象,提取2个主机对通信的流量特征,将这... 僵尸网络严重威胁互联网的安全,目前主流的僵尸网络检测方法准确性较低,针对此问题,考虑贝叶斯算法具有较高的准确性,提出了基于Hadoop平台的MapReduce机制的贝叶斯算法。该方法以主机对作为分析对象,提取2个主机对通信的流量特征,将这些特征作为贝叶斯分类算法的输入,通过并行化计算贝叶斯算法训练阶段的先验概率和条件概率形成贝叶斯分类器,使其学会辨认僵尸网络的流量。在检测阶段利用训练阶段形成的贝叶斯分类器和并行化计算后验概率,实现检测僵尸网络。通过实验表明,该方法检测僵尸网络是有效的,检测正确率在90%以上,并且该方法较单机检测僵尸网络的贝叶斯算法效率有了较大的提高。 展开更多
关键词 僵尸网络 检测僵尸网络 贝叶斯算法 流量
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部