期刊文献+
共找到33篇文章
< 1 2 >
每页显示 20 50 100
基于弹性分布数据集的海量空间数据密度聚类 被引量:5
1
作者 李璐明 蒋新华 廖律超 《湖南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第8期116-124,共9页
为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并... 为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能. 展开更多
关键词 空间数据 聚类算法 弹性分布式数据 spark
下载PDF
Spark环境下基于SMT的分布式限界模型检测
2
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据 可满足性模理论求解器 spark框架
下载PDF
基于Spark的并行分布式过程挖掘算法 被引量:7
3
作者 胡小强 吴翾 +1 位作者 闻立杰 王建民 《计算机集成制造系统》 EI CSCD 北大核心 2019年第4期791-797,共7页
针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为... 针对传统的过程发现算法对大规模事件日志挖掘效率低的问题,提出一种利用Spark集群进行加速过程挖掘的方法。该方法主要针对基于日志活动关系的过程挖掘算法,对抽取活动关系阶段进行加速。通过并行分布式抽取活动关系,将事件日志转化为活动关系矩阵。然后利用关系矩阵,按算法原本的后续步骤,挖掘出过程模型。利用Spark实现分布式α-Mine算法和分布式Flexible Heuristic Miner算法,结果表明:所提方法在时间消耗上优于目前最好的算法,挖掘效率明显提升。 展开更多
关键词 过程挖掘算法 spark 数据 并行分布式
下载PDF
基于RDDs的分布式聚类集成算法 被引量:2
4
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类 分布式计算 弹性分布式数据
下载PDF
基于RDD的分布式粒子群优化算法 被引量:4
5
作者 程磊生 吴志健 +3 位作者 彭虎 吴双可 邓长寿 王则林 《小型微型计算机系统》 CSCD 北大核心 2016年第11期2542-2546,共5页
在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒... 在演化计算领域,粒子群优化算法具有易实现、收敛快、调参少等优点.但是随着问题规模的增大,粒子群优化算法易陷入求解精度不高、耗时过长的窘态,因此本文提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDD)的分布式粒子群优化算法.该算法采用岛模型将种群分解为若干个岛屿,即子种群,然后使用RDD并行数据结构将整个种群并行化,使得每个岛屿对应RDD中的一个分区,借助RDD的分区并行,实现了粒子群优化算法在分布式平台上的并行.最后,对包括单峰函数和多峰函数在内的11个标准测试函数,将该算法与多种改进的PSO算法进行了比较实验与分析,结果表明该算法求解精度高且加速效果明显. 展开更多
关键词 粒子群优化 弹性分布式数据 岛模型 并行计算
下载PDF
基于分布式计算的农机运营效率分析 被引量:2
6
作者 赵国发 刘卉 +2 位作者 肖敬 陈竞平 孟志军 《农机化研究》 北大核心 2020年第1期53-57,64,共6页
为适应深松整地作业的监管需求,国家农业智能装备工程技术研究中心研制了农机深松作业监管服务系统。针对海量的农机运动轨迹数据,搭建了基于Spark技术的分布式集群轨迹处理试验平台,研究了基于分布式计算的农机运营数据分析方法。针对... 为适应深松整地作业的监管需求,国家农业智能装备工程技术研究中心研制了农机深松作业监管服务系统。针对海量的农机运动轨迹数据,搭建了基于Spark技术的分布式集群轨迹处理试验平台,研究了基于分布式计算的农机运营数据分析方法。针对运营时间、作业时间、时间利用率及班次利用率等多项指标,对2015年8-12月期间的新疆塔城地区14台农机深松作业轨迹数据进行了农机运营效率分析。数据分析结果有助于测算和客观评价农机运营效率,为农机智能管理与科学调度研究提供数据支持。 展开更多
关键词 农机运营效率 GNSS轨迹 数据挖掘 分布式计算 spark
下载PDF
基于Spark的大数据混合计算模型 被引量:56
7
作者 胡俊 胡贤德 程家兴 《计算机系统应用》 2015年第4期214-218,共5页
现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几... 现实世界大数据应用复杂多样,可能会同时包含不同特征的数据和计算,在这种情况下单一的计算模式多半难以满足整个应用的需求,因此需要考虑不同计算模式的混搭使用.混合计算模式之集大成者当属UCBerkeley AMPLab的Spark系统,其涵盖了几乎所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)、以及图计算(Graph X).Spark提供了一个强大的内存计算引擎,实现了优异的计算性能,同时还保持与Hadoop平台的兼容性.因此,随着系统的不断稳定和成熟,Spark有望成为与Hadoop共存的新一代大数据处理系统和平台.本文详细研究和分析了Spark生态系统,建立了基于Spark平台的混合计算模型架构,并说明通过spark生态系统可以有效地满足大数据混合计算模式的应用. 展开更多
关键词 数据 混合计算模式 spark 弹性分布数据
下载PDF
Spark大数据计算平台 被引量:3
8
作者 姜学军 武枫 黄海新 《电子世界》 2018年第15期82-82,84,共2页
随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程... 随着互联网技术的发展,每时每刻都在产生大量的数据,数据量已成为爆炸性增长的趋势,单机难以存储和分析这些数据。面对难以处理海量数据的单机现状,采用Hadoop分布式计算平台可以有效解决海量数据处理问题。但是Hadoop的Map Reduce编程模型不仅操作单一,抽象层次较低难以上手,而且延时高,难以支持交互式数据处理和实时数据处理,加之其中间结果需存入HDFS对于迭代数据处理性能较差。Spark作为一个新兴的大数据梳理的引擎,除了提供了包括Map Reduce在内的几十个算子,还提供了一个集群的分布式内存抽象,避免频繁使用IO操作并大大提高迭代速度。同时在现实世界大数据应用复杂多样的背景下,Spark丰富的生态圈使得Spark可以轻易的适用于各种场景。 展开更多
关键词 数据 spark 弹性分布式数据 spark生态圈
下载PDF
Spark集群实现统计文档单词频次实例 被引量:1
9
作者 郑海鹏 《电脑知识与技术》 2020年第23期33-34,共2页
随着计算机数据分析、数据处理技术的不断发展和完善,大数据技术在社会中的实际应用场景越来越广泛,我们的生活正处在大数据时代。例如,众多电商平台利用大数据技术实现了电商用户的数据画像。依据客户的需求导向,对客户的商品需求进行... 随着计算机数据分析、数据处理技术的不断发展和完善,大数据技术在社会中的实际应用场景越来越广泛,我们的生活正处在大数据时代。例如,众多电商平台利用大数据技术实现了电商用户的数据画像。依据客户的需求导向,对客户的商品需求进行精准的定位,进一步地满足客户的实际需求,增加电商平台的产品销售量及销售利润,知名搜索引擎百度依据客户的百度搜索日志,投其所好,推送和用户浏览日志密切相关的新闻,满足用户的网络需求。大数据正在逐步地影响和改变我们的生活,该文力图对大数据技术开发环境的配置做简要的阐述,并利用Spark(一款基于内存的计算框架,运行速度比MapReduce快100倍左右)集群实现对上传至HDSF(分布式文件系统)中文档内的单词次数的统计,以此阐述大数据技术处理数据的运行流程。 展开更多
关键词 数据 spark 分布式文件系统 单词次数统计
下载PDF
Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量:20
10
作者 李成严 辛雪 +1 位作者 赵帅 冯世祥 《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页
针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计... 针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 展开更多
关键词 数据 关联规则挖掘 频繁项 spark弹性分布式数据集 MAPREDUCE框架
下载PDF
并行计算框架Spark的自适应缓存管理策略 被引量:18
11
作者 卞琛 于炯 +1 位作者 英昌甜 修位蓉 《电子学报》 EI CAS CSCD 北大核心 2017年第2期278-284,共7页
并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选... 并行计算框架Spark缺乏有效缓存选择机制,不能自动识别并缓存高重用度数据;缓存替换算法采用LRU,度量方法不够细致,影响任务的执行效率.本文提出一种Spark框架自适应缓存管理策略(Self-Adaptive Cache Management,SACM),包括缓存自动选择算法(Selection)、并行缓存清理算法(Parallel Cache Cleanup,PCC)和权重缓存替换算法(Lowest Weight Replacement,LWR).其中,缓存自动选择算法通过分析任务的DAG(Directed Acyclic Graph)结构,识别重用的RDD并自动缓存.并行缓存清理算法异步清理无价值的RDD,提高集群内存利用率.权重替换算法通过权重值判定替换目标,避免重新计算复杂RDD产生的任务延时,保障资源瓶颈下的计算效率.实验表明:我们的策略提高了Spark的任务执行效率,并使内存资源得到有效利用. 展开更多
关键词 并行计算 缓存管理策略 spark 弹性分布式数据
下载PDF
大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用 被引量:64
12
作者 张少敏 毛冬 王保义 《电力系统自动化》 EI CSCD 北大核心 2016年第14期129-134,共6页
风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障... 风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障诊断与预警模型。以齿轮箱故障诊断与预警为例阐释该模型,引入了Storm处理状态监测数据流,设计了流数据处理的Topology结构;引入Spark,利用弹性分布式数据集(RDD)编程模型实现了朴素贝叶斯(NB)算法和反向传播(BP)算法对设备状态信息进行故障诊断与预测。实验结果显示,该故障诊断与预测方法在保证精度的前提下具有较好的加速比,也证明了该故障诊断与预警模型的有效性和可行性。 展开更多
关键词 风电机组 故障诊断 故障预警 弹性分布式数据 内存批处理 数据处理
下载PDF
SparkDE:一种基于RDD云计算模型的并行差分进化算法 被引量:5
13
作者 谭旭杰 邓长寿 +3 位作者 董小刚 袁斯昊 吴志健 彭虎 《计算机科学》 CSCD 北大核心 2016年第9期116-119,139,共5页
云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集... 云计算MapReduce并行编程模型广泛应用于数据密集型应用领域,基于该模型的开源平台Hadoop在大数据领域获得了成功应用。然而,对于计算密集型任务,特别是迭代运算,频繁启动Map和Reduce过程将导致负载过大,影响计算效率。弹性分布式数据集(RDD)是一种基于内存的集群计算模型,有效地支持迭代运算,能够克服负载过大的问题。因此提出基于RDD模型的并行差分进化算法SparkDE。SparkDE首先将整个种群划分为若干个独立岛,然后将一个岛对应RDD中的一个分区,每个岛在RDD的一个分区中独立进化指定代数后,利用迁移算子在岛之间交换信息。利用标准测试问题对SparkDE、基于MapReduce模型的MRDE和基本DE进行对比实验研究。实验结果表明SparkDE求解精度高,计算速度快,加速效果明显,可以作为云计算平台的下一代优化器。 展开更多
关键词 并行差分进化算法 岛模型 弹性分布式数据 转换操作 控制操作
下载PDF
基于Apache Spark的海量图像并行检索 被引量:4
14
作者 曹健 张俊杰 +1 位作者 李海生 蔡强 《计算机应用》 CSCD 北大核心 2018年第A02期183-186,230,共5页
针对海量图像如何高效存储和快速检索问题,结合Spark大数据平台和视觉词袋图像(BoVW)检索方法,设计了一种基于Bo VW模型的海量图像并行检索框架。首先,通过BoVW模型对图像进行特征提取、特征聚类和向量表示等预处理过程;其次,对Hadoop... 针对海量图像如何高效存储和快速检索问题,结合Spark大数据平台和视觉词袋图像(BoVW)检索方法,设计了一种基于Bo VW模型的海量图像并行检索框架。首先,通过BoVW模型对图像进行特征提取、特征聚类和向量表示等预处理过程;其次,对Hadoop分布式文件系统(HDFS)中将预处理结果实现高效和稳定的存储;最后,框架利用Spark平台进行并行检索,完成图像间的相似度匹配。在ImageNet图像集上,利用图像的特征提取和聚类、向量表示等方法作为基础实验,采用扩展率和数据伸缩率证明框架稳定性的情况下,通过与传统框架进行对比,该系统加速比均在58%以上,检索准确率保持一致。实验结果表明,该方法具有更强的稳定性和更快速的检索效果。 展开更多
关键词 图像检索 spark 视觉词袋 HADOOP分布式文件系统 ImageNet数据
下载PDF
Spark中一种高效RDD自主缓存替换策略研究 被引量:4
15
作者 魏赟 丁宇琛 《计算机应用研究》 CSCD 北大核心 2020年第10期3043-3047,共5页
由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(effic... 由于并行计算框架Spark缓存替换算法的粗糙性,LRU(least recently used)算法并未考虑RDD的重复使用导致易把高重用数据块替换出内存且作业执行效率较低等问题。通过优化权重模型和改进替换策略,提出了一种高效RDD自主缓存替换策略(efficient RDD automatic cache,ERAC),包括高重用自主缓存算法和缓存替换分级算法,可实现高效RDD的自主缓存和缓存目标的分级替换。最后利用SNAP(Stanford Network Analysis Project)提供的标准数据集将ERAC和LRU、RA(register allocation)等算法进行了对比实验,结果显示ERAC算法能够有效提高Spark的内存利用率和任务执行效率。 展开更多
关键词 spark 弹性分布式数据 缓存替换 内存资源利用
下载PDF
基于Spark的近地表速度模型快速层析反演 被引量:5
16
作者 陈金焕 《石油物探》 CSCD 北大核心 2022年第1期146-155,共10页
近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近... 近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近地表速度模型层析反演方法,采用分布式内存管理技术将迭代中重复计算的数据持久化至内存中,提高程序运行效率。同时,为了解决共享存储中随着节点规模扩大而产生网络I/O堵塞的瓶颈问题,在分布式存储环境下组织弹性分布式数据集(RDD),设计基本规约单位为深度方向的一维反演数据,基于Spark Shuffle在规约过程中分布并行规约,利用Spark调度器在各个进程中分配任务,实现并行计算。实际数据计算结果表明:在反演结果精度不变的情况下,相对于常规MPI并行技术,该实现方法能够大幅度降低迭代过程中产生的网络I/O;当计算节点较多时,计算效率能够提高4倍以上;并行加速比呈现类线性增长趋势。 展开更多
关键词 近地表层析反演 迭代计算 spark并行 弹性分布式数据 规约基本单元
下载PDF
Spark平台下基于聚类挖掘的影视资源智能推荐 被引量:3
17
作者 张敏 程鹏翔 《信息技术》 2021年第9期30-33,38,共5页
为了从海量的网络影视资源中快速准确地向用户推荐其感兴趣的视频,提出了一种Spark平台下基于邻近传播(AP)聚类的智能推荐方案。数据存储采用了分布式文件系统,并在弹性分布式数据集中采用AP聚类进行资源实时推荐,加快聚类速度。此外,... 为了从海量的网络影视资源中快速准确地向用户推荐其感兴趣的视频,提出了一种Spark平台下基于邻近传播(AP)聚类的智能推荐方案。数据存储采用了分布式文件系统,并在弹性分布式数据集中采用AP聚类进行资源实时推荐,加快聚类速度。此外,将明可夫斯基(Minkowski)相似性度量引入到AP聚类中,替换原有的欧氏距离度量来构建相似度,以提高其聚类精度。在常用电影数据集MovieLens上进行实验验证。结果表明,Spark平台有效提升了聚类计算的效率。同时,相比于AP聚类和K-均值聚类算法,改进AP聚类的推荐准确率更高。 展开更多
关键词 智能推荐 邻近传播聚类 spark架构 分布式数据 相似性度量
下载PDF
Spark平台下关联规则算法的优化实现 被引量:4
18
作者 梁瑷云 袁丁 +1 位作者 严清 刘小久 《计算机工程与设计》 北大核心 2018年第12期3692-3699,共8页
利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。... 利用Spark平台的高速计算能力,将传统的关联规则算法移植到Spark平台上,虽然一定程度上提高了该算法的运行效率,但该算法本身存在的系统I/O负载量大、存储开销大等问题依然存在。为此,提出一种基于矩阵的并行化优化算法Apriori_MC_SP。引入矩阵概念减少事务数据库的扫描次数,充分利用Spark内存计算的弹性分布式内存数据集对象,存储事务布尔矩阵以及频繁项集。相较于传统的Apriori算法,该算法减少了事务数据库的访问次数,简化了Apriori算法的"自连接"以及"剪枝"过程。实验结果表明,提出方案在保证输出结果不变的情况下,加快了关联挖掘的执行效率。 展开更多
关键词 spark平台 APRIORI算法 并行化 布尔矩阵 弹性分布式内存数据
下载PDF
并行计算框架Spark中一种新的RDD分区权重缓存替换算法 被引量:8
19
作者 刘恒 谭良 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2279-2284,共6页
并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重... 并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率. 展开更多
关键词 spark 弹性分布式数据 缓存替换策略 并行计算 RDD缓存
下载PDF
大数据处理平台比较与分析 被引量:8
20
作者 何海林 皮建勇 《微型机与应用》 2015年第11期7-9,17,共4页
虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念... 虽然以MapReduce和Hadoop分布式系统(HDFS)为核心的Hadoop已在大规模数据密集的商业领域成功应用,但是对于多个并行操作之间重用工作数据集却表现不佳。作为对其的一种补充,本文介绍了Spark。首先介绍Hadoop的MapReduce与HDFS基本概念与设计思想,然后介绍了Spark的基本概念与思想,并且着重介绍了弹性分布式数据集RDD,并通过实验证明和分析对比了Hadoop与Spark。 展开更多
关键词 HADOOP MAP REDUCE HDFS spark 弹性分布式数据
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部