期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
基于Python的Spark RDD案例研究
1
作者 邓晓林 谢玫秀 《移动信息》 2024年第9期298-300,共3页
人工智能需要通过大数据训练生成模型,因此人工智能离不开大数据的数据支撑,而大数据也离不开人工智能机器学习算法等的高级分析.Python语言作为人工智能、机器学习算法等的主流语言,Spark以RDD作为大数据的主要数据抽象模型,文中将Pyt... 人工智能需要通过大数据训练生成模型,因此人工智能离不开大数据的数据支撑,而大数据也离不开人工智能机器学习算法等的高级分析.Python语言作为人工智能、机器学习算法等的主流语言,Spark以RDD作为大数据的主要数据抽象模型,文中将Python与Spark RDD相结合来进行应用案例研究分析,使Python既可以应用于机器学习算法研究也可以应用于大数据分析,通过这种方式可以给企业、研发人员提供更加方便、简单、高效的解决方案. 展开更多
关键词 大数据 PYTHON spark spark rdd
下载PDF
Spark平台下的RDD研究与应用 被引量:2
2
作者 马兆辉 赵睿哲 温秀梅 《河北建筑工程学院学报》 CAS 2023年第2期214-221,共8页
大数据时代下,计算海量数据的需求日益加剧,Spark是专门用于计算大规模数据量的并行计算框架,但在实际应用中使用较少。首先对Spark平台下RDD(Resilient Distributed Dataset)的基本概念进行介绍;其次对Spark与RDD的关系进行描述:Spark... 大数据时代下,计算海量数据的需求日益加剧,Spark是专门用于计算大规模数据量的并行计算框架,但在实际应用中使用较少。首先对Spark平台下RDD(Resilient Distributed Dataset)的基本概念进行介绍;其次对Spark与RDD的关系进行描述:Spark的核心是建立在抽象的弹性分布数据集RDD之上的,Spark可以将数据处理成为弹性分布数据集RDD,再通过RDD的转换接口和动作操作得到最终数据;最后在Spark平台实现电商用户页面单跳转化率统计实验和电商热门品类中Top10活跃Session统计实验,实现在实际生活中的应用,达到更快处理大规模数据的目的。 展开更多
关键词 大数据 spark rdd 电商
下载PDF
基于RDD关键度的Spark检查点管理策略 被引量:5
3
作者 英昌甜 于炯 +3 位作者 卞琛 王维庆 鲁亮 钱育蓉 《计算机研究与发展》 EI CSCD 北大核心 2017年第12期2849-2863,共15页
Spark默认容错机制由程序员设置检查点,并利用弹性分布式数据集(resilient distributed dataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时... Spark默认容错机制由程序员设置检查点,并利用弹性分布式数据集(resilient distributed dataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时,仅考虑数据本地性选择节点,并未考虑节点的计算能力,这都会导致恢复时间增加,无法最大化发挥集群的性能.因此,在建立Spark执行模型、检查点模型和RDD关键度模型的基础上,提出一种基于关键度的检查点管理(criticality checkpoint management,CCM)策略,其中包括检查点设置算法、失效恢复算法和清理算法.其中检查点设置算法通过分析作业中RDD的属性以及对作业恢复时间的影响,选择关键度大的RDD作为检查点存储;恢复算法根据各节点的计算能力做出决策,选择合适的节点执行恢复任务;清理算法在磁盘空间不足时,清除关键度较低的检查点.实验结果表明:该策略在略增加执行时间的情况下,能够选择有备份价值的RDD作为检查点,在节点失效时能够有效地降低恢复开销,提高节点的磁盘有效利用率. 展开更多
关键词 内存计算 spark 检查点管理 失效恢复 rdd属性
下载PDF
并行计算框架Spark中一种新的RDD分区权重缓存替换算法 被引量:8
4
作者 刘恒 谭良 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2279-2284,共6页
并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重... 并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率. 展开更多
关键词 spark 弹性分布式数据集 缓存替换策略 并行计算 rdd缓存
下载PDF
Spark框架中RDD缓存替换策略优化 被引量:9
5
作者 陈天宇 张龙信 +1 位作者 李肯立 周立前 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1248-1253,共6页
Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使... Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使用RDD分片而忽略其它因素.基于RDD权重值改进后的WR缓存替换策略侧重于RDD的权值替换,在此研究基础上,本文提出了缓存权重替换(CWS)策略,优化选择策略,并在替换阶段考虑了历史访问次数与计算成本.本文的实验使用斯坦福大学提供的公开网络分析项目进行测试,实验结果表明CWS策略在充足内存条件下处理较小数据的平均执行时间高于WR算法2. 4%,内存占用率相比降低36%. 展开更多
关键词 缓存策略 spark 弹性分布式数据集 内存计算
下载PDF
基于Spark的极限学习机算法并行化研究 被引量:6
6
作者 刘鹏 王学奎 +2 位作者 黄宜华 孟磊 丁恩杰 《计算机科学》 CSCD 北大核心 2017年第12期33-37,共5页
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进... 极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。 展开更多
关键词 限学习机 并行化 spark rdd Hadoop MAPREDUCE
下载PDF
基于Spark的大规模文本k-means并行聚类算法 被引量:14
7
作者 刘鹏 滕家雨 +1 位作者 丁恩杰 孟磊 《中文信息学报》 CSCD 北大核心 2017年第4期145-153,共9页
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统... 互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。 展开更多
关键词 K-MEANS 并行化 文本聚类 spark rdd Hadoop MAPREDUCE
下载PDF
Spark内存管理及缓存策略研究 被引量:13
8
作者 孟红涛 余松平 +1 位作者 刘芳 肖侬 《计算机科学》 CSCD 北大核心 2017年第6期31-35,74,共6页
Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试... Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择。最后,测试和分析了多种缓存策略的性能。 展开更多
关键词 大数据 spark内存管理 rdd缓存 缓存策略
下载PDF
Spark计算引擎的数据对象缓存优化研究 被引量:3
9
作者 陈康 王彬 冯琳 《中兴通讯技术》 2016年第2期23-27,共5页
研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有... 研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有的近期最少使用(LRU)算法。通过改进缓存方法,提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。 展开更多
关键词 并行计算 缓存 spark rdd
下载PDF
Spark框架下地震属性处理方法研究 被引量:4
10
作者 朱丽萍 王建东 +1 位作者 李洪奇 赵艳红 《计算机与数字工程》 2018年第8期1620-1626,共7页
为解决单机环境下地震属性计算处理效率低下问题,提出基于分布式并行框架Spark的地震属性迭代处理方法,构建满足并行计算需求的地震属性文件结构,然后将存储于HDFS上的地震属性数据以分布式弹性数据集(RDD)的形式读入内存,使用Spark将... 为解决单机环境下地震属性计算处理效率低下问题,提出基于分布式并行框架Spark的地震属性迭代处理方法,构建满足并行计算需求的地震属性文件结构,然后将存储于HDFS上的地震属性数据以分布式弹性数据集(RDD)的形式读入内存,使用Spark将涉及多次迭代的地震属性计算过程转化为数据转移DAG图并分步执行,整个计算过程在内存中完成多次迭代后再将结果持久化到磁盘,相比于Hadoop Map Reduce和传统的单机处理过程避免了每次迭代时中间结果的磁盘IO,极大地提高了处理效率。将此方法应用于曲率属性的二维高斯迭代滤波处理过程,有效提升了地震属性处理效率。实验表明随着数据量和迭代次数增加,同样的处理过程在Spark下比Hadoop Map Reduce下的计算效率能够提升10倍左右。 展开更多
关键词 地震属性分析 spark rdd MAPREDUCE 迭代计算
下载PDF
并行计算框架Spark的自动检查点策略 被引量:1
11
作者 英昌甜 于炯 +2 位作者 卞琛 鲁亮 钱育蓉 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期231-235,共5页
针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DA... 针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DAG结构,获取RDD的血统长度和操作复杂度等属性,计算RDD权重;然后,CAS算法选择权重大的RDD作为检查点进行异步备份,来实现数据的快速恢复.结果表明:在使用CAS算法时,不同数据集执行时间和检查点容量大小都有所增加,其中Wiki-Talk由于其计算量较大,增幅明显;使用CAS算法设置检查点后,在单点失效恢复的情况下,数据集的恢复时间较短.因此,自动检查点策略在略微增加执行时间开销的基础上,能够有效地降低作业的恢复开销. 展开更多
关键词 自动检查点 rdd权重 spark 恢复时间
下载PDF
Spark环境下基于SMT的分布式限界模型检测
12
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据集 可满足性模理论求解器 spark框架
下载PDF
基于Spark的分布式大数据分析算法研究 被引量:21
13
作者 宋泊东 张立臣 江其洲 《计算机应用与软件》 北大核心 2019年第1期39-44,共6页
随着大数据时代的到来,数据计算的实时性和数据量面临许多挑战。为了满足庞大的数据量和大数据高速处理的要求,研究将Apache作为一种集成的资源管理系统。采用Apache Storm、Apache Spice及SARK RDD处理大型分布式实时数据流,使用Apache... 随着大数据时代的到来,数据计算的实时性和数据量面临许多挑战。为了满足庞大的数据量和大数据高速处理的要求,研究将Apache作为一种集成的资源管理系统。采用Apache Storm、Apache Spice及SARK RDD处理大型分布式实时数据流,使用Apache Kafka作为消息中间件来支持异步消息的通信。设计一种支持并行运算规则的分布式大数据分析处理算法。实验结果表明:该算法可有效降低海量数据的分析速度,且支持系统内各子系统间的异构信息沟通与数据存储,足以满足高频交易市场的短期趋势预测需求。在高频、大数据处理系统中具有较高的应用价值。 展开更多
关键词 APACHE Kafka 分布式 spark rdd N层 实时数据流
下载PDF
基于Spark的层次聚类算法的并行化研究 被引量:6
14
作者 余胜辉 李玲娟 《计算机技术与发展》 2020年第6期19-22,共4页
随着大数据时代的来临,传统的计算模式已经不足以支撑如此大量的数据。基于内存计算的大数据并行化计算框架Spark的出现很好地解决了这一问题。CURE是一种基于取样和代表点的层次聚类算法,它采用迭代的方式,自底向上地合并两个距离最近... 随着大数据时代的来临,传统的计算模式已经不足以支撑如此大量的数据。基于内存计算的大数据并行化计算框架Spark的出现很好地解决了这一问题。CURE是一种基于取样和代表点的层次聚类算法,它采用迭代的方式,自底向上地合并两个距离最近的簇。与传统的聚类算法相比,CURE算法对异常点的敏感度更小。但是在处理大量数据的情况下,CURE算法存在着因反复迭代而消耗大量时间的问题。文中利用了Spark的RDD编程模型的可伸缩性和分布式等特点,实现了对CURE算法计算过程的并行化,提升了该算法对数据的处理速度,使算法能够适应数据规模的扩展,并且提高了聚类的性能。在Spark上运用CURE算法对公开数据集的并行化处理结果表明,基于Spark的CURE算法并行化既保证了聚类准确率又提高了算法的时效性。 展开更多
关键词 spark 层次聚类 CURE rdd 并行化
下载PDF
基于Spark的并行遗传算法研究 被引量:5
15
作者 余涛 刘泽燊 《计算机时代》 2017年第1期43-46,共4页
当前Spark分布式编程框架由于内存计算得到了快速发展,相对于传统Map Reduce并行编程模型在迭代运算上有明显优势。针对串行遗传算法处理大规模问题能力有限的现状,提出了一种基于Spark平台的粗粒度并行遗传算法(SPGA)。该方法利用Spar... 当前Spark分布式编程框架由于内存计算得到了快速发展,相对于传统Map Reduce并行编程模型在迭代运算上有明显优势。针对串行遗传算法处理大规模问题能力有限的现状,提出了一种基于Spark平台的粗粒度并行遗传算法(SPGA)。该方法利用Spark框架并行实现了遗传算法的选择、交叉和变异操作,并对并行操作算子的性能进行了分析,优化了算法并行化实现方案,极大地提高了遗传算法全局搜索效率。实验结果表明,新的并行遗传算法在收敛速度上有显著的提高,能够很好地提高优化效率。 展开更多
关键词 spark rdd 并行遗传算法 多目标优化 大规模变量
下载PDF
大数据处理统一引擎Apache Spark研究 被引量:4
16
作者 张琴 《现代制造技术与装备》 2017年第8期184-185,187,共3页
Apache Spark是当前流行的大数据处理统一引擎,具有通用、高效、易用等特点。Apache Spark是针对Map Reduce在交互式数据挖掘、迭代式算法、机器学习等应用的低效率而提出的一种可同时进行批处理、交互式计算、流式计算的内存式计算框... Apache Spark是当前流行的大数据处理统一引擎,具有通用、高效、易用等特点。Apache Spark是针对Map Reduce在交互式数据挖掘、迭代式算法、机器学习等应用的低效率而提出的一种可同时进行批处理、交互式计算、流式计算的内存式计算框架。本文介绍了Map Reduce的基本概念与设计思想,并与Spark进行对比分析,着重介绍了Spark的核心技术DAG和RDD,最后给出相关的编程示例。 展开更多
关键词 spark MAPREDUCE 大数据 rdd
下载PDF
基于Spark Streaming的快速视频转码方法 被引量:2
17
作者 付眸 杨贺昆 +3 位作者 吴唐美 何润 冯朝胜 康胜 《计算机应用》 CSCD 北大核心 2018年第12期3500-3508,共9页
针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提... 针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提出编程算法;然后,针对并行视频转码的特点,对弹性分布式数据集(RDD)进行研究,构建了视频转码的流处理模型;最后,设计视频合并方案,将合并后的视频文件进行有效储存。根据所提出的快速视频转码方法设计与实现了基于Spark Streaming的快速视频转码系统。实验结果表明,与面向批处理Hadoop视频转码方法相比,所提方法转码效率提升了26. 7%;与基于Hadoop平台的视频并行转码方法相比,该方法转码效率提升了20. 1%。 展开更多
关键词 视频转码 sparkStreaming 分布式流处理 FFMPEG 弹性分布式数据集
下载PDF
Spark环境下并行萤火虫群优化算法设计与实现 被引量:1
18
作者 邓青 杨宁 《工业控制计算机》 2022年第2期84-85,87,共3页
为克服组合优化问题在单机模式下求解存在的时间复杂度和空间复杂度上的缺陷,借助并行计算框架Spark,将萤火虫种群进行划分,各子群并行进行局部最优解的构造并进行结果共享,从而获得全局最优解。通过TSP问题求解进行验证,实验结果证明... 为克服组合优化问题在单机模式下求解存在的时间复杂度和空间复杂度上的缺陷,借助并行计算框架Spark,将萤火虫种群进行划分,各子群并行进行局部最优解的构造并进行结果共享,从而获得全局最优解。通过TSP问题求解进行验证,实验结果证明改进算法具有可行性,并与Hadoop环境下同等实验条件的运行时间进行对比,证明了改进算法运行效率高于Hadoop环境下10倍以上。 展开更多
关键词 萤火虫群优化算法 spark rdd TSP
下载PDF
Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量:20
19
作者 李成严 辛雪 +1 位作者 赵帅 冯世祥 《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页
针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计... 针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 展开更多
关键词 大数据 关联规则挖掘 频繁项集 spark弹性分布式数据集 MAPREDUCE框架
下载PDF
云环境下的大规模线性有限元并行实现 被引量:1
20
作者 林海铭 刘小虎 《计算力学学报》 CAS CSCD 北大核心 2017年第2期197-205,共9页
针对Hadoop MapReduce框架实现迭代算法效率不高的问题,提出了基于Spark RDDs(Resilient Distributed Datasets)的大规模线性有限元并行算法,探索在云平台上有效地实现迭代算法。在Hadoop+Spark实验室集群上,通过空间桁架进行算例验证,... 针对Hadoop MapReduce框架实现迭代算法效率不高的问题,提出了基于Spark RDDs(Resilient Distributed Datasets)的大规模线性有限元并行算法,探索在云平台上有效地实现迭代算法。在Hadoop+Spark实验室集群上,通过空间桁架进行算例验证,并与基于Hadoop MapReduce的线性有限元并行算法进行性能比较。结果表明,在本文搭建的集群上,基于RDDs的并行算法能求解15000000个自由度的空间桁架问题,远大于Hadoop平台上的3000000个自由度;对于小模型,Spark可获得200倍以上的加速比,对于大模型,获得7~8倍加速比。 展开更多
关键词 云计算 spark rdds 线性有限元 空间桁架 并行计算
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部