期刊文献+
共找到94篇文章
< 1 2 5 >
每页显示 20 50 100
基于Python的Spark RDD案例研究
1
作者 邓晓林 谢玫秀 《移动信息》 2024年第9期298-300,共3页
人工智能需要通过大数据训练生成模型,因此人工智能离不开大数据的数据支撑,而大数据也离不开人工智能机器学习算法等的高级分析.Python语言作为人工智能、机器学习算法等的主流语言,Spark以RDD作为大数据的主要数据抽象模型,文中将Pyt... 人工智能需要通过大数据训练生成模型,因此人工智能离不开大数据的数据支撑,而大数据也离不开人工智能机器学习算法等的高级分析.Python语言作为人工智能、机器学习算法等的主流语言,Spark以RDD作为大数据的主要数据抽象模型,文中将Python与Spark RDD相结合来进行应用案例研究分析,使Python既可以应用于机器学习算法研究也可以应用于大数据分析,通过这种方式可以给企业、研发人员提供更加方便、简单、高效的解决方案. 展开更多
关键词 大数据 PYTHON SPARK Spark rdd
下载PDF
Spark平台下的RDD研究与应用 被引量:2
2
作者 马兆辉 赵睿哲 温秀梅 《河北建筑工程学院学报》 CAS 2023年第2期214-221,共8页
大数据时代下,计算海量数据的需求日益加剧,Spark是专门用于计算大规模数据量的并行计算框架,但在实际应用中使用较少。首先对Spark平台下RDD(Resilient Distributed Dataset)的基本概念进行介绍;其次对Spark与RDD的关系进行描述:Spark... 大数据时代下,计算海量数据的需求日益加剧,Spark是专门用于计算大规模数据量的并行计算框架,但在实际应用中使用较少。首先对Spark平台下RDD(Resilient Distributed Dataset)的基本概念进行介绍;其次对Spark与RDD的关系进行描述:Spark的核心是建立在抽象的弹性分布数据集RDD之上的,Spark可以将数据处理成为弹性分布数据集RDD,再通过RDD的转换接口和动作操作得到最终数据;最后在Spark平台实现电商用户页面单跳转化率统计实验和电商热门品类中Top10活跃Session统计实验,实现在实际生活中的应用,达到更快处理大规模数据的目的。 展开更多
关键词 大数据 SPARK rdd 电商
下载PDF
基于RDD-DID方法的排污权交易政策演变的雾霾治理激励效应研究
3
作者 吴朝霞 曾智枫 孙坤 《湖南财政经济学院学报》 2023年第5期68-78,共11页
当前我国排污权初始分配方式正处于向排污权有偿使用制度转变阶段,为了进一步评估排污权初始分配政策转变所产生的雾霾治理效果,首先利用ArcGIS10.8软件分析了我国雾霾的变化趋势,再对全国排污权交易市场建设进行系统性的概述,基于数据... 当前我国排污权初始分配方式正处于向排污权有偿使用制度转变阶段,为了进一步评估排污权初始分配政策转变所产生的雾霾治理效果,首先利用ArcGIS10.8软件分析了我国雾霾的变化趋势,再对全国排污权交易市场建设进行系统性的概述,基于数据的可得性,利用浙江省杭州市2010—2019年的平衡面板数据,采用断点回归设计(RDD)先后分析了杭州市排污权有偿使用政策与国务院于2014年8月出台的排污权有偿使用政策所产生的雾霾治理效应。研究发现前者并未产生明显的雾霾治理效应,而后者能够显著降低杭州市的雾霾污染水平。RDD-DID估计结果表明排污权有偿使用政策所产生的雾霾治理激励效应将促使前后三个月内的雾霾浓度差值同期下降近10.5%。最后强调了中央政策与地方政策协同互促在雾霾治理过程中的重要性,为完善排污权交易体制机制与排污权交易地方监督管理体系建设提供了重要的经验证据和政策启示。 展开更多
关键词 排污权有偿使用 雾霾治理 断点回归设计
下载PDF
两阶段RDD方法无回答的影响及其改进
4
作者 李锋 《统计与决策》 CSSCI 北大核心 2018年第16期29-31,共3页
计算机辅助电话调查应用日益普遍,在住户调查中为了提高住户的比例,发展了Mitofsky-Waks-berg两阶段RDD方法。文章分析了在无回答率较高,且初级单元间无回答率差异较大时引起的偏倚,分析偏倚的特点,并且提出一种基于随机组方法的抽样设... 计算机辅助电话调查应用日益普遍,在住户调查中为了提高住户的比例,发展了Mitofsky-Waks-berg两阶段RDD方法。文章分析了在无回答率较高,且初级单元间无回答率差异较大时引起的偏倚,分析偏倚的特点,并且提出一种基于随机组方法的抽样设计,旨在解决计算机辅助调查中的无回答问题及地区间无回答率差异,并且能够得到性能良好的估计量。 展开更多
关键词 Mitofsky-Waksberg两阶段rdd方法 无回答 随机组 抽样设计
下载PDF
基于RDD关键度的Spark检查点管理策略 被引量:5
5
作者 英昌甜 于炯 +3 位作者 卞琛 王维庆 鲁亮 钱育蓉 《计算机研究与发展》 EI CSCD 北大核心 2017年第12期2849-2863,共15页
Spark默认容错机制由程序员设置检查点,并利用弹性分布式数据集(resilient distributed dataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时... Spark默认容错机制由程序员设置检查点,并利用弹性分布式数据集(resilient distributed dataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时,仅考虑数据本地性选择节点,并未考虑节点的计算能力,这都会导致恢复时间增加,无法最大化发挥集群的性能.因此,在建立Spark执行模型、检查点模型和RDD关键度模型的基础上,提出一种基于关键度的检查点管理(criticality checkpoint management,CCM)策略,其中包括检查点设置算法、失效恢复算法和清理算法.其中检查点设置算法通过分析作业中RDD的属性以及对作业恢复时间的影响,选择关键度大的RDD作为检查点存储;恢复算法根据各节点的计算能力做出决策,选择合适的节点执行恢复任务;清理算法在磁盘空间不足时,清除关键度较低的检查点.实验结果表明:该策略在略增加执行时间的情况下,能够选择有备份价值的RDD作为检查点,在节点失效时能够有效地降低恢复开销,提高节点的磁盘有效利用率. 展开更多
关键词 内存计算 SPARK 检查点管理 失效恢复 rdd属性
下载PDF
并行计算框架Spark中一种新的RDD分区权重缓存替换算法 被引量:8
6
作者 刘恒 谭良 《小型微型计算机系统》 CSCD 北大核心 2018年第10期2279-2284,共6页
并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重... 并行计算框架Spark的缓存替换机制是提高其计算性能和效率的重要手段.目前,针对Spark采用的缓存替换算法LRU会使高重用但最近未使用的Block容易被换出缓存的缺点,提出了基于权重的缓存替换算法,但已有的基于权重的缓存替换算法存在权重值计算不准确,考虑因素不全面,度量方法不够细致,影响了缓存的命中率和作业执行的效率.提出一种新的RDD分区的权重缓存替换算法——WCSRP.为了使RDD分区权重值的计算更加准确,WCSRP不仅综合考虑RDD的计算代价、使用次数、分区的大小和生命周期四大因素对权重的影响,而且还增加考虑了Task执行时Locality Level这个因素,并对以上五个因素进行了量化计算.实验结果表明WCSRP算法让RDD分区权重值的计算更准确,提高了内存资源利用率和作业执行效率. 展开更多
关键词 SPARK 弹性分布式数据集 缓存替换策略 并行计算 rdd缓存
下载PDF
RDD危害与防范 被引量:4
7
作者 王善强 毛用泽 +1 位作者 张文仲 邹传纯 《核电子学与探测技术》 CAS CSCD 北大核心 2008年第2期440-450,共11页
本文分析了RDD恐怖事件威胁存在的现实可能性和危害,并结合几个具体地点上模拟RDD场景造成的后果,论述了RDD防范和后果管理的重要性以及在开展后果评估时应考虑的因素。
关键词 核与辐射恐怖 核材料 rdd 放射性 脏弹
下载PDF
基于RDDs的分布式聚类集成算法 被引量:2
8
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类集成 分布式计算 弹性分布式数据集
下载PDF
基于优化RDD分区的Spark并行K-means大尺度遥感图像分割 被引量:2
9
作者 李玉 崔书琳 赵泉华 《控制与决策》 EI CSCD 北大核心 2024年第5期1612-1619,共8页
大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设... 大尺度遥感图像分割对单机处理方式而言是巨大挑战. Spark平台为在单机上构建用于大数据处理的分布式计算环境提供了可能.当Spark平台内置的K-means算法用于数字图像处理时,其中的Spark Shuffle弹性分布式数据集(RDD)分区一般采用缺省设置,尽管这种RDD设置简单便捷,但对大尺度图像分割任务容易造成“多分区、小数据”现象,极大影响图像分割速度.为此,采用覆盖部分上海市区的WorldView-3遥感图像为测试数据,在K-means算法初始化聚类中心阶段自定义影响RDD分区的参数spark.sql.shuffle.partitions,在迭代计算阶段调用coalesce()算子减少分区数;与串行K-means算法对比验证单机处理大数据的可行性与有效性,与优化前的Spark并行K-means算法对比实现了大尺度遥感图像快速分割.实验结果表明,在K-means算法初始化聚类中心和迭代计算阶段,将RDD分区数设置在CPU核数的1~10倍,总用时由优化前的145 s缩减到97 s,尤其在初始化聚类中心阶段的时间效率上,优化后是优化前的500~1 000倍. 展开更多
关键词 Spark平台 单机大数据处理 大尺度遥感图像 rdd优化 图像分割 并行K-means算法
原文传递
2008呼吸道药物递送研讨会(Respiratory Drug Delivery, RDD 2008)介绍
10
作者 赵萍 《气雾剂通讯》 2008年第4期F0004-F0004,共1页
1988年,Virginia Commonwealth University(VCU)的Dr.Peter R.Byron在美国Kentucky主办了第一届“呼吸道药物递送研讨会”(Respiratory Drug Delivery, RDD ),此后.VCU每两年均在美国举办全球范围内的RDD会议.探讨诸如吸入气... 1988年,Virginia Commonwealth University(VCU)的Dr.Peter R.Byron在美国Kentucky主办了第一届“呼吸道药物递送研讨会”(Respiratory Drug Delivery, RDD ),此后.VCU每两年均在美国举办全球范围内的RDD会议.探讨诸如吸入气雾剂、粉雾剂、吸入溶液和喷雾剂等肺部和鼻腔释药系统的最新进展.被业内的资深学者和产品经理们认为是应该参加的最重要的年会。 展开更多
关键词 rdd 呼吸道 递送 药物 PETER 全球范围 释药系统 气雾剂
下载PDF
提高RDD1型道岔融雪系统CVS模块一次交检合格率
11
作者 王军平 《科技风》 2016年第9期31-32,共2页
通过对产品生产工艺的分析,完善调试电路、调整操作工序,从而改变生产过程中存在的产品一次交检合格率低的现状,提高产品质量。
关键词 rdd1型道岔融雪系统 CVS模块 模块通道电流值 调试电路 操作工序
下载PDF
Spark框架中RDD缓存替换策略优化 被引量:9
12
作者 陈天宇 张龙信 +1 位作者 李肯立 周立前 《小型微型计算机系统》 CSCD 北大核心 2019年第6期1248-1253,共6页
Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使... Spark作为分布式计算引擎,其基于内存的抽象概念弹性分布式数据集(RDD)产生了高效的数据处理能力.实际的生产环境中,任务在执行的过程中经常由于内存空间不足需要替换掉部分RDD. Spark默认的最近最少使用替换算法(LRU)仅考虑最近是否使用RDD分片而忽略其它因素.基于RDD权重值改进后的WR缓存替换策略侧重于RDD的权值替换,在此研究基础上,本文提出了缓存权重替换(CWS)策略,优化选择策略,并在替换阶段考虑了历史访问次数与计算成本.本文的实验使用斯坦福大学提供的公开网络分析项目进行测试,实验结果表明CWS策略在充足内存条件下处理较小数据的平均执行时间高于WR算法2. 4%,内存占用率相比降低36%. 展开更多
关键词 缓存策略 SPARK 弹性分布式数据集 内存计算
下载PDF
新型农村集体经济对农户收入差距的影响研究 被引量:3
13
作者 王永平 张舒甜 《农林经济管理学报》 CSSCI 北大核心 2024年第3期273-282,共10页
基于2020年中国乡村振兴综合调查数据库(CRRS)的数据,在采用再中心化影响函数(RIF)测算农户收入差距的基础上,运用精确断点回归(RDD)方法检验新型农村集体经济对农户收入差距的影响。结果表明:发展新型农村集体经济有助于缩小农户收入差... 基于2020年中国乡村振兴综合调查数据库(CRRS)的数据,在采用再中心化影响函数(RIF)测算农户收入差距的基础上,运用精确断点回归(RDD)方法检验新型农村集体经济对农户收入差距的影响。结果表明:发展新型农村集体经济有助于缩小农户收入差距,这种影响有赖于新型农村集体经济整体实力水平,具体体现为发展实力较强的新型农村集体经济有助于缩小农户收入差距,而实力较弱的新型农村集体经济对农户收入差距不具有稳健影响。机制分析与异质性分析发现,促进公共资源分配公平与农户发展机会公平是新型农村集体经济缩小农户收入差距的重要途径;在脱贫地区与数字治理水平较高的地区,新型农村集体经济更有助于缩小农户收入差距。据此,建议持续推进农村集体产权制度改革,培育“有能集体”,构建巩固拓展脱贫攻坚成果同乡村振兴有效衔接机制,提升新型农村集体经济数字治理水平。 展开更多
关键词 新型农村集体经济 农户收入差距 共同富裕效应 回归分析(rdd)
下载PDF
基于自定义RDD的海量遥感图像并行镶嵌方法 被引量:4
14
作者 景维鹏 霍帅起 《地球信息科学学报》 CSCD 北大核心 2017年第10期1346-1354,共9页
图像镶嵌是遥感图像处理中的重要内容,在跨区域遥感图像分析中发挥重要作用。为了解决传统遥感图像并行算法中存在的计算节点利用率低、频繁数据I/O等问题,本文根据Spark分布式内存计算框架,充分利用Spark利于迭代数据处理的优势,提出... 图像镶嵌是遥感图像处理中的重要内容,在跨区域遥感图像分析中发挥重要作用。为了解决传统遥感图像并行算法中存在的计算节点利用率低、频繁数据I/O等问题,本文根据Spark分布式内存计算框架,充分利用Spark利于迭代数据处理的优势,提出了一种基于Spark自定义RDD(弹性分布式数据集)的并行镶嵌方法。该方法首先在集群的多个节点上通过相位相关法执行图像重叠区域估计操作,从而提高了图像重叠区域估计的多节点并行计算;然后,通过重写Spark中RDD的compute和get Partitions方法,自定义针对遥感图像处理的RDD,并将图像镶嵌中的重叠区域估计、图像配准和图像融合3个关键步骤作为自定义RDD的Transformation类型的操作算子;最后,通过隐式转换创建自定义RDD,并调用自定义RDD的操作算子实现图像镶嵌的并行处理。实验结果表明,与传统基于MPI的并行镶嵌算法相比,该方法在保证图像镶嵌效果的基础上,能够有效提高大数据量的图像镶嵌效率。 展开更多
关键词 遥感图像 并行镶嵌 SPARK 相位相关法 自定义rdd
原文传递
耗材集采政策对膝关节置换术患者住院费用的影响——基于某三甲医院真实世界数据研究
15
作者 黄鹤妹 段文厚 裴曌 《中国医疗保险》 2024年第9期92-98,共7页
目的:评估耗材集中采购政策对膝关节置换术患者费用的影响,分析费用变化规律,为合理控制该类手术费用提供证据。方法:利用政策实施前后的真实世界数据,采用断点回归分析耗材集中采购对膝关节置换术患者住院费用的影响。结果:耗材集中采... 目的:评估耗材集中采购政策对膝关节置换术患者费用的影响,分析费用变化规律,为合理控制该类手术费用提供证据。方法:利用政策实施前后的真实世界数据,采用断点回归分析耗材集中采购对膝关节置换术患者住院费用的影响。结果:耗材集中采购政策实施后,膝关节置换术患者的住院费用显著下降。最优带宽约为57.48天,在2022年4月30日,患者平均住院费用降低了23311.29元。在1/2最优带宽下,费用降低了24923.05元,而在2倍最优带宽下,费用降低了21547.30元。不同带宽下的局部平均效应略有差异,但总体呈现下降趋势。结论:耗材集中采购政策有效降低了膝关节置换术患者的住院费用。建议医院管理者严格执行集采政策,完善临床路径标准化诊疗行为,进一步降低患者费用。此外,相关部门应稳步扩大集采范围和加强监管,确保政策的有效实施,从而提高患者对医疗服务的可及性和可负担性。 展开更多
关键词 耗材集采政策 膝关节置换术 住院费用 断点回归
下载PDF
稳定脱贫政策的健康效应:基于模糊断点回归的证据 被引量:1
16
作者 王赫 贾男 《经济问题》 CSSCI 北大核心 2024年第4期84-91,共8页
在脱贫攻坚向乡村振兴过渡的过程中,提高脱贫群众健康状况、预防脱贫群众因病返贫是最基础的工作。为了检验现行稳定脱贫政策能否产生健康效应,起到预防因病返贫的目的,使用中国家庭金融调查(CHFS)2013—2019年的数据,借助2014年全国范... 在脱贫攻坚向乡村振兴过渡的过程中,提高脱贫群众健康状况、预防脱贫群众因病返贫是最基础的工作。为了检验现行稳定脱贫政策能否产生健康效应,起到预防因病返贫的目的,使用中国家庭金融调查(CHFS)2013—2019年的数据,借助2014年全国范围内建档立卡行动这一准自然实验,通过模糊断点回归方法估计了稳定脱贫政策的健康效应。结果显示:稳定脱贫政策具有显著健康效应,这一效应对边缘易致贫户与深度贫困地区脱贫群众更加明显,但对户主为女性的脱贫群众并不显著。机制研究表明,稳定脱贫政策主要是通过提高脱贫群众所在地区医疗资源供给质量、提升脱贫群众医疗资源需求的渠道产生了健康效应。以上研究结论为进一步优化稳定脱贫政策、提升脱贫群众健康状况提供了政策建议。 展开更多
关键词 稳定脱贫政策 健康效应 断点回归
下载PDF
去杠杆政策如何影响金融服务实体经济效率?——基于海南自贸港的经验证据 被引量:1
17
作者 郭庆宾 黄林峰 《海南大学学报(人文社会科学版)》 CSSCI 2024年第2期110-119,共10页
作为防范化解系统性金融风险和促进经济高质量发展的重要抓手,研究去杠杆政策如何影响金融服务实体经济效率具有重要意义。基于2011—2020年海南自贸港18市县金融服务实体经济效率测算结果,采用断点回归设计(RDD)方法,评估去杠杆政策对... 作为防范化解系统性金融风险和促进经济高质量发展的重要抓手,研究去杠杆政策如何影响金融服务实体经济效率具有重要意义。基于2011—2020年海南自贸港18市县金融服务实体经济效率测算结果,采用断点回归设计(RDD)方法,评估去杠杆政策对海南自贸港金融服务实体经济效率的影响,并运用中介效应模型讨论了其影响机制。研究发现:(1)去杠杆政策实施后,海南自贸港金融服务实体经济效率存在“阵痛期”,去杠杆政策对效率具有显著调整效应,存在一个最优杠杆以促进金融服务实体经济效率的提升;(2)在控制金融与经济体系内其他影响因素后,杠杆率对效率的提升具有促进作用,表明合理阈值内的“优杠杆”呈积极作用;(3)进一步中介机制检验表明,金融体系结构与金融业规模作为金融供给端的两种重要机制,前者能够通过增加高质量的金融资源供给提高效率,而金融业规模则囿于规模有限性与资本来源渠道受限的风险叠加,导致在去杠杆政策实施后对效率的提升呈负向作用。基于以上结论,进一步从创新自贸港金融发展方式、金融工具创新、杠杆优化等方面提出相关对策建议。 展开更多
关键词 去杠杆政策 实体经济 海南自贸港 断点回归设计
下载PDF
基于Spark的大规模文本k-means并行聚类算法 被引量:14
18
作者 刘鹏 滕家雨 +1 位作者 丁恩杰 孟磊 《中文信息学报》 CSCD 北大核心 2017年第4期145-153,共9页
互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统... 互联网文本数据量的激增使得对其作聚类运算的处理时间显著加长,虽有研究者利用Hadoop架构进行了k-means并行化研究,但由于很难有效满足k-means需要频繁迭代的特点,因此执行效率仍然不能让人满意。该文研究提出了基于新一代并行计算系统Spark的k-means文本聚类并行化算法,利用RDD编程模型充分满足了kmeans频繁迭代运算的需求。实验结果表明,针对同一聚类文本大数据集和同样的计算环境,基于Spark的kmeans文本聚类并行算法在加速比、扩展性等主要性能指标上明显优于基于Hadoop的实现,因此能更好地满足大规模文本数据挖掘算法的需求。 展开更多
关键词 K-MEANS 并行化 文本聚类 SPARK rdd Hadoop MAPREDUCE
下载PDF
基于Spark的极限学习机算法并行化研究 被引量:6
19
作者 刘鹏 王学奎 +2 位作者 黄宜华 孟磊 丁恩杰 《计算机科学》 CSCD 北大核心 2017年第12期33-37,共5页
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进... 极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。 展开更多
关键词 限学习机 并行化 SPARK rdd Hadoop MAPREDUCE
下载PDF
Spark内存管理及缓存策略研究 被引量:13
20
作者 孟红涛 余松平 +1 位作者 刘芳 肖侬 《计算机科学》 CSCD 北大核心 2017年第6期31-35,74,共6页
Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试... Spark系统是基于Map-Reduce模型的大数据处理框架。Spark能够充分利用集群的内存,从而加快数据的处理速度。Spark按照功能把内存分成不同的区域:Shuffle Memory和Storage Memory,Unroll Memory,不同的区域有不同的使用特点。首先,测试并分析了Shuffle Memory和Storage Memory的使用特点。RDD是Spark系统最重要的抽象,能够缓存在集群的内存中;在内存不足时,需要淘汰部分RDD分区。接着,提出了一种新的RDD分布式权值缓存策略,通过RDD分区的存储时间、大小、使用次数等来分析RDD分区的权值,并根据RDD的分布式特征对需要淘汰的RDD分区进行选择。最后,测试和分析了多种缓存策略的性能。 展开更多
关键词 大数据 Spark内存管理 rdd缓存 缓存策略
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部