期刊文献+
共找到5,509篇文章
< 1 2 250 >
每页显示 20 50 100
基于Spark分布式框架的海量星表数据时序重构方法研究
1
作者 赵青 权文利 +2 位作者 陈亚瑞 崔辰州 樊东卫 《天文学进展》 CSCD 北大核心 2024年第1期86-101,共16页
时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流... 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join策略从理论和实验两个角度进行了研究并提出了免Join策略。最后通过基于Spark分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。 展开更多
关键词 时域天文学 交叉证认计算 时序重构 分布式计算 spark
下载PDF
基于Spark Streaming的海量GPS数据实时地图匹配算法
2
作者 陈艳艳 李四洋 张云超 《计算机应用研究》 CSCD 北大核心 2024年第5期1338-1342,共5页
浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高... 浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高匹配精度和运算效率。为构建一种面向实时数据流的高效、准确实时地图匹配算法,首先通过引入速度、方向综合权重因子对依赖历史轨迹的离线地图匹配算法进行重构,进而引入Spark Streaming分布式计算框架,实现地图匹配算法的实时、并行运算,大幅提升实时地图匹配效率。实验结果表明,该算法在复杂路段的匹配准确率较常规拓扑匹配算法提高10%以上,整体匹配准确率达到95%以上;在匹配效率方面,较同等数量的单机服务器效率可提高4倍左右。实验结果表明,该算法在由11台机器组成的计算集群上实现8000万个GPS数据点的实时地图匹配,证明了该算法可以完成城市地区的实时车辆匹配。 展开更多
关键词 海量 GPS 并行计算 地图匹配 实时计算 spark
下载PDF
基于Spark和NRSCA策略的并行深度森林算法
3
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
下载PDF
基于Spark集群的火电机组经济性挖掘
4
作者 文孝强 武智斌 +4 位作者 李志伟 刘长良 归一数 蔚伟 丁宇鸣 《吉林电力》 2024年第3期32-35,51,共5页
以电厂经济性为挖掘目标,把供电煤耗率作为机组的评价指标,通过最大信息系数法对影响机组煤耗率的运行参数进行特征选择。对基于Spark的并行Mini Batch K-means算法对外部约束条件进行工况划分以及数据离散化,采用并行FP-growth算法挖... 以电厂经济性为挖掘目标,把供电煤耗率作为机组的评价指标,通过最大信息系数法对影响机组煤耗率的运行参数进行特征选择。对基于Spark的并行Mini Batch K-means算法对外部约束条件进行工况划分以及数据离散化,采用并行FP-growth算法挖掘出机组全工况的强关联规则,进而得到机组重要参数的运行优化指导方案。以某电厂机组为例,结果表明,该方法能够提高数据挖掘效率并完成电厂参数最优值的确定,根据挖掘结果可以更好地对机组人员进行指导。 展开更多
关键词 火电大数据 spark 关联规则 数据挖掘
下载PDF
竞赛驱动下的Spark大数据技术与应用课程教学改革探索
5
作者 吴建 邓红辉 《教育教学研究前沿》 2024年第4期33-36,共4页
随着大数据技术的快速发展,Spark作为分布式大数据处理框架,已成为企业数据分析和处理的重要工具。竞赛驱动下的Spark大数据技术与应用课程教学改革,旨在通过竞赛项目牵引,促进学生理论学习与实践操作的深度融合,不仅能够激发学生的学... 随着大数据技术的快速发展,Spark作为分布式大数据处理框架,已成为企业数据分析和处理的重要工具。竞赛驱动下的Spark大数据技术与应用课程教学改革,旨在通过竞赛项目牵引,促进学生理论学习与实践操作的深度融合,不仅能够激发学生的学习兴趣和积极性,还能促进学生实践能力和创新能力的提升。因而研究竞赛驱动下的Spark大数据技术与应用课程教学改革有重要的意义。对此,课程改革主要围绕教学组织形式、教学方法和评价方式三个方面展开。在教学组织形式上,采用“学生为主体、竞赛为引导”的教学模式,鼓励学生组队参与实际项目;在教学方法上,引入行业企业项目,在实践操作中提升学生的学习效果;在评价方式上,实施竞赛成果为核心的多元化的评价体系,以期提升学生的综合能力和实践能力。 展开更多
关键词 spark大数据技术与应用 课程改革 竞赛驱动
下载PDF
Spark综合实验平台的使用和实验教学实践
6
作者 魏凌华 徐成振 《科技风》 2024年第6期64-66,共3页
Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成... Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成绩都得到了提高。 展开更多
关键词 spark 实验平台 实验课 实践教学
下载PDF
Spark框架下支持差分隐私保护的K-means++聚类方法
7
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 spark框架 指数机制
下载PDF
基于Spark平台的并行化谱聚类算法的在线学习资源推荐
8
作者 刘莹 杨淑萍 张治国 《济南大学学报(自然科学版)》 CAS 北大核心 2024年第4期456-461,共6页
为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求... 为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求解无向图的顶点相似度及归一化拉普拉斯系数;然后采用归一化分割划分子集,通过归一化割集优化方式求解类别特征,并对类别特征按行输出特征点;最后采用k均值算法对特征点进行聚类,获得聚类结果。结果表明,采用谱聚类算法并借助于Spark平台的计算优势,所提推荐方法比常用的在线学习资源推荐算法的准确率和覆盖率更高,在海量学习资源的实时推荐方面具有较高适应度。 展开更多
关键词 在线学习 资源推荐 谱聚类 spark平台 图分割
下载PDF
基于Spark技术的气象数据分析
9
作者 刘丽景 刘力维 +1 位作者 王林 郝婉婷 《黑龙江科学》 2024年第2期56-59,共4页
近些年来,气象数据规模及复杂性大大增加,这对气象数据的存储、利用及加工分析提出了更高的要求。需采用适当的技术及策略,更好地利用分析气象数据,为天气预报、气候研究及社会公共服务提供更大的价值。通过网络爬虫爬取实时天气数据,... 近些年来,气象数据规模及复杂性大大增加,这对气象数据的存储、利用及加工分析提出了更高的要求。需采用适当的技术及策略,更好地利用分析气象数据,为天气预报、气候研究及社会公共服务提供更大的价值。通过网络爬虫爬取实时天气数据,发送实时数据到Kafka消息系统中,利用Spark技术从消息队列中获取实时数据并进行数据清洗、转换、归一化、聚合、汇总、分组等操作,实现气象数据的多维度分析,利用Spark计算结果将处理后的数据进行可视化,以图表、图形等形式进行展示。 展开更多
关键词 气象数据分析 网络爬虫 消息队列 spark数据分析
下载PDF
基于Spark的智能菜品推荐系统设计与实现 被引量:1
10
作者 周杨玥 李世锋 李林 《软件工程》 2024年第2期69-73,共5页
为解决人们“每天不知道吃什么”的烦恼,采用Spark分布式处理框架,结合分布式存储数据库(MongoDB)、日志收集系统(Flume)、分布式系统文件(HDFS)等工具,实现对菜品实时评分及特色化推荐。系统包含菜品评分及储存模块、评分数据处理模块... 为解决人们“每天不知道吃什么”的烦恼,采用Spark分布式处理框架,结合分布式存储数据库(MongoDB)、日志收集系统(Flume)、分布式系统文件(HDFS)等工具,实现对菜品实时评分及特色化推荐。系统包含菜品评分及储存模块、评分数据处理模块、菜品推荐模块、推荐结果展示模块等,其中推荐模块采用协同过滤推荐算法。使用测评方法和指标验证3种推荐模型的有效性,根据测评结果设计并实现以基于物品的推荐模型为主、以基于Spark ALS的推荐模型为辅的智能菜品推荐系统。该系统能够快速准确地推荐顾客喜欢的菜品,提高了商家的服务效率和顾客的满意度,可用性较高。 展开更多
关键词 菜品推荐 spark 协同过滤算法 HDFS
下载PDF
Spark框架下改进NFP-growth算法的球磨机运行状态优化
11
作者 张方伟 罗小燕 吴庆龄 《制造业自动化》 2024年第2期103-107,共5页
绿色矿山建设是矿业发展的主旋律,安全生产、节能降耗等问题需解决。在大数据时代下,矿山海量数据被存储到数据库中而不能被充分利用。因此,提出一种面向磨矿过程控制的改进并行频繁项集挖掘算法。首先,结合Spark分布式计算框架,将NFP-g... 绿色矿山建设是矿业发展的主旋律,安全生产、节能降耗等问题需解决。在大数据时代下,矿山海量数据被存储到数据库中而不能被充分利用。因此,提出一种面向磨矿过程控制的改进并行频繁项集挖掘算法。首先,结合Spark分布式计算框架,将NFP-growth(NewFP-growth)挖掘算法并行化;其次,提出基于条件FP-tree树规模的计算量模型,解决各组别间负载不均衡的问题;最后,应用在球磨机运行状态优化。实验结果验证了算法的可行性以及相比其他挖掘算法的性能优势,能够有效地优化球磨机运行参数,使磨矿粒度指标能满足工艺需求,实现磨矿过程的提质增效。 展开更多
关键词 数据挖掘 spark 频繁项集 球磨机
下载PDF
一种基于spark的边缘云大数据分析算法研究
12
作者 施志龙 陈赣 谢国良 《长江信息通信》 2024年第2期183-185,共3页
算力和时延等要求不断提高,加速了边缘计算(MEC)的规模应用,边缘计算将计算和存储功能下沉至网络边缘的数据生产侧,将传统云计算的部分处理任务迁移至边缘计算节点,提升了用户体验,但同时,分布式计算产生海量日志数据,对运维管理提出了... 算力和时延等要求不断提高,加速了边缘计算(MEC)的规模应用,边缘计算将计算和存储功能下沉至网络边缘的数据生产侧,将传统云计算的部分处理任务迁移至边缘计算节点,提升了用户体验,但同时,分布式计算产生海量日志数据,对运维管理提出了更高要求。文章以云宽带边缘大数据为例,探索并提出了一种基于spark的日志数据的分析算法实现,并对比了Hadoop MapReduce在分析过程中的效率,该实现能够有效解决边缘计算中普遍存在的度量分析效率的问题。 展开更多
关键词 边缘计算 大数据 MAPREDUCE spark
下载PDF
关于光滑流形Spark特征的注记
13
作者 陈洪宇 黄开河 +1 位作者 薛涵 杜承勇 《四川师范大学学报(自然科学版)》 CAS 2024年第2期246-252,共7页
研究一个光滑流形的光滑hyperspark特征与Cheeger-Simons spark特征之间的具体同构关系.通过利用光滑奇异上链的芽层,构造一个新的光滑上链spark复形来连接光滑hyperspark复形与Cheeger-Simons spark复形,从而给出spark特征的同构.
关键词 spark复形 spark同调 拟同构 光滑奇异上链
下载PDF
供给侧改革视域下医学院校“I-SPARK”本科药学人才培养体系的构建
14
作者 于海琳 许贯虹 +4 位作者 李歆 姚东宁 韩峰 季勇 沈瑞林 《药学教育》 2024年第3期1-5,共5页
在供给侧改革视域下,南京医科大学聚焦新时期“懂医精药”本科药学人才培养的要求,基于以学生为主体(I)这个中心,从科研促进教学(Scientific Research Promoting Teaching)、以患者为中心(Patient-centered Humanistic Quality Cultivat... 在供给侧改革视域下,南京医科大学聚焦新时期“懂医精药”本科药学人才培养的要求,基于以学生为主体(I)这个中心,从科研促进教学(Scientific Research Promoting Teaching)、以患者为中心(Patient-centered Humanistic Quality Cultivation)、产教协同育人(Assurance System of Cooperation Education)、创新实训实践(Research and Training Bases)、药苑育人生态(Keen Sense of Patriotism and Responsibility)五方面探索并实践医学院校“I-SPARK”本科药学人才培养体系改革,取得了较好的实践效果。 展开更多
关键词 供给侧改革 医学院校 本科药学人才培养 “I-spark
下载PDF
基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现
15
作者 袁联生 《石油物探》 CSCD 北大核心 2024年第4期807-816,共10页
叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校... 叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校正方法计算密集、通讯密集的特征,针对算法难以实现并行计算的难点,提出了基于Spark分布式内存计算模型的技术解决方案,实现了海量地震数据弹性分布式数据集的高效流转和多域数据的灵活切换,完成了叠加能量寻优反射波剩余静校正方法的多节点分布式并行计算,提高了大数据情形下方法的适应性和计算效率,提升了其在地震数据处理中的实用化程度。实际生产数据的应用结果表明,基于Spark的叠加能量寻优反射波剩余静校正的软件模块在复杂近地表地震数据的处理中取得了能满足实际生产要求的应用效果,兼具适应性强和计算效率高的特点。 展开更多
关键词 反射波剩余静校正 spark框架 工程化实现 分布式并行计算
下载PDF
SPARK课程理念下小学体育兴趣化教学校本实践研究
16
作者 陈洪 《教育参考》 2024年第2期56-59,90,共5页
SPARK课程即儿童运动、游戏和娱乐活动课程,致力于促进学生终身健康,力图帮助K-12年级学生形成健康的生活习惯,掌握良好的运动技能与知识,提高个人社交能力。SPARK课程理念可以为我国的课改理念、学校的课程建构以及学生的身心发展提供... SPARK课程即儿童运动、游戏和娱乐活动课程,致力于促进学生终身健康,力图帮助K-12年级学生形成健康的生活习惯,掌握良好的运动技能与知识,提高个人社交能力。SPARK课程理念可以为我国的课改理念、学校的课程建构以及学生的身心发展提供价值。具体到小学体育兴趣化教学,通过对教学目标、教材内容、教师研修的分析,在教学策略上尝试创新:巧用活动器材,让学生成为运动的主人;创设情景教学,游戏竞争实现学练赛一体化;信息技术赋能,团队合作学练促进学科育人。 展开更多
关键词 spark课程 小学体育 兴趣化教学
下载PDF
基于Spark的商品推荐系统的设计与实现
17
作者 胡绍方 高光 《电脑知识与技术》 2024年第14期1-3,共3页
随着电商平台的普及,商品推荐系统实现了用户的个性化推荐,帮助用户过滤掉无用的信息,提供更感兴趣的商品,既提升了用户体验,也增加了平台收益,实现了用户和平台的双赢。文章归纳了推荐算法和推荐系统研究中的关键技术,并利用Spark技术... 随着电商平台的普及,商品推荐系统实现了用户的个性化推荐,帮助用户过滤掉无用的信息,提供更感兴趣的商品,既提升了用户体验,也增加了平台收益,实现了用户和平台的双赢。文章归纳了推荐算法和推荐系统研究中的关键技术,并利用Spark技术完成推荐系统的设计。该推荐系统包括离线推荐和实时推荐两大部分。离线推荐为用户提供离线推荐、最近热门商品、历史热门商品和相似商品的推荐结果;实时推荐根据用户的实时评分行为给出实时的推荐结果。系统推荐结果表现良好。 展开更多
关键词 spark 协同过滤算法 隐语义模型 推荐系统
下载PDF
基于Spark云计算的生物基因多序列比对方法
18
作者 杨波 陈洋广 徐胜超 《计算机测量与控制》 2024年第7期274-279,287,共7页
在生物基因多序列比对过程中,早期的方法仅计算了单一的Spark集群参数,导致算法的并行效果较差;为此,设计了基于Spark云计算的生物基因多序列比对方法;基于获得的生物遗传序列数据,对其进行了优化,并通过计算不同序列间的匹配度,对生物... 在生物基因多序列比对过程中,早期的方法仅计算了单一的Spark集群参数,导致算法的并行效果较差;为此,设计了基于Spark云计算的生物基因多序列比对方法;基于获得的生物遗传序列数据,对其进行了优化,并通过计算不同序列间的匹配度,对生物基因多序列比对任务进行动态规划;利用Spark云计算技术,构建Spark集群,并对多个Spark集群的参数进行计算;利用多种生物基因序列之间的相似性与差异性来选择最佳的匹配路径,在此基础上,建立多个生物基因序列比对的并行计算模型,并对其进行求解,得到对应的多个序列对比对的并行算法;实验结果表明:该方法具有更好的并行性,能够有效提高多序列比对的性能。 展开更多
关键词 spark云计算 生物基因 生物信息学 基因多序列比对 并行算法
下载PDF
Research on Performance Optimization of Spark Distributed Computing Platform
19
作者 Qinlu He Fan Zhang +2 位作者 Genqing Bian Weiqi Zhang Zhen Li 《Computers, Materials & Continua》 SCIE EI 2024年第5期2833-2850,共18页
Spark,a distributed computing platform,has rapidly developed in the field of big data.Its in-memory computing feature reduces disk read overhead and shortens data processing time,making it have broad application prosp... Spark,a distributed computing platform,has rapidly developed in the field of big data.Its in-memory computing feature reduces disk read overhead and shortens data processing time,making it have broad application prospects in large-scale computing applications such as machine learning and image processing.However,the performance of the Spark platform still needs to be improved.When a large number of tasks are processed simultaneously,Spark’s cache replacementmechanismcannot identify high-value data partitions,resulting inmemory resources not being fully utilized and affecting the performance of the Spark platform.To address the problem that Spark’s default cache replacement algorithm cannot accurately evaluate high-value data partitions,firstly the weight influence factors of data partitions are modeled and evaluated.Then,based on this weighted model,a cache replacement algorithm based on dynamic weighted data value is proposed,which takes into account hit rate and data difference.Better integration and usage strategies are implemented based on LRU(LeastRecentlyUsed).Theweight update algorithm updates the weight value when the data partition information changes,accurately measuring the importance of the partition in the current job;the cache removal algorithm clears partitions without useful values in the cache to releasememory resources;the weight replacement algorithm combines partition weights and partition information to replace RDD partitions when memory remaining space is insufficient.Finally,by setting up a Spark cluster environment,the algorithm proposed in this paper is experimentally verified.Experiments have shown that this algorithmcan effectively improve cache hit rate,enhance the performance of the platform,and reduce job execution time by 7.61%compared to existing improved algorithms. 展开更多
关键词 spark memory optimization memory replacement strategy
下载PDF
一种基于Spark的配置优化技术
20
作者 沈伍强 沈桂泉 +2 位作者 许明杰 杨春松 王召 《微型电脑应用》 2024年第2期93-96,105,共5页
在快速进行海量数据处理的电力应用中,Spark变得越来越重要,但其配置参数空间大且参数之间关联关系复杂,基于经验通过手动调整参数以获得最佳性能极其困难,故而提出一种基于Spark的配置优化方法。选取对Spark性能影响活跃的配置参数,通... 在快速进行海量数据处理的电力应用中,Spark变得越来越重要,但其配置参数空间大且参数之间关联关系复杂,基于经验通过手动调整参数以获得最佳性能极其困难,故而提出一种基于Spark的配置优化方法。选取对Spark性能影响活跃的配置参数,通过MCMC采样和生成对抗网络(GAN)生成数据集;通过分层建模构建性能模型;通过粒子群算法在参数空间有效搜索应用程序的最佳配置。实验结果表明,采用所提出的方法使得Spark的性能相比经验调优平均提高了25%。 展开更多
关键词 spark 参数配置 MCMC算法 分层建模 粒子群算法
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部