期刊文献+
共找到2,012篇文章
< 1 2 101 >
每页显示 20 50 100
基于Spark分布式框架的海量星表数据时序重构方法研究
1
作者 赵青 权文利 +2 位作者 陈亚瑞 崔辰州 樊东卫 《天文学进展》 CSCD 北大核心 2024年第1期86-101,共16页
时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流... 时序重构是时域天文学中的一个重要数据处理步骤,也是拟合光变曲线、开展时域分析研究的基础。Hadoop、Spark这类MapReduce分布式模型在执行过程中分布式集群节点间的任务比较独立,需要跨节点的数据传输量较少。提出了非阻塞异步执行流程,每个分布式进程完全针对独立天区的数据进行连续处理,而分块边缘的新增天体导致的其他节点的新增证认任务延时批量追加,并且会根据各进程间的进度不同确定追加方式,保证证认计算没有遗漏,从而在提高并发效率的同时保证算法的精度。此外,对两表间的不同Join策略从理论和实验两个角度进行了研究并提出了免Join策略。最后通过基于Spark分布式框架的高效时序重构系统的设计完成了以上研究的验证。实验表明,与以往研究结果相比,该时序重构算法效率提升明显,为时域天文学中的天文时序数据分析的开展打下了良好的基础。 展开更多
关键词 时域天文学 交叉证认计算 时序重构 分布式计算 spark
下载PDF
Spark平台下基于互信息计算的高光谱图像波段选择方法
2
作者 李俊丽 马俊宏 《光学技术》 CAS CSCD 北大核心 2024年第2期174-181,共8页
随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于... 随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于互信息计算的波段选择算法。利用熵和互信息理论定义波段相关性和多重相关性;基于Spark RDD编程模型设计数据列变换,将数据集划分为列矩阵,以降低计算负载;在Spark平台下对算法并行化,提高算法执行效率。实验结果表明,提出的算法达到了94.5%±0.5的整体分类精度,且加速性能良好,改善了数据可扩展性。 展开更多
关键词 高光谱图像 波段选择 互信息计算 spark平台 并行计算
下载PDF
Spark内存计算课程教学改革探索
3
作者 梁晶 胡新荣 《计算机教育》 2024年第9期180-184,共5页
分析Spark?内存计算课程的特点以及教学中存在的不足,从协同课程间的知识点衔接、内存计算数据模型分析和数据模型间逻辑关系梳理3个方面,提出Spark理论教学改进思路和具体方法,总结Spark课程实践教学的目标和具体内容,阐述在实践教学... 分析Spark?内存计算课程的特点以及教学中存在的不足,从协同课程间的知识点衔接、内存计算数据模型分析和数据模型间逻辑关系梳理3个方面,提出Spark理论教学改进思路和具体方法,总结Spark课程实践教学的目标和具体内容,阐述在实践教学中将基础能力训练和综合能力培养相结合的教学方法,为其他大数据相关课程的教学提供参考。 展开更多
关键词 大数据 spark 内存计算 实践教学 教学改革
下载PDF
基于Spark Streaming的海量GPS数据实时地图匹配算法
4
作者 陈艳艳 李四洋 张云超 《计算机应用研究》 CSCD 北大核心 2024年第5期1338-1342,共5页
浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高... 浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高匹配精度和运算效率。为构建一种面向实时数据流的高效、准确实时地图匹配算法,首先通过引入速度、方向综合权重因子对依赖历史轨迹的离线地图匹配算法进行重构,进而引入Spark Streaming分布式计算框架,实现地图匹配算法的实时、并行运算,大幅提升实时地图匹配效率。实验结果表明,该算法在复杂路段的匹配准确率较常规拓扑匹配算法提高10%以上,整体匹配准确率达到95%以上;在匹配效率方面,较同等数量的单机服务器效率可提高4倍左右。实验结果表明,该算法在由11台机器组成的计算集群上实现8000万个GPS数据点的实时地图匹配,证明了该算法可以完成城市地区的实时车辆匹配。 展开更多
关键词 海量 GPS 并行计算 地图匹配 实时计算 spark
下载PDF
Spark异构集群负载均衡调度策略
5
作者 陶宇炜 谢爱娟 《常州大学学报(自然科学版)》 CAS 2024年第5期61-70,共10页
针对Spark可扩展分布式平台在作业任务调度时,没有考虑异构集群节点计算能力的差异和负载均衡问题,导致系统性能受到影响,文章构建了一种Spark环境下异构集群节点负载均衡调度策略。计算节点根据抽样算法,预测数据分布特征,将数据均衡... 针对Spark可扩展分布式平台在作业任务调度时,没有考虑异构集群节点计算能力的差异和负载均衡问题,导致系统性能受到影响,文章构建了一种Spark环境下异构集群节点负载均衡调度策略。计算节点根据抽样算法,预测数据分布特征,将数据均衡划分为多个分区,根据异构集群节点静态负载和动态负载权重分配,获得异构集群节点实时负载,动态调度作业任务。最后,在异构集群上,通过Wordcount,TeraSort,K-means三种基准测试比较分析。实验结果表明,该算法运行时间明显减少,异构集群的性能得到提升。 展开更多
关键词 异构性 作业调度 负载均衡 spark
下载PDF
基于Spark和NRSCA策略的并行深度森林算法
6
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
下载PDF
基于Spark集群的火电机组经济性挖掘
7
作者 文孝强 武智斌 +4 位作者 李志伟 刘长良 归一数 蔚伟 丁宇鸣 《吉林电力》 2024年第3期32-35,51,共5页
以电厂经济性为挖掘目标,把供电煤耗率作为机组的评价指标,通过最大信息系数法对影响机组煤耗率的运行参数进行特征选择。对基于Spark的并行Mini Batch K-means算法对外部约束条件进行工况划分以及数据离散化,采用并行FP-growth算法挖... 以电厂经济性为挖掘目标,把供电煤耗率作为机组的评价指标,通过最大信息系数法对影响机组煤耗率的运行参数进行特征选择。对基于Spark的并行Mini Batch K-means算法对外部约束条件进行工况划分以及数据离散化,采用并行FP-growth算法挖掘出机组全工况的强关联规则,进而得到机组重要参数的运行优化指导方案。以某电厂机组为例,结果表明,该方法能够提高数据挖掘效率并完成电厂参数最优值的确定,根据挖掘结果可以更好地对机组人员进行指导。 展开更多
关键词 火电大数据 spark 关联规则 数据挖掘
下载PDF
基于Spark的个性化音乐推荐系统设计与实现
8
作者 赵吉 胡海然 张婷 《电子制作》 2024年第18期55-58,共4页
本文设计了一个基于Spark的个性化音乐推荐系统。将爬取的音乐数据上传至Hadoop集群,然后利用Spark机器学习交替最小二乘推荐算法对集群上的数据进行处理,优化推荐模型超参数并计算AUC评分,最终达到个性化推荐音乐的目的。
关键词 推荐系统 spark机器学习 交替最小二乘推荐算法 AUC
下载PDF
竞赛驱动下的Spark大数据技术与应用课程教学改革探索
9
作者 吴建 邓红辉 《教育教学研究前沿》 2024年第4期33-36,共4页
随着大数据技术的快速发展,Spark作为分布式大数据处理框架,已成为企业数据分析和处理的重要工具。竞赛驱动下的Spark大数据技术与应用课程教学改革,旨在通过竞赛项目牵引,促进学生理论学习与实践操作的深度融合,不仅能够激发学生的学... 随着大数据技术的快速发展,Spark作为分布式大数据处理框架,已成为企业数据分析和处理的重要工具。竞赛驱动下的Spark大数据技术与应用课程教学改革,旨在通过竞赛项目牵引,促进学生理论学习与实践操作的深度融合,不仅能够激发学生的学习兴趣和积极性,还能促进学生实践能力和创新能力的提升。因而研究竞赛驱动下的Spark大数据技术与应用课程教学改革有重要的意义。对此,课程改革主要围绕教学组织形式、教学方法和评价方式三个方面展开。在教学组织形式上,采用“学生为主体、竞赛为引导”的教学模式,鼓励学生组队参与实际项目;在教学方法上,引入行业企业项目,在实践操作中提升学生的学习效果;在评价方式上,实施竞赛成果为核心的多元化的评价体系,以期提升学生的综合能力和实践能力。 展开更多
关键词 spark大数据技术与应用 课程改革 竞赛驱动
下载PDF
Spark综合实验平台的使用和实验教学实践
10
作者 魏凌华 徐成振 《科技风》 2024年第6期64-66,共3页
Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成... Spark实验课是Spark理论课程的延伸和拓展,为了提高学生学习Spark实验课程的兴趣,文章对Spark综合实验平台的实践教学进行了探索,实践教学的结果表明,采用Spark综合实验平台进行教学,提高了学生的学习兴趣和求知欲,理论课和实验课的成绩都得到了提高。 展开更多
关键词 spark 实验平台 实验课 实践教学
下载PDF
基于Spark的商品推荐系统的设计与实现 被引量:2
11
作者 胡绍方 高光 《电脑知识与技术》 2024年第14期1-3,共3页
随着电商平台的普及,商品推荐系统实现了用户的个性化推荐,帮助用户过滤掉无用的信息,提供更感兴趣的商品,既提升了用户体验,也增加了平台收益,实现了用户和平台的双赢。文章归纳了推荐算法和推荐系统研究中的关键技术,并利用Spark技术... 随着电商平台的普及,商品推荐系统实现了用户的个性化推荐,帮助用户过滤掉无用的信息,提供更感兴趣的商品,既提升了用户体验,也增加了平台收益,实现了用户和平台的双赢。文章归纳了推荐算法和推荐系统研究中的关键技术,并利用Spark技术完成推荐系统的设计。该推荐系统包括离线推荐和实时推荐两大部分。离线推荐为用户提供离线推荐、最近热门商品、历史热门商品和相似商品的推荐结果;实时推荐根据用户的实时评分行为给出实时的推荐结果。系统推荐结果表现良好。 展开更多
关键词 spark 协同过滤算法 隐语义模型 推荐系统
下载PDF
Spark Plasma Sintering of Mg-based Alloys:Microstructure,Mechanical Properties,Corrosion Behavior,and Tribological Performance 被引量:1
12
作者 Alessandro M.Ralls Mohammadreza Daroonparvar Pradeep L.Menezes 《Journal of Magnesium and Alloys》 SCIE EI CAS CSCD 2024年第2期405-442,共38页
Within the past ten years,spark plasma sintering(SPS)has become an increasingly popular process for Mg manufacturing.In the SPS process,interparticle diffusion of compressed particles is rapidly achieved due to the co... Within the past ten years,spark plasma sintering(SPS)has become an increasingly popular process for Mg manufacturing.In the SPS process,interparticle diffusion of compressed particles is rapidly achieved due to the concept of Joule heating.Compared to traditional and additive manufacturing(AM)techniques,SPS gives unique control of the structural and microstructural features of Mg components.By doing so,their mechanical,tribological,and corrosion properties can be tailored.Although great advancements in this field have been made,these pieces of knowledge are scattered and have not been contextualized into a single work.The motivation of this work is to address this scientific gap and to provide a groundwork for understanding the basics of SPS manufacturing for Mg.To do so,the existing body of SPS Mg literature was first surveyed,with a focus on their structural formation and degradation mechanisms.It was found that successful Mg SPS fabrication highly depended on the processing temperature,particle size,and particle crystallinity.The addition of metal and ceramic composites also affected their microstructural features due to the Zener pinning effect.In degradative environments,their performance depends on their structural features and whether they have secondary phased composites.In industrial applications,SPS'd Mg was found to have great potential in biomedical,hydrogen storage,battery,automotive,and recycling sectors.The prospects to advance the field include using Mg as a doping agent for crystallite size refinement and using bulk metallic Mg-based glass powders for amorphous SPS components.Despite these findings,the interactions of multi-composites on the processing-structure-property relationships of SPS Mg is not well understood.In total,this work will provide a useful direction in the SPS field and serve as a milestone for future Mg-based SPS manufacturing. 展开更多
关键词 spark plasma sintering Magnesium alloys NANOCRYSTALLINE TRIBOLOGY Mechanical properties Corrosion
下载PDF
基于优先填补策略的Spark数据均衡分区方法
13
作者 何玉林 吴东彤 +1 位作者 Philippe Fournier-Viger 黄哲学 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3322-3335,共14页
Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改... Spark作为基于内存计算的分布式大数据处理框架,运行速度快且通用性强.在任务计算过程中,Spark的默认分区器HashPartitioner在处理倾斜数据时,容易产生各个分区数据量不平衡的情况,导致资源利用率低且运行效率差.现存的Spark均衡分区改进方法,例如多阶段分区、迁移分区和采样分区等,大多存在尺度把控难、通信开销成本高、对采样过度依赖等缺陷.为改善上述问题,本文提出了一种基于优先填补策略的分区方法,同时考虑了样本数据和非样本数据的分配,以便实现对全部数据的均衡分区.该方法在对数据采样并根据样本信息估算出每个键的权值后,将键按照权值大小降序排列,依次将键在满足分区容忍度的条件下分配到前面的分区中,为未被采样的键预留后面的分区空间,以获得针对样本数据的分区方案.Spark根据分区方案对样本中出现的键对应的数据进行分区,没有出现的键对应的数据则直接映射到可分配的最后一个分区中.实验结果表明,新分区方法能够有效实现Spark数据的均衡分区,在美国运输统计局发布的真实航空数据集上,基于该方法设计的优先填补分区器的总运行时间比HashPartitioner平均缩短了15.3%,比现有的均衡数据分区器和哈希键值重分配分区器分别平均缩短了38.7%和30.2%. 展开更多
关键词 均衡分区 优先填补策略 数据倾斜 spark算子 大数据
下载PDF
Spark框架下支持差分隐私保护的K-means++聚类方法
14
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 spark框架 指数机制
下载PDF
基于Spark平台的并行化谱聚类算法的在线学习资源推荐
15
作者 刘莹 杨淑萍 张治国 《济南大学学报(自然科学版)》 CAS 北大核心 2024年第4期456-461,共6页
为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求... 为了提高在线学习资源推荐的准确度,采用谱聚类用于学习资源的归类,将类别相似度高的资源推荐给用户,提出Spark平台的并行化谱聚类算法,提高资源推荐效率;首先提取在线学习资源及用户特征并初始化,建立谱聚类模型,在Spark平台上分别求解无向图的顶点相似度及归一化拉普拉斯系数;然后采用归一化分割划分子集,通过归一化割集优化方式求解类别特征,并对类别特征按行输出特征点;最后采用k均值算法对特征点进行聚类,获得聚类结果。结果表明,采用谱聚类算法并借助于Spark平台的计算优势,所提推荐方法比常用的在线学习资源推荐算法的准确率和覆盖率更高,在海量学习资源的实时推荐方面具有较高适应度。 展开更多
关键词 在线学习 资源推荐 谱聚类 spark平台 图分割
下载PDF
基于Spark的智能菜品推荐系统设计与实现 被引量:3
16
作者 周杨玥 李世锋 李林 《软件工程》 2024年第2期69-73,共5页
为解决人们“每天不知道吃什么”的烦恼,采用Spark分布式处理框架,结合分布式存储数据库(MongoDB)、日志收集系统(Flume)、分布式系统文件(HDFS)等工具,实现对菜品实时评分及特色化推荐。系统包含菜品评分及储存模块、评分数据处理模块... 为解决人们“每天不知道吃什么”的烦恼,采用Spark分布式处理框架,结合分布式存储数据库(MongoDB)、日志收集系统(Flume)、分布式系统文件(HDFS)等工具,实现对菜品实时评分及特色化推荐。系统包含菜品评分及储存模块、评分数据处理模块、菜品推荐模块、推荐结果展示模块等,其中推荐模块采用协同过滤推荐算法。使用测评方法和指标验证3种推荐模型的有效性,根据测评结果设计并实现以基于物品的推荐模型为主、以基于Spark ALS的推荐模型为辅的智能菜品推荐系统。该系统能够快速准确地推荐顾客喜欢的菜品,提高了商家的服务效率和顾客的满意度,可用性较高。 展开更多
关键词 菜品推荐 spark 协同过滤算法 HDFS
下载PDF
SPARK教学案例库在本科影像核医学教学实践中的应用
17
作者 徐彩云 张丽霞 +2 位作者 陈金燕 牧丹丹 彭静 《全科医学临床与教育》 2024年第7期638-641,共4页
目的探讨SPARK教学案例库在本科影像核医学教学中的应用效果。方法选取浙江中医药大学影像技术专业本科生为研究对象,2023~2024学年第1学期的27名学生为实验组,采用基于SPARK教学案例库的教学模式;2022~2023学年第1学期的29名学生为对照... 目的探讨SPARK教学案例库在本科影像核医学教学中的应用效果。方法选取浙江中医药大学影像技术专业本科生为研究对象,2023~2024学年第1学期的27名学生为实验组,采用基于SPARK教学案例库的教学模式;2022~2023学年第1学期的29名学生为对照组,采用常规教学方法教学。比较两组的教学效果。结果实验组期末理论成绩高于对照组,但差异无统计学意义(t=0.87,P>0.05)。实验组的临床实践能力考核成绩明显高于对照组,差异有统计学意义(Z=-3.15,P<0.05)。问卷调查结果显示,依托SPARK教学案例库的教学模式获得了实验组学生的广泛认可,能够增加学生学习的积极性(22例,81.48%),增强临床实践信心(24例,88.89%),提高理解能力(23例,85.19%)、临床实践能力(24例,88.89%)以及合作、交流能力(23例,85.19%)。结论基于SPARK教学案例库的教学模式能够很好地应用于本科教学中,取得了良好的教学效果,能够明显提高本科生的临床实践能力。 展开更多
关键词 spark教学案例库 影像核医学 教学实践
下载PDF
基于Spark与优化分块的大幅面遥感影像SLIC分割方法
18
作者 谢志伟 宋光明 +2 位作者 张丰源 陈旻 彭博 《测绘通报》 CSCD 北大核心 2024年第10期84-90,共7页
针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问... 针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问题;然后,利用Spark对分块数据并行SLIC分割算法,提高运算效率;最后,将WorldView-2卫星影像和GF-2号影像作为试验数据,利用比值植被指数结合最大类间方差法改进SLIC算法以提高超像素分割精度。结果表明,改进SLIC方法在运算效率上比原方法提高了约9倍,边缘拟合精度提高了1.5%,欠分割误差提高了8.2%,边缘召回率提高了0.2%。 展开更多
关键词 大幅面遥感影像 spark平台 改进SLIC算法 并行计算 最优参数评估
下载PDF
Spark框架下改进NFP-growth算法的球磨机运行状态优化
19
作者 张方伟 罗小燕 吴庆龄 《制造业自动化》 2024年第2期103-107,共5页
绿色矿山建设是矿业发展的主旋律,安全生产、节能降耗等问题需解决。在大数据时代下,矿山海量数据被存储到数据库中而不能被充分利用。因此,提出一种面向磨矿过程控制的改进并行频繁项集挖掘算法。首先,结合Spark分布式计算框架,将NFP-g... 绿色矿山建设是矿业发展的主旋律,安全生产、节能降耗等问题需解决。在大数据时代下,矿山海量数据被存储到数据库中而不能被充分利用。因此,提出一种面向磨矿过程控制的改进并行频繁项集挖掘算法。首先,结合Spark分布式计算框架,将NFP-growth(NewFP-growth)挖掘算法并行化;其次,提出基于条件FP-tree树规模的计算量模型,解决各组别间负载不均衡的问题;最后,应用在球磨机运行状态优化。实验结果验证了算法的可行性以及相比其他挖掘算法的性能优势,能够有效地优化球磨机运行参数,使磨矿粒度指标能满足工艺需求,实现磨矿过程的提质增效。 展开更多
关键词 数据挖掘 spark 频繁项集 球磨机
下载PDF
基于Spark技术的气象数据分析
20
作者 刘丽景 刘力维 +1 位作者 王林 郝婉婷 《黑龙江科学》 2024年第2期56-59,共4页
近些年来,气象数据规模及复杂性大大增加,这对气象数据的存储、利用及加工分析提出了更高的要求。需采用适当的技术及策略,更好地利用分析气象数据,为天气预报、气候研究及社会公共服务提供更大的价值。通过网络爬虫爬取实时天气数据,... 近些年来,气象数据规模及复杂性大大增加,这对气象数据的存储、利用及加工分析提出了更高的要求。需采用适当的技术及策略,更好地利用分析气象数据,为天气预报、气候研究及社会公共服务提供更大的价值。通过网络爬虫爬取实时天气数据,发送实时数据到Kafka消息系统中,利用Spark技术从消息队列中获取实时数据并进行数据清洗、转换、归一化、聚合、汇总、分组等操作,实现气象数据的多维度分析,利用Spark计算结果将处理后的数据进行可视化,以图表、图形等形式进行展示。 展开更多
关键词 气象数据分析 网络爬虫 消息队列 spark数据分析
下载PDF
上一页 1 2 101 下一页 到第
使用帮助 返回顶部