期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
基于Spark和NRSCA策略的并行深度森林算法
1
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
下载PDF
基于Spark平台的分类算法性能比较分析 被引量:1
2
作者 赵蕾 夏吉安 +1 位作者 吴洋 崔辉 《计算机与数字工程》 2024年第3期688-691,704,共5页
针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评... 针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评估三种算法在大数据平台下的运行与分类性能。实验结果表明,随着节点数的增加,三种算法在大数据平台上消耗的时间都逐步变少。当数据集小于100MB时神经网络与支持向量机算法加速比较高,数据集大于1GB时随机森林算法加速比优于其他两种算法。神经网络算法在数据集100MB时可扩展性最小,支持向量机算法在数据集500MB时可扩展性最小。随机森林算法在数据集大于1GB时规模增长性优于其他两种算法。通过对于三种分类算法的时间效率与准确性比较,支持向量机算法消耗的时间最少,但是分类准确性最低。神经网络算法消耗的时间最长,分类准确性低于随机森林算法。随机森林算法的分类准确性最高,但是算法运行时间高于支持向量机算法。集成分类算法在大数据平台上表现出较好的时间性能与分类准确性。 展开更多
关键词 大数据 Hadoop框架 spark框架 机器学习 性能评估
下载PDF
基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现
3
作者 袁联生 《石油物探》 CSCD 北大核心 2024年第4期807-816,共10页
叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校... 叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校正方法计算密集、通讯密集的特征,针对算法难以实现并行计算的难点,提出了基于Spark分布式内存计算模型的技术解决方案,实现了海量地震数据弹性分布式数据集的高效流转和多域数据的灵活切换,完成了叠加能量寻优反射波剩余静校正方法的多节点分布式并行计算,提高了大数据情形下方法的适应性和计算效率,提升了其在地震数据处理中的实用化程度。实际生产数据的应用结果表明,基于Spark的叠加能量寻优反射波剩余静校正的软件模块在复杂近地表地震数据的处理中取得了能满足实际生产要求的应用效果,兼具适应性强和计算效率高的特点。 展开更多
关键词 反射波剩余静校正 spark框架 工程化实现 分布式并行计算
下载PDF
基于Spark框架的船舶电力数据预处理技术
4
作者 谢宽 杨哲 《船电技术》 2024年第7期69-72,共4页
为了解决因船舶电力数据数量大、类型混杂等特点造成的系统状态预测不精准的问题,引入了数据预处理技术;归纳总结了数据预处理技术的主要过程,和每一过程的目的及处理方法;针对船舶电力数据的特点和预处理现状,提出了船舶电力数据预处... 为了解决因船舶电力数据数量大、类型混杂等特点造成的系统状态预测不精准的问题,引入了数据预处理技术;归纳总结了数据预处理技术的主要过程,和每一过程的目的及处理方法;针对船舶电力数据的特点和预处理现状,提出了船舶电力数据预处理方案;为进一步提升预处理效率,采用了Spark框架作为数据预处理平台,介绍了Spark框架的运行流程,并与船舶电力数据预处理方案结合,给出了基于该框架的预处理实施流程;提高了船舶电力数据质量和可用性,为后续的研究工作奠定了基础。 展开更多
关键词 船舶电力数据 数据预处理 spark框架 流程
下载PDF
基于Spark和三路交互信息的并行深度森林算法 被引量:2
5
作者 毛伊敏 周展 陈志刚 《通信学报》 EI CSCD 北大核心 2023年第8期228-240,共13页
针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始... 针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始特征,剔除无关及冗余特征;其次,提出多粒度向量消除(MGVE)策略,融合相似类向量,缩短类向量长度;再次,提出级联森林特征增强(CFFE)策略提高信息利用率,加快模型收敛速度;最后,结合Spark框架提出多级负载均衡(MLB)策略,通过自适应子森林划分和异构倾斜数据划分,提高并行化训练效率。实验结果表明,所提算法能显著提升模型分类效果,缩短并行化训练时间。 展开更多
关键词 spark框架 并行深度森林算法 特征选择 多级负载均衡
下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:2
6
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
下载PDF
基于Spark的变压器局部放电模式识别并行化实现
7
作者 李涛 朱永利 《计算机应用与软件》 北大核心 2023年第1期74-78,145,共6页
快速高效地识别局部放电类型不仅对电力设备的状况评估具有十分重大的意义,而且能够实现智能电网下对电力设施监测数据的快速诊断。因此,在Spark计算框架的基础上提出基于VPMCD(Variable Predictive Model Based Class Discriminate)的... 快速高效地识别局部放电类型不仅对电力设备的状况评估具有十分重大的意义,而且能够实现智能电网下对电力设施监测数据的快速诊断。因此,在Spark计算框架的基础上提出基于VPMCD(Variable Predictive Model Based Class Discriminate)的局部放电模式识别的并行化方法。采取对原始放电信号提取其φ-q-n图谱的PRPD(Phase Resolved Partial Discharge)特征构成相关特征向量作为实验输入,采取并行化VPMCD算法对放电类型进行分类。实验结果和分析表明,在Spark计算框架下的分布式处理的计算效率要优于传统单机环境下的计算效率,加速比随着节点数和数据量的增多而显著提升,可以满足智能电网下大数据快速处理的要求。 展开更多
关键词 spark计算框架 VPMCD 局部放电 模式识别
下载PDF
基于Spark的单脉冲搜索并行化的研究
8
作者 韩富汇 刘志杰 +1 位作者 于徐红 农静 《自动化应用》 2023年第9期14-18,21,共6页
单脉冲搜索是搜索脉冲星、快速射电暴与旋转暂现射电源的重要手段。随着500m口径球面射电望远镜正式投入运行,单脉冲搜索面临的数据处理规模已达到PB级别,基于分布式架构的数据处理方法对天文研究工作具有重要意义。本文简述了单脉冲搜... 单脉冲搜索是搜索脉冲星、快速射电暴与旋转暂现射电源的重要手段。随着500m口径球面射电望远镜正式投入运行,单脉冲搜索面临的数据处理规模已达到PB级别,基于分布式架构的数据处理方法对天文研究工作具有重要意义。本文简述了单脉冲搜索方法,分析了Spark相比于主流分布式架构的优势,对现有脉冲星搜索程序中的单脉冲搜索模块,完成了基于Spark的并行优化,构建了分布式集群,同时结合批处理应用场景,基于负载均衡的理念设计了面向分布式集群的任务分配算法。通过实验评估系统性能,结果表明,本系统在大规模数据处理应用场景具有显著优势,为后续运用于实际环境提供了有效的数据支撑。 展开更多
关键词 单脉冲搜索 分布式框架 spark
下载PDF
基于Spark框架的图书馆文献信息检索方法
9
作者 翟小乐 任云鹏 蒋丽铭 《信息与电脑》 2023年第8期60-62,共3页
由于传统信息检索方法检索时间长,检索误差率高,研究基于Spark框架的图书馆文献信息检索方法。首先,预处理文献信息数据,结合信息相似度,提取特征数据集合中的敏感数据获得属性特征。其次,基于Spark框架批处理数据,训练待测样本进行目... 由于传统信息检索方法检索时间长,检索误差率高,研究基于Spark框架的图书馆文献信息检索方法。首先,预处理文献信息数据,结合信息相似度,提取特征数据集合中的敏感数据获得属性特征。其次,基于Spark框架批处理数据,训练待测样本进行目标跟踪,寻找最优解集。对信息的特征进行查询,提取其中的关键词并在已建立的文本索引结构上进行检索和融合,运用K-Means聚类方法对融合结果进行重新排序。采用布尔查询机制构造文献检索模型,将不同信息数据多重倒排文献进行索引从而完成信息检索。实验结果表明,运用该方法检索时间最短,误差率最低,完成图书馆文献信息检索方法的优化。 展开更多
关键词 spark框架 图书馆 信息检索 文献
下载PDF
基于互信息和融合加权的并行深度森林算法 被引量:1
10
作者 毛伊敏 李文豪 《计算机应用研究》 CSCD 北大核心 2024年第2期473-481,共9页
针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information ... 针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information and mixed weighting,PDF-MIMW)。首先,在特征降维阶段提出了基于互信息的特征提取策略(feature extraction strategy based on mutual information,FE-MI),结合特征重要性、交互性和冗余性度量过滤原始特征,剔除过多的不相关和冗余特征;接着,在多粒度扫描阶段提出了基于填充的改进多粒度扫描策略(improved multi-granularity scanning strategy based on padding,IMGS-P),对精简后的特征进行填充并对窗口扫描后的子序列进行随机采样,保证多粒度扫描的平衡;其次,在级联森林构建阶段提出了并行子森林构建策略(sub-forest construction strategy based on mixed weighting,SFC-MW),结合Spark框架并行构建加权子森林,提升模型的分类性能;最后,在类向量合并阶段提出基于混合粒子群算法的负载均衡策略(load balancing strategy based on hybrid particle swarm optimization algorithm,LB-HPSO),优化Spark框架中任务节点的负载分配,降低类向量合并时的等待时长,提高模型的并行化效率。实验表明,PDF-MIMW算法的分类效果更佳,同时在大数据环境下的训练效率更高。 展开更多
关键词 spark框架 并行深度森林 互信息 负载均衡
下载PDF
基于Spark框架的电力调度异常数据辨识方法
11
作者 宫玉洁 王壮壮 张为兵 《电力系统装备》 2023年第4期36-38,共3页
由于电网运行数据具有多源、异构、高维等特征,使得传统检测方法已无法实现异常数据高效辨识,因此文章提出一种基于Spark框架的电力调度异常数据辨识方法.首先对电力调度数据进行聚类,然后在Spark框架下通过K-means算法对异常数据进行辨... 由于电网运行数据具有多源、异构、高维等特征,使得传统检测方法已无法实现异常数据高效辨识,因此文章提出一种基于Spark框架的电力调度异常数据辨识方法.首先对电力调度数据进行聚类,然后在Spark框架下通过K-means算法对异常数据进行辨识,最后通过试验验证该方法的辨识效果. 展开更多
关键词 spark框架 调度 辨识 数据 异常 电力
下载PDF
基于种群混合迁移策略的并行量子遗传算法 被引量:1
12
作者 陆涛 管荑 +2 位作者 贾鹏 曲志坚 王子灵 《计算机工程与设计》 北大核心 2024年第8期2386-2392,共7页
针对量子遗传算法求解大规模优化问题存在收敛速度慢、易于陷入局部最优等问题,改进量子遗传算法。设计一种种群混合迁移机制促进算法的种群多样性,采用仿TriBA种群结构、双精英种群、重生种群、自适应迁移算子、个体竞争排挤算子以及... 针对量子遗传算法求解大规模优化问题存在收敛速度慢、易于陷入局部最优等问题,改进量子遗传算法。设计一种种群混合迁移机制促进算法的种群多样性,采用仿TriBA种群结构、双精英种群、重生种群、自适应迁移算子、个体竞争排挤算子以及随机失活机制,提高算法的局部勘测能力和全局寻优能力。利用Spark框架实现算法在分布式集群环境下的运算。改进2-opt&R优化算法,通过引入高斯变异提高算法的局部搜索能力,缩小算法的搜索空间。实验结果表明,改进后的算法在全局优化能力、收敛速度、运行速度和求解稳定性等方面均有大幅度提升。 展开更多
关键词 量子遗传算法 种群迁移 spark框架 并行计算 收敛速度 全局优化 搜索空间
下载PDF
基于Spark框架的FP-Growth大数据频繁项集挖掘算法 被引量:12
13
作者 邵梁 何星舟 尚俊娜 《计算机应用研究》 CSCD 北大核心 2018年第10期2932-2935,共4页
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集... 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 展开更多
关键词 大数据 频繁项集挖掘 spark框架 FP-GROWTH算法 垂直布局
下载PDF
基于Spark Streaming的实时数据分析系统及其应用 被引量:30
14
作者 韩德志 陈旭光 +2 位作者 雷雨馨 戴永涛 张肖 《计算机应用》 CSCD 北大核心 2017年第5期1263-1269,共7页
为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一... 为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一种动态采样的K-Means并行算法,与DRDAS结合能实时有效地检测大数据环境下的各种分布式拒绝服务(DDo S)攻击。实验结果显示:DRDAS具有好的可扩展性、容错性和实时处理能力,与动态采样的K-Means并行算法结合能实时地检测各种DDo S攻击,缩短了攻击的检测时间。 展开更多
关键词 spark Streaming框架 分布式流处理 网络数据分析 分布式拒绝服务攻击
下载PDF
基于Spark的并行FP-Growth算法优化与实现 被引量:8
15
作者 陆可 桂伟 +1 位作者 江雨燕 杜萍萍 《计算机应用与软件》 2017年第9期273-278,共6页
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集... 频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。 展开更多
关键词 频繁模式挖掘 FP-GROWTH算法 分布式计算 spark框架
下载PDF
Spark框架下利用分布式NBC的大数据文本分类方法 被引量:6
16
作者 臧艳辉 赵雪章 席运江 《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有... 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 展开更多
关键词 文本分类 MAPREDUCE spark框架 分布式 朴素贝叶斯分类器 机器学习
下载PDF
基于Spark框架和ASPSO的并行划分聚类算法 被引量:5
17
作者 毛伊敏 甘德瑾 +1 位作者 廖列法 陈志刚 《通信学报》 EI CSCD 北大核心 2022年第3期148-163,共16页
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法... 针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法。首先,提出了基于皮尔逊相关系数和方差的网格划分策略获取数据离散系数较小的网格单元并进行离群点过滤,解决了数据离散系数较大与抗干扰性差的问题;其次,提出了基于势函数与高斯函数的网格划分策略,获取局部聚类的簇数,解决了局部簇簇数难以确定的问题;再次,提出了ASPSO获取局部簇质心,解决了局部簇质心的随机性问题;最后,提出了基于簇半径与邻居节点的合并策略对相似度大的簇进行并行化合并,提高了局部簇并行化合并的效率。实验结果表明,PDC-SFASPSO算法在大数据环境下进行数据的划分聚类具有较好的性能表现,适用于对大规模的数据集进行并行化聚类。 展开更多
关键词 spark框架 并行划分聚类 网格划分 粒子群优化自适应策略 并行化合并
下载PDF
基于Spark框架和PSO优化算法的电力通信网络安全态势预测 被引量:19
18
作者 金鑫 李龙威 +2 位作者 苏国华 刘晓蕾 季佳男 《计算机科学》 CSCD 北大核心 2017年第S1期366-371,共6页
随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spar... 随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spark内存计算框架的并行PSO优化神经网络算法对电力通信网络的安全态势进行预测。本研究首先引入Spark计算框架,Spark框架具有内存计算以及准实时处理的特点,符合电力通信大数据处理的要求。然后提出PSO优化算法对神经网络的权值进行修正,以增加神经网络的学习效率和准确性。之后结合RDD的并行特点,提出了一种并行PSO优化神经网络算法。最后通过实验比较可以看出,基于Spark框架的PSO优化神经网络算法的准确度高,且相较于传统基于Hadoop的预测方法在处理速度上有显著提高。 展开更多
关键词 spark计算框架 粒子群算法 并行PSO优化神经网络 电力通信网络 安全态势预测
下载PDF
基于大数据随机样本划分的分布式观测点分类器
19
作者 李旭 何玉林 +2 位作者 崔来中 黄哲学 PHILIPPE Fournier-Viger 《计算机应用》 CSCD 北大核心 2024年第6期1727-1733,共7页
观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数... 观测点分类器(OPC)是一种试图通过将多维样本空间线性不可分问题转换成一维距离空间线性可分问题的有监督学习模型,对高维数据的分类问题尤为有效。针对OPC在处理大数据分类问题时表现的较高训练复杂度,在Spark框架下设计一款基于大数据的随机样本划分(RSP)的分布式OPC(DOPC)。首先,在分布式计算环境下生成大数据的RSP数据块,并将它转换为弹性分布式数据集(RDD);其次,在RSP数据块上协同式地训练一组OPC,由于每个RSP数据块上的OPC独立训练,因此有高效的Spark可实现性;最后,在Spark框架下将在RSP数据块上协同训练的OPC集成为DOPC,对新样本进行类标签预测。在8个大数据集上,对Spark集群环境下实现的DOPC的可行性、合理性和有效性进行实验验证,实验结果显示,DOPC能够以更低的计算消耗获得比单机OPC更高的测试精度,同时相较于Spark框架下实现的基于RSP模型的神经网络(NN)、决策树(DT)、朴素贝叶斯(NB)和K最近邻(KNN),DOPC分类器具有更强的泛化性能。测试结果表明,DOPC是一种高效低耗的处理大数据分类问题的有监督学习算法。 展开更多
关键词 大数据分类 分布式文件系统 随机样本划分 观测点分类器 spark计算框架
下载PDF
基于Spark框架的能源互联网电力能源大数据清洗模型 被引量:25
20
作者 曲朝阳 张艺竞 +1 位作者 王永文 赵莹 《电测与仪表》 北大核心 2018年第2期39-44,共6页
对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于... 对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 能源大数据 数据清洗 异常识别 异常修正 spark框架
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部