期刊文献+
共找到92篇文章
< 1 2 5 >
每页显示 20 50 100
Spark框架下支持差分隐私保护的K-means++聚类方法
1
作者 石江南 彭长根 谭伟杰 《信息安全研究》 CSCD 北大核心 2024年第8期712-718,共7页
针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初... 针对差分隐私聚类算法在处理海量数据时其隐私性和可用性之间的矛盾,提出了一种分布式环境下支持差分隐私的K-means++聚类算法.该算法通过内存计算引擎Spark,创建弹性分布式数据集,利用转换算子及行动算子操作数据进行运算,并在选取初始化中心点及迭代更新中心点的过程中,通过综合利用指数机制和拉普拉斯机制,以解决初始聚类中心敏感及隐私泄露问题,同时减少计算过程中对数据实施的扰动.根据差分隐私的特性,从理论角度对整个算法进行证明,以满足ε-差分隐私保护.实验结果证明了该方法在确保聚类结果可用性的前提下,具备出色的隐私保护能力和高效的运行效率. 展开更多
关键词 数据挖掘 聚类算法 差分隐私 spark框架 指数机制
下载PDF
基于Spark框架的船舶电力数据预处理技术
2
作者 谢宽 杨哲 《船电技术》 2024年第7期69-72,共4页
为了解决因船舶电力数据数量大、类型混杂等特点造成的系统状态预测不精准的问题,引入了数据预处理技术;归纳总结了数据预处理技术的主要过程,和每一过程的目的及处理方法;针对船舶电力数据的特点和预处理现状,提出了船舶电力数据预处... 为了解决因船舶电力数据数量大、类型混杂等特点造成的系统状态预测不精准的问题,引入了数据预处理技术;归纳总结了数据预处理技术的主要过程,和每一过程的目的及处理方法;针对船舶电力数据的特点和预处理现状,提出了船舶电力数据预处理方案;为进一步提升预处理效率,采用了Spark框架作为数据预处理平台,介绍了Spark框架的运行流程,并与船舶电力数据预处理方案结合,给出了基于该框架的预处理实施流程;提高了船舶电力数据质量和可用性,为后续的研究工作奠定了基础。 展开更多
关键词 船舶电力数据 数据预处理 spark框架 流程
下载PDF
基于Spark框架的图书馆文献信息检索方法
3
作者 翟小乐 任云鹏 蒋丽铭 《信息与电脑》 2023年第8期60-62,共3页
由于传统信息检索方法检索时间长,检索误差率高,研究基于Spark框架的图书馆文献信息检索方法。首先,预处理文献信息数据,结合信息相似度,提取特征数据集合中的敏感数据获得属性特征。其次,基于Spark框架批处理数据,训练待测样本进行目... 由于传统信息检索方法检索时间长,检索误差率高,研究基于Spark框架的图书馆文献信息检索方法。首先,预处理文献信息数据,结合信息相似度,提取特征数据集合中的敏感数据获得属性特征。其次,基于Spark框架批处理数据,训练待测样本进行目标跟踪,寻找最优解集。对信息的特征进行查询,提取其中的关键词并在已建立的文本索引结构上进行检索和融合,运用K-Means聚类方法对融合结果进行重新排序。采用布尔查询机制构造文献检索模型,将不同信息数据多重倒排文献进行索引从而完成信息检索。实验结果表明,运用该方法检索时间最短,误差率最低,完成图书馆文献信息检索方法的优化。 展开更多
关键词 spark框架 图书馆 信息检索 文献
下载PDF
基于Spark框架的电力调度异常数据辨识方法
4
作者 宫玉洁 王壮壮 张为兵 《电力系统装备》 2023年第4期36-38,共3页
由于电网运行数据具有多源、异构、高维等特征,使得传统检测方法已无法实现异常数据高效辨识,因此文章提出一种基于Spark框架的电力调度异常数据辨识方法.首先对电力调度数据进行聚类,然后在Spark框架下通过K-means算法对异常数据进行辨... 由于电网运行数据具有多源、异构、高维等特征,使得传统检测方法已无法实现异常数据高效辨识,因此文章提出一种基于Spark框架的电力调度异常数据辨识方法.首先对电力调度数据进行聚类,然后在Spark框架下通过K-means算法对异常数据进行辨识,最后通过试验验证该方法的辨识效果. 展开更多
关键词 spark框架 调度 辨识 数据 异常 电力
下载PDF
基于Spark框架的FP-Growth大数据频繁项集挖掘算法 被引量:12
5
作者 邵梁 何星舟 尚俊娜 《计算机应用研究》 CSCD 北大核心 2018年第10期2932-2935,共4页
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集... 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 展开更多
关键词 大数据 频繁项集挖掘 spark框架 FP-GROWTH算法 垂直布局
下载PDF
Spark框架下利用分布式NBC的大数据文本分类方法 被引量:6
6
作者 臧艳辉 赵雪章 席运江 《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有... 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 展开更多
关键词 文本分类 MAPREDUCE spark框架 分布式 朴素贝叶斯分类器 机器学习
下载PDF
基于Spark框架和ASPSO的并行划分聚类算法 被引量:5
7
作者 毛伊敏 甘德瑾 +1 位作者 廖列法 陈志刚 《通信学报》 EI CSCD 北大核心 2022年第3期148-163,共16页
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法... 针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法。首先,提出了基于皮尔逊相关系数和方差的网格划分策略获取数据离散系数较小的网格单元并进行离群点过滤,解决了数据离散系数较大与抗干扰性差的问题;其次,提出了基于势函数与高斯函数的网格划分策略,获取局部聚类的簇数,解决了局部簇簇数难以确定的问题;再次,提出了ASPSO获取局部簇质心,解决了局部簇质心的随机性问题;最后,提出了基于簇半径与邻居节点的合并策略对相似度大的簇进行并行化合并,提高了局部簇并行化合并的效率。实验结果表明,PDC-SFASPSO算法在大数据环境下进行数据的划分聚类具有较好的性能表现,适用于对大规模的数据集进行并行化聚类。 展开更多
关键词 spark框架 并行划分聚类 网格划分 粒子群优化自适应策略 并行化合并
下载PDF
基于Spark框架的能源互联网电力能源大数据清洗模型 被引量:25
8
作者 曲朝阳 张艺竞 +1 位作者 王永文 赵莹 《电测与仪表》 北大核心 2018年第2期39-44,共6页
对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于... 对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 能源大数据 数据清洗 异常识别 异常修正 spark框架
下载PDF
基于Spark框架的图书馆微信服务平台设计研究 被引量:3
9
作者 黄铁娜 戴文静 曹君 《现代电子技术》 2021年第15期99-103,共5页
图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主... 图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主动推送功能、业务办理模式、查询帮助服务、在线咨询和社交平台、智能问答系统五项功能。通过预处理、特征提取以及并行化聚类三个阶段实现基于Spark框架的图书馆微信服务平台工作流程。实验结果表明,基于Spark框架的图书馆微信服务平台能够有效提高运行稳定性,增强数据处理效率。 展开更多
关键词 平台设计 微信服务平台 spark框架 特征提取 并行化聚类 运行稳定性 微时代
下载PDF
基于Spark框架的图书馆个性化服务系统设计 被引量:1
10
作者 陆慧 《信息与电脑》 2022年第20期44-46,共3页
为给图书馆用户提供更个性化的推荐服务,引进Spark框架设计图书馆个性化服务系统。首先,请求录入用户注册系统后在图书馆中的主动浏览行为,过滤无用信息,实现用户个性化行为提取;其次,设计图书馆服务类目服务请求分发程序,根据用户提出... 为给图书馆用户提供更个性化的推荐服务,引进Spark框架设计图书馆个性化服务系统。首先,请求录入用户注册系统后在图书馆中的主动浏览行为,过滤无用信息,实现用户个性化行为提取;其次,设计图书馆服务类目服务请求分发程序,根据用户提出的主动服务需求,响应其请求并提供推荐服务;最后,引进协同过滤算法,设计面向用户的个性化服务项目主动推荐行为,完成系统开发。实验结果表明,开发的服务系统可以提高推荐服务项目与用户需求项目之间的适配度,从而满足图书馆用户对服务的个性化服务需求。 展开更多
关键词 spark框架 服务类目 建模 服务系统 图书馆
下载PDF
基于Spark框架的BP神经网络多分类算法的研究与实现 被引量:1
11
作者 王明松 《信息与电脑》 2020年第8期46-47,共2页
BP神经网络是一种按误差逆传播算法训练的多层前馈网络,在人工智能领域应用广泛。Spark框架是当今使用广泛的大数据分布式计算的应用框架。利用Spark分布式计性能优势计算BP网络的连接权重,是需要探讨和解决的问题。
关键词 BP神经网络 spark框架 分类算法
下载PDF
基于Spark框架的智慧物流服务推荐系统研究
12
作者 王义勇 《信息与电脑》 2021年第20期113-115,共3页
近年来,物流产业发展迅速,传统物流已经不能满足人们的需求,开始向智慧物流转变。本文将大数据与物流深度融合,设计了一个基于Spark框架的物流服务系统,旨在为用户推荐适宜的物流配送服务,以解决用户配送服务选择困难等问题。
关键词 大数据 spark框架 智慧物流 推荐系统
下载PDF
基于Spark框架的电力大数据清洗模型 被引量:10
13
作者 王冲 邹潇 《电测与仪表》 北大核心 2017年第14期33-38,共6页
针对电力大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的电力大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基... 针对电力大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的电力大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 电力大数据 数据清洗 异常识别 异常修正 spark框架
下载PDF
Spark框架下基于对比散度的网络服务TLRBM推荐算法 被引量:2
14
作者 那勇 《计算机应用与软件》 北大核心 2019年第8期293-299,共7页
为提高Web服务推荐算法的可靠性和时效性,提出一种Spark框架下基于对比散度的网络服务推荐算法。基于用户之间的直接信任关系,构建信任网络无向图模型,提出一种基于两层受限玻尔兹曼机的Web服务质量预测模型TLRBM(Two Layers Restricted... 为提高Web服务推荐算法的可靠性和时效性,提出一种Spark框架下基于对比散度的网络服务推荐算法。基于用户之间的直接信任关系,构建信任网络无向图模型,提出一种基于两层受限玻尔兹曼机的Web服务质量预测模型TLRBM(Two Layers Restricted Boltzmann Machine Model),并将该模型应用于Web服务质量预测。为提高算法处理Web服务大数据的能力,采用对比散度算法CD(Contrastive Divergence)来提高收敛速度,并采用Spark框架实现TLRBM的并行化执行,大幅度提升了Web服务推荐算法的计算速度。通过在Epinions数据集上的仿真测试,验证了该算法在Web服务推荐算法的可靠性和时效性上的性能优势。 展开更多
关键词 spark框架 并行化 WEB服务 玻尔兹曼机 推荐算法 云计算 大数据
下载PDF
基于Spark框架的大数据局部频繁项集挖掘算法设计 被引量:7
15
作者 王黎 吕殿基 《微型电脑应用》 2021年第4期130-132,136,共4页
目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计。筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘... 目前研究大数据局部频繁项集挖掘一般采用深度挖掘数据信息的算法设计,但其挖掘成本过高,挖掘效率过低,因此,基于Spark框架提出一种新式大数据局部频繁项集挖掘算法设计。筛选大数据局部频繁项集挖掘算法,结合框架结构分析方式处理挖掘信息,根据筛选的算法分析数据挖掘的深层内容,并不断调节数据挖掘与挖掘空间之间的矛盾,缓解挖掘算法的挖掘压力,结合先前研究,调整挖掘状态,完成大数据局部频繁项集挖掘算法设计。实验结果表明,基于Spark框架的大数据局部频繁项集挖掘算法设计能够更迅速地提高数据挖掘效率,在降低成本投入的情况下具备更高的挖掘效率。 展开更多
关键词 spark框架 大数据局部频繁项集 项集挖掘算法 算法设计
下载PDF
基于Spark框架和PSO优化算法的电力通信网络安全态势预测 被引量:19
16
作者 金鑫 李龙威 +2 位作者 苏国华 刘晓蕾 季佳男 《计算机科学》 CSCD 北大核心 2017年第S1期366-371,共6页
随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spar... 随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spark内存计算框架的并行PSO优化神经网络算法对电力通信网络的安全态势进行预测。本研究首先引入Spark计算框架,Spark框架具有内存计算以及准实时处理的特点,符合电力通信大数据处理的要求。然后提出PSO优化算法对神经网络的权值进行修正,以增加神经网络的学习效率和准确性。之后结合RDD的并行特点,提出了一种并行PSO优化神经网络算法。最后通过实验比较可以看出,基于Spark框架的PSO优化神经网络算法的准确度高,且相较于传统基于Hadoop的预测方法在处理速度上有显著提高。 展开更多
关键词 spark计算框架 粒子群算法 并行PSO优化神经网络 电力通信网络 安全态势预测
下载PDF
基于Spark框架的电网运行异常数据辨识与修正方法 被引量:23
17
作者 曲朝阳 朱润泽 +3 位作者 曲楠 曹令军 吕洪波 胡可为 《科学技术与工程》 北大核心 2019年第25期211-219,共9页
由于电网运行数据具有多源、异构、高维等典型大数据特征,使得传统检测方法已无法实现异常数据高效辨识;因此提出一种基于Spark框架的电网运行异常数据辨识与修正新方法。首先,提出了并行化最小生成树方法对待检测数据进行初始聚类;在... 由于电网运行数据具有多源、异构、高维等典型大数据特征,使得传统检测方法已无法实现异常数据高效辨识;因此提出一种基于Spark框架的电网运行异常数据辨识与修正新方法。首先,提出了并行化最小生成树方法对待检测数据进行初始聚类;在此基础上结合并行K-means算法对数据进行二次聚类实现异常数据辨识;然后,在Spark框架下设计了基于径向基函数(RBF)神经网络的异常数据修正模型,实现对异常数据修正。最后,利用某省调度中心SCADA数据对方法的有效性进行了验证,结果表明所提方法能够有效处理电网运行异常数据,具有实际应用价值。 展开更多
关键词 电网运行异常数据 spark框架 最小生成树 K-MEANS RBF神经网络
下载PDF
Spark框架下分布式K-means算法优化方法 被引量:13
18
作者 王法玉 刘志强 《计算机工程与设计》 北大核心 2019年第6期1595-1600,共6页
针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的... 针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。 展开更多
关键词 K-MEANS算法 spark计算框架 分布式 网格 空间位置
下载PDF
Spark框架下混合SACS-GS的大数据清洗方法 被引量:4
19
作者 何翼 田华 《西南师范大学学报(自然科学版)》 CAS 北大核心 2020年第7期123-129,共7页
提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策... 提出一种Spark框架下自适应布谷鸟搜索(self-adaptive cuckoo search,SACS)和引力搜索(Gravitational Search,GS)算法的混合SACS-GS方法,并给出了Spark框架下SACS-GS方法大数据清洗方案.首先提出自适应布谷鸟算法,给出两种改进的搜索策略,通过线性递减概率规则将两种策略结合起来,形成自适应搜索策略,避免种群早熟和提高收敛速度,然后引入自适应发现概率,提高种群的多样性.SACS算法混合GS算法得到SACS-GS方法,该方法通过引力搜索算法的局部搜索能力来确定自适应布谷鸟算法的全局范围,并找到使卵生长和成熟的最佳解决方案,有效地识别大数据中的错误数据.实验结果表明,SACS-GS方法具有较高的大数据异常检测精度,且精度高于其他现有方法,处理时间低于其他方法. 展开更多
关键词 大数据清洗 spark框架 自适应布谷鸟算法 引力搜索算法 异常检测
下载PDF
基于Spark框架的电商实时推荐系统的设计与实现 被引量:2
20
作者 张岩 《信息记录材料》 2022年第3期87-89,共3页
大数据时代背景下,基于Hadoop平台构建的电商推荐系统面临数据处理效率低下、难以根据用户实时行为进行推荐的问题。针对Hadoop平台存在的问题,本文提出了基于Spark框架构建的电商实时推荐系统,通过借助Spark框架平台及其组件采集用户... 大数据时代背景下,基于Hadoop平台构建的电商推荐系统面临数据处理效率低下、难以根据用户实时行为进行推荐的问题。针对Hadoop平台存在的问题,本文提出了基于Spark框架构建的电商实时推荐系统,通过借助Spark框架平台及其组件采集用户行为日志数据,并进行用户隐性行为分析和离线推荐系统训练,提高了离线推荐系统效率。同时,借助Spark Streaming流处理技术,实时推荐系统可对日志数据进行过滤,获取用户ID、商品ID等关键信息,并通过离线推荐结果与实时推荐结果整合,实现实时推荐系统商品排序动态交互调整,达到改善用户电商平台交互体验和电商平台转化率的目的。 展开更多
关键词 spark框架 电商平台 实时推荐
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部