期刊文献+
共找到218篇文章
< 1 2 11 >
每页显示 20 50 100
Spark平台下基于互信息计算的高光谱图像波段选择方法
1
作者 李俊丽 马俊宏 《光学技术》 CAS CSCD 北大核心 2024年第2期174-181,共8页
随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于... 随着遥感成像技术的发展和普及,高光谱图像中大量的波段使得大多数应用研究遇到休斯现象。而且随着高光谱图像数据量的快速增长,现有的传统串行算法计算复杂度较高,难以处理高维海量高光谱图像数据。针对以上问题,提出Spark平台下基于互信息计算的波段选择算法。利用熵和互信息理论定义波段相关性和多重相关性;基于Spark RDD编程模型设计数据列变换,将数据集划分为列矩阵,以降低计算负载;在Spark平台下对算法并行化,提高算法执行效率。实验结果表明,提出的算法达到了94.5%±0.5的整体分类精度,且加速性能良好,改善了数据可扩展性。 展开更多
关键词 高光谱图像 波段选择 互信息计算 spark平台 并行计算
下载PDF
基于Spark和NRSCA策略的并行深度森林算法
2
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
下载PDF
基于Spark Streaming的海量GPS数据实时地图匹配算法
3
作者 陈艳艳 李四洋 张云超 《计算机应用研究》 CSCD 北大核心 2024年第5期1338-1342,共5页
浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高... 浮动车GPS数据作为交通信息处理的基础,随着被监控车辆数量的高速增长,产生了海量GPS数据,对地图匹配提出了挑战。为了解决传统匹配方法难以满足匹配效率和精度的不足,提出一种针对海量GPS数据的实时并行地图匹配算法,能够同时保证较高匹配精度和运算效率。为构建一种面向实时数据流的高效、准确实时地图匹配算法,首先通过引入速度、方向综合权重因子对依赖历史轨迹的离线地图匹配算法进行重构,进而引入Spark Streaming分布式计算框架,实现地图匹配算法的实时、并行运算,大幅提升实时地图匹配效率。实验结果表明,该算法在复杂路段的匹配准确率较常规拓扑匹配算法提高10%以上,整体匹配准确率达到95%以上;在匹配效率方面,较同等数量的单机服务器效率可提高4倍左右。实验结果表明,该算法在由11台机器组成的计算集群上实现8000万个GPS数据点的实时地图匹配,证明了该算法可以完成城市地区的实时车辆匹配。 展开更多
关键词 海量 GPS 并行计算 地图匹配 实时计算 spark
下载PDF
基于Spark与优化分块的大幅面遥感影像SLIC分割方法
4
作者 谢志伟 宋光明 +2 位作者 张丰源 陈旻 彭博 《测绘通报》 CSCD 北大核心 2024年第10期84-90,共7页
针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问... 针对大幅面遥感影像在分块边界特征不连续和分割效率不高等问题,本文提出了结合Spark平台及最优紧密度评估的简单线性迭代聚类超像素分割算法(SLIC)。首先,使用结合最优紧密度的SLIC超像素分割方法完成图像分块,解决分块边界精度低的问题;然后,利用Spark对分块数据并行SLIC分割算法,提高运算效率;最后,将WorldView-2卫星影像和GF-2号影像作为试验数据,利用比值植被指数结合最大类间方差法改进SLIC算法以提高超像素分割精度。结果表明,改进SLIC方法在运算效率上比原方法提高了约9倍,边缘拟合精度提高了1.5%,欠分割误差提高了8.2%,边缘召回率提高了0.2%。 展开更多
关键词 大幅面遥感影像 spark平台 改进SLIC算法 并行计算 最优参数评估
下载PDF
基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现
5
作者 袁联生 《石油物探》 CSCD 北大核心 2024年第4期807-816,共10页
叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校... 叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校正方法计算密集、通讯密集的特征,针对算法难以实现并行计算的难点,提出了基于Spark分布式内存计算模型的技术解决方案,实现了海量地震数据弹性分布式数据集的高效流转和多域数据的灵活切换,完成了叠加能量寻优反射波剩余静校正方法的多节点分布式并行计算,提高了大数据情形下方法的适应性和计算效率,提升了其在地震数据处理中的实用化程度。实际生产数据的应用结果表明,基于Spark的叠加能量寻优反射波剩余静校正的软件模块在复杂近地表地震数据的处理中取得了能满足实际生产要求的应用效果,兼具适应性强和计算效率高的特点。 展开更多
关键词 反射波剩余静校正 spark框架 工程化实现 分布式并行计算
下载PDF
基于Spark云计算的生物基因多序列比对方法
6
作者 杨波 陈洋广 徐胜超 《计算机测量与控制》 2024年第7期274-279,287,共7页
在生物基因多序列比对过程中,早期的方法仅计算了单一的Spark集群参数,导致算法的并行效果较差;为此,设计了基于Spark云计算的生物基因多序列比对方法;基于获得的生物遗传序列数据,对其进行了优化,并通过计算不同序列间的匹配度,对生物... 在生物基因多序列比对过程中,早期的方法仅计算了单一的Spark集群参数,导致算法的并行效果较差;为此,设计了基于Spark云计算的生物基因多序列比对方法;基于获得的生物遗传序列数据,对其进行了优化,并通过计算不同序列间的匹配度,对生物基因多序列比对任务进行动态规划;利用Spark云计算技术,构建Spark集群,并对多个Spark集群的参数进行计算;利用多种生物基因序列之间的相似性与差异性来选择最佳的匹配路径,在此基础上,建立多个生物基因序列比对的并行计算模型,并对其进行求解,得到对应的多个序列对比对的并行算法;实验结果表明:该方法具有更好的并行性,能够有效提高多序列比对的性能。 展开更多
关键词 spark云计算 生物基因 生物信息学 基因多序列比对 并行算法
下载PDF
基于Spark和三路交互信息的并行深度森林算法 被引量:2
7
作者 毛伊敏 周展 陈志刚 《通信学报》 EI CSCD 北大核心 2023年第8期228-240,共13页
针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始... 针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始特征,剔除无关及冗余特征;其次,提出多粒度向量消除(MGVE)策略,融合相似类向量,缩短类向量长度;再次,提出级联森林特征增强(CFFE)策略提高信息利用率,加快模型收敛速度;最后,结合Spark框架提出多级负载均衡(MLB)策略,通过自适应子森林划分和异构倾斜数据划分,提高并行化训练效率。实验结果表明,所提算法能显著提升模型分类效果,缩短并行化训练时间。 展开更多
关键词 spark框架 并行深度森林算法 特征选择 多级负载均衡
下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:2
8
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
下载PDF
基于Spark和AMPSO的并行深度卷积神经网络优化算法 被引量:2
9
作者 刘卫明 罗全成 +1 位作者 毛伊敏 彭喆 《计算机应用研究》 CSCD 北大核心 2023年第10期2957-2966,共10页
针对并行DCNN算法在大数据环境下存在冗余参数过多、收敛速度慢、容易陷入局部最优和并行效率低的问题,提出了基于Spark和AMPSO的并行深度卷积神经网络优化算法PDCNN-SAMPSO。首先,该算法设计了基于卷积核重要性和相似度的卷积核剪枝策... 针对并行DCNN算法在大数据环境下存在冗余参数过多、收敛速度慢、容易陷入局部最优和并行效率低的问题,提出了基于Spark和AMPSO的并行深度卷积神经网络优化算法PDCNN-SAMPSO。首先,该算法设计了基于卷积核重要性和相似度的卷积核剪枝策略(KP-IS),通过剪枝模型中冗余的卷积核,解决了冗余参数过多的问题;接着,提出了基于自适应变异粒子群优化算法的模型并行训练策略(MPT-AMPSO),通过使用自适应变异的粒子群优化算法(AMPSO)初始化模型参数,解决了并行DCNN算法收敛速度慢和容易陷入局部最优的问题;最后,提出了基于节点性能的动态负载均衡策略(DLBNP),通过均衡集群中各节点负载,解决了集群并行效率低的问题。实验表明,当选取8个计算节点处理CompCars数据集时,PDCNN-SAMPSO较Dis-CNN、DS-DCNN、CLR-Distributed-CNN、RS-DCNN的运行时间分别降低了22%、30%、37%和27%,加速比分别高出了1.707、1.424、1.859、0.922,top-1准确率分别高出了4.01%、4.89%、2.42%、5.94%,表明PDCNN-AMPSO在大数据环境下具有良好的分类性能,适用于大数据环境下DCNN模型的并行训练。 展开更多
关键词 并行DCNN算法 spark框架 PDCNN-SAMPSO算法 负载均衡策略
下载PDF
基于Spark平台的恶意软件最大频繁子图挖掘方法
10
作者 周显春 肖衡 +1 位作者 焦萍萍 邹琴琴 《现代计算机》 2023年第14期57-61,共5页
为了解决传统子图挖掘算法时效性差的问题,设计了一种基于Spark平台的恶意软件最大频繁子图挖掘方法。该方法在保证挖掘信息完整的前提下,避免了挖掘所有频繁子图,采用了改进的FSMBUS方法来挖掘恶意软件的最大频繁子图,利用分布式架构Sp... 为了解决传统子图挖掘算法时效性差的问题,设计了一种基于Spark平台的恶意软件最大频繁子图挖掘方法。该方法在保证挖掘信息完整的前提下,避免了挖掘所有频繁子图,采用了改进的FSMBUS方法来挖掘恶意软件的最大频繁子图,利用分布式架构Spark迭代计算优势,提高了挖掘效率。此外,改进算法还被应用于恶意软件同源性判定,改善了恶意软件检测效果。最后,通过对比实验结果,论证了该方法的高效性和可行性。 展开更多
关键词 恶意软件 最大频繁子图 任务并行化 spark
下载PDF
基于Spark的地震数据重建方法的并行化 被引量:2
11
作者 廉西猛 《科学技术与工程》 北大核心 2023年第8期3168-3176,共9页
地震勘探技术发展早已进入TB(terabytes)级数据时代,并逐步迈向PB(petabytes)级。为提升海量数据处理效率,将地震数据处理算法进行并行化是一种广泛采用的手段。但是一些复杂度较高的算法,诸如地震数据重建类方法等,并行化难度较大,加... 地震勘探技术发展早已进入TB(terabytes)级数据时代,并逐步迈向PB(petabytes)级。为提升海量数据处理效率,将地震数据处理算法进行并行化是一种广泛采用的手段。但是一些复杂度较高的算法,诸如地震数据重建类方法等,并行化难度较大,加速效果不理想。Spark作为一种面向大数据处理的通用分布式并行计算技术,可以应用于并可简化地震数据处理算法并行化过程。借助于Spark的优势,通过两个实例讨论了基于Spark的地震数据重建并行化方法,提出了对于具有复杂输入输出组织数据方式的算法的并行化方法,提升了算法效率。研究成果为该类算法的Spark并行化开发提供了有益借鉴。 展开更多
关键词 地震数据重建 spark技术 并行 面元均化 五维规则化
下载PDF
基于互信息和融合加权的并行深度森林算法 被引量:1
12
作者 毛伊敏 李文豪 《计算机应用研究》 CSCD 北大核心 2024年第2期473-481,共9页
针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information ... 针对大数据环境下并行深度森林算法中存在不相关及冗余特征过多、多粒度扫描不平衡、分类性能不足以及并行化效率低等问题,提出了基于互信息和融合加权的并行深度森林算法(parallel deep forest algorithm based on mutual information and mixed weighting,PDF-MIMW)。首先,在特征降维阶段提出了基于互信息的特征提取策略(feature extraction strategy based on mutual information,FE-MI),结合特征重要性、交互性和冗余性度量过滤原始特征,剔除过多的不相关和冗余特征;接着,在多粒度扫描阶段提出了基于填充的改进多粒度扫描策略(improved multi-granularity scanning strategy based on padding,IMGS-P),对精简后的特征进行填充并对窗口扫描后的子序列进行随机采样,保证多粒度扫描的平衡;其次,在级联森林构建阶段提出了并行子森林构建策略(sub-forest construction strategy based on mixed weighting,SFC-MW),结合Spark框架并行构建加权子森林,提升模型的分类性能;最后,在类向量合并阶段提出基于混合粒子群算法的负载均衡策略(load balancing strategy based on hybrid particle swarm optimization algorithm,LB-HPSO),优化Spark框架中任务节点的负载分配,降低类向量合并时的等待时长,提高模型的并行化效率。实验表明,PDF-MIMW算法的分类效果更佳,同时在大数据环境下的训练效率更高。 展开更多
关键词 spark框架 并行深度森林 互信息 负载均衡
下载PDF
基于Spark平台的电子商务个性化信息推荐方法
13
作者 李加军 《信息技术》 2023年第10期66-71,共6页
互联网上数据传播量日益增加,但信息使用率却很低,消耗用户大量精力,针对这个问题,提出一种基于Spark平台的电子商务个性化信息推荐方法。Spark平台通过弹性分布式内存数据集,可将中间计算结果直接保存至内存中,建立用户喜好模型;使用... 互联网上数据传播量日益增加,但信息使用率却很低,消耗用户大量精力,针对这个问题,提出一种基于Spark平台的电子商务个性化信息推荐方法。Spark平台通过弹性分布式内存数据集,可将中间计算结果直接保存至内存中,建立用户喜好模型;使用评分机制计算不同个体偏好商品,形成推荐列表;引入挖掘隐含信息的矩阵分解算法,将未知参数转化为已知量,提高个性化信息推荐精准度。仿真对比实验,从用户满意度、信息熵值和运行速度三个角度,验证了所提方法可以实现优质且高效的电子商务个性化信息推荐工作。 展开更多
关键词 个性化信息推荐 spark平台 用户喜好模型 评分机制 并行化协同过滤
下载PDF
基于种群混合迁移策略的并行量子遗传算法 被引量:1
14
作者 陆涛 管荑 +2 位作者 贾鹏 曲志坚 王子灵 《计算机工程与设计》 北大核心 2024年第8期2386-2392,共7页
针对量子遗传算法求解大规模优化问题存在收敛速度慢、易于陷入局部最优等问题,改进量子遗传算法。设计一种种群混合迁移机制促进算法的种群多样性,采用仿TriBA种群结构、双精英种群、重生种群、自适应迁移算子、个体竞争排挤算子以及... 针对量子遗传算法求解大规模优化问题存在收敛速度慢、易于陷入局部最优等问题,改进量子遗传算法。设计一种种群混合迁移机制促进算法的种群多样性,采用仿TriBA种群结构、双精英种群、重生种群、自适应迁移算子、个体竞争排挤算子以及随机失活机制,提高算法的局部勘测能力和全局寻优能力。利用Spark框架实现算法在分布式集群环境下的运算。改进2-opt&R优化算法,通过引入高斯变异提高算法的局部搜索能力,缩小算法的搜索空间。实验结果表明,改进后的算法在全局优化能力、收敛速度、运行速度和求解稳定性等方面均有大幅度提升。 展开更多
关键词 量子遗传算法 种群迁移 spark框架 并行计算 收敛速度 全局优化 搜索空间
下载PDF
基于Spark框架的高效KNN中文文本分类算法 被引量:19
15
作者 于苹苹 倪建成 +2 位作者 姚彬修 李淋淋 曹博 《计算机应用》 CSCD 北大核心 2016年第12期3292-3297,共6页
针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-... 针对K-最近邻(KNN)分类算法时间复杂度与训练样本数量成正比而导致的计算量大的问题以及当前大数据背景下面临的传统架构处理速度慢的问题,提出了一种基于Spark框架与聚类优化的高效KNN分类算法。该算法首先利用引入收缩因子的优化K-medoids聚类算法对训练集进行两次裁剪;然后在分类过程中迭代K值获得分类结果,并在计算过程中结合Spark计算框架对数据进行分区迭代实现并行化。实验结果表明,在不同数据集中传统尽最近邻算法、基于K-medoids的群最近邻算法所耗费时间是所提Spark框架下的B最近邻算法的3.92-31.90倍,所提算法具有较高的计算效率,相较于Hadoop平台有较好的加速比,可有效地对大数据进行分类处理。 展开更多
关键词 K-最近邻 聚类 收缩因子 K-medoids spark 并行化计算
下载PDF
基于Spark的LIBSVM参数优选并行化算法 被引量:21
16
作者 李坤 刘鹏 +2 位作者 吕雅洁 张国鹏 黄宜华 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第2期343-352,共10页
利用Spark集群设计LIBSVM参数优选的并行化实现.LIBSVM是一款广泛使用的SVM软件包,广泛应用于模型搭建、样本训练和结果预测等方面.在用LIBSVM训练数据集时,参数的选择对训练结果影响显著,其中以参数C和g最为重要.LIBSVM软件包中采用网... 利用Spark集群设计LIBSVM参数优选的并行化实现.LIBSVM是一款广泛使用的SVM软件包,广泛应用于模型搭建、样本训练和结果预测等方面.在用LIBSVM训练数据集时,参数的选择对训练结果影响显著,其中以参数C和g最为重要.LIBSVM软件包中采用网格搜索算法对C、g参数组合进行寻优,尽管该算法在单机上实现了并行化,但当数据量达到一定程度时,仍需要花费大量的时间.基于Spark并行计算架构,进行了LIBSVM的C、g参数网格优选并行算法的设计与实现.实验结果表明,提出的并行粗粒度网格搜索C、g参数优选算法比传统算法速度提升了近7倍,而且这一提升将随着集群规模的扩大而进一步加大.另一方面,在粗粒度网格搜索的基础上,进而提出的细粒度并行网格搜索算法又进一步提升了C、g参数组合的优选结果. 展开更多
关键词 LIBSVM 参数优选 网格搜索 并行化 spark
下载PDF
基于Spark的Apriori并行算法优化实现 被引量:12
17
作者 王青 谭良 杨显华 《郑州大学学报(理学版)》 CAS 北大核心 2016年第4期60-64,共5页
针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用S... 针对传统Apriori算法处理速度和计算资源的瓶颈,以及Hadoop平台上Map-Reduce计算框架不能处理节点失效、不能友好支持迭代计算以及不能基于内存计算等问题,提出了Spark下并行关联规则优化算法.该算法只需两次扫描事务数据库,并充分利用Spark内存计算的RDD存储项集.与传统Apriori算法相比,该算法扫描事务数据库的次数大大降低;与Hadoop下Apriori算法相比,该算法不仅简化计算,支持迭代,而且通过在内存中缓存中间结果减少I/O花销.实验结果表明,该算法可以提高关联规则算法在大数据规模下的挖掘效率. 展开更多
关键词 并行化 数据挖掘 关联规则
下载PDF
基于Spark的极限学习机算法并行化研究 被引量:6
18
作者 刘鹏 王学奎 +2 位作者 黄宜华 孟磊 丁恩杰 《计算机科学》 CSCD 北大核心 2017年第12期33-37,共5页
极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进... 极限学习机算法虽然训练速度较快,但包含了大量矩阵运算,因此其在面对大数据量时,处理效率依然缓慢。在充分研究Spark分布式数据集并行计算机制的基础上,设计了核心环节矩阵乘法的并行计算方案,并对基于Spark的极限学习机并行化算法进行了设计与实现。为方便性能比较,同时实现了基于Hadoop MapReduce的极限学习机并行化算法。实验结果表明,基于Spark的极限学习机并行化算法相比于Hadoop MapReduce版本的运行时间明显缩短,而且若处理数据量越大,Spark在效率方面的优势就越明显。 展开更多
关键词 限学习机 并行化 spark RDD Hadoop MAPREDUCE
下载PDF
基于Spark框架和ASPSO的并行划分聚类算法 被引量:5
19
作者 毛伊敏 甘德瑾 +1 位作者 廖列法 陈志刚 《通信学报》 EI CSCD 北大核心 2022年第3期148-163,共16页
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法... 针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法。首先,提出了基于皮尔逊相关系数和方差的网格划分策略获取数据离散系数较小的网格单元并进行离群点过滤,解决了数据离散系数较大与抗干扰性差的问题;其次,提出了基于势函数与高斯函数的网格划分策略,获取局部聚类的簇数,解决了局部簇簇数难以确定的问题;再次,提出了ASPSO获取局部簇质心,解决了局部簇质心的随机性问题;最后,提出了基于簇半径与邻居节点的合并策略对相似度大的簇进行并行化合并,提高了局部簇并行化合并的效率。实验结果表明,PDC-SFASPSO算法在大数据环境下进行数据的划分聚类具有较好的性能表现,适用于对大规模的数据集进行并行化聚类。 展开更多
关键词 spark框架 并行划分聚类 网格划分 粒子群优化自适应策略 并行化合并
下载PDF
深度置信网络的Spark并行化在微博情感分类中的应用研究 被引量:5
20
作者 张翔 石力 +1 位作者 尚勃 董丽丽 《计算机应用与软件》 北大核心 2018年第2期48-53,共6页
中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情... 中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情感分类模型;通过Spark集群对深度置信神经网络进行并行化处理。实验结果表明,基于深度置信网络的微博情感分类模型在Spark平台下并行化,训练时间大幅缩短,情感分类的准确率比传统的浅层学习方法高5%。 展开更多
关键词 中文微博 情感分析 深度置信 网络spark并行化
下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部