期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
深度置信网络的Spark并行化在微博情感分类中的应用研究 被引量:5
1
作者 张翔 石力 +1 位作者 尚勃 董丽丽 《计算机应用与软件》 北大核心 2018年第2期48-53,共6页
中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情... 中文微博情感分析可以发现公众对热点事件的态度掌握网络舆情,因此成为文本挖掘的一个热点研究。采用一种基于Spark并行化的深度置信网络的情感分类方法,该方法利用Word2Vec工具表示微博文本和建立情感词典;使用深度置信网络构建微博情感分类模型;通过Spark集群对深度置信神经网络进行并行化处理。实验结果表明,基于深度置信网络的微博情感分类模型在Spark平台下并行化,训练时间大幅缩短,情感分类的准确率比传统的浅层学习方法高5%。 展开更多
关键词 中文微博 情感分析 深度置信 网络spark并行
下载PDF
大规模数据集Spark并行优化谱聚类
2
作者 吕洪林 尹青山 《测绘通报》 CSCD 北大核心 2019年第12期96-100,共5页
针对已有大规模数据集并行谱聚类算法的计算耗时和资源占用巨大等问题,基于当前批处理和图计算兼顾的Spark并行技术,提出了大规模数据集谱聚类的并行优化改进算法,算法通过并行单向迭代避免了相似矩阵计算时的数据重复计算,通过并行位... 针对已有大规模数据集并行谱聚类算法的计算耗时和资源占用巨大等问题,基于当前批处理和图计算兼顾的Spark并行技术,提出了大规模数据集谱聚类的并行优化改进算法,算法通过并行单向迭代避免了相似矩阵计算时的数据重复计算,通过并行位置变换、标量乘法替换及距离缩放优化算法的资源占用,通过近似特征向量替代进一步优化算法的计算量。试验结果验证了算法近特征向量的有效性及在大规模数据集下良好聚类性能和扩展性。 展开更多
关键词 大规模集谱聚类 近似特征向量 spark并行框架 K-means距离计算 优化
下载PDF
Spark并行化改进的SDKB-DBSCAN聚类算法
3
作者 史爱武 尹杰 范平 《现代计算机》 2021年第14期14-20,37,共8页
DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark... DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark Density Division Kernel Density Estimation Boundary Stategy-Density-based Spatial Clustering of Applications with Noise)改进算法,设计Spark缓存机制结合不规则动态分区和边界合并以及核密度估计并行化。实验表明,改进算法一般适用不同形状类簇和较大规模数据聚类,在准确率和计算速率上有一定提升。 展开更多
关键词 DBSCAN算法 spark并行 动态分区 核密度估计 缓存机制
下载PDF
Smith-Waterman算法优化改进与Spark并行化研究 被引量:2
4
作者 李雷孝 刘燕凤 高静 《内蒙古农业大学学报(自然科学版)》 CAS 北大核心 2019年第5期76-85,共10页
Smith-Waterman算法是1种精确度最高、广泛应用于文本搜索的生物学序列比对算法。在对Smith-Waterman算法深入研究的基础上,从减少计算任务量和降低计算复杂度两个方面对算法进行优化改进,将优化改进算法基于Spark平台进行算法并行化设... Smith-Waterman算法是1种精确度最高、广泛应用于文本搜索的生物学序列比对算法。在对Smith-Waterman算法深入研究的基础上,从减少计算任务量和降低计算复杂度两个方面对算法进行优化改进,将优化改进算法基于Spark平台进行算法并行化设计,并通过准确性测试、算法运行速度测试、算法速度比较测试、算法可扩展性测试等实验分析优化改进算法和并行化算法的性能。实验结果表明:优化改进和并行化后的算法在保证准确性的前提下,极大地提高了算法运行速度和可扩展性。 展开更多
关键词 基因序列比对 SMITH-WATERMAN算法 优化改进 spark并行
原文传递
Spark框架优化的大规模谱聚类并行算法 被引量:10
5
作者 崔艺馨 陈晓东 《计算机应用》 CSCD 北大核心 2020年第1期168-172,共5页
为解决谱聚类在大规模数据集上存在的计算耗时和无法聚类等性能瓶颈制约,提出了基于Spark技术的大规模数据集谱聚类的并行化算法。首先,通过单向循环迭代优化相似矩阵的构建,避免重复计算;然后,通过位置变换和标量乘法替换来优化Laplac... 为解决谱聚类在大规模数据集上存在的计算耗时和无法聚类等性能瓶颈制约,提出了基于Spark技术的大规模数据集谱聚类的并行化算法。首先,通过单向循环迭代优化相似矩阵的构建,避免重复计算;然后,通过位置变换和标量乘法替换来优化Laplacian矩阵的构建与正规化,降低存储需求;最后,采用近似特征向量计算来进一步减少计算量。不同测试数据集上的实验结果表明:随着测试数据集的规模增加,所提算法的单向循环迭代和近似特征值计算的运行时间呈线性增长,增长缓慢,其近似特征向量计算与精确特征向量计算取得相近的聚类效果,并且算法在大规模数据集上表现出良好的可扩展性。在获得较好的谱聚类性能的基础上,改进算法提高了运行效率,有效缓解了谱聚类的计算耗时及无法聚类问题。 展开更多
关键词 大规模谱聚类 相似矩阵稀疏化 单向循环迭代 近似特征向量 分布式spark并行计算
下载PDF
利用数据变换与并行运算的闭频繁项集挖掘方法 被引量:12
6
作者 党红恩 赵尔平 +1 位作者 刘炜 雒伟群 《湘潭大学自然科学学报》 CAS 2018年第1期119-122,共4页
针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成... 针对传统闭频繁项集(CFI)挖掘方法耗时长、效率低的问题,提出一种基于数据变换与并行运算(DTPC)的新型挖掘方法:设计基于质数对数运算的数据变换方法,将大量数据转换成简单的数字;利用Spark并行框架中的平方/开方运算将这些数字转换成频繁项集.3 000万篇文章的大数据集实验结果表明,提出的DTPC算法可以大幅度提升数据挖掘效率,同时减少计算资源的不必要浪费. 展开更多
关键词 闭频繁项集 大数据挖掘 质数对数变换 spark并行计算框架
下载PDF
基于Spark的近地表速度模型快速层析反演 被引量:5
7
作者 陈金焕 《石油物探》 CSCD 北大核心 2022年第1期146-155,共10页
近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近... 近地表速度模型层析反演多采用基于初至旅行时射线追踪的迭代反演方法。通常采用基于共享存储的MPI并行方式提高计算效率,但当计算节点增至一定规模时会存在网络I/O压力过大的计算瓶颈。为此,提出了一种快速、稳健的基于Spark技术的近地表速度模型层析反演方法,采用分布式内存管理技术将迭代中重复计算的数据持久化至内存中,提高程序运行效率。同时,为了解决共享存储中随着节点规模扩大而产生网络I/O堵塞的瓶颈问题,在分布式存储环境下组织弹性分布式数据集(RDD),设计基本规约单位为深度方向的一维反演数据,基于Spark Shuffle在规约过程中分布并行规约,利用Spark调度器在各个进程中分配任务,实现并行计算。实际数据计算结果表明:在反演结果精度不变的情况下,相对于常规MPI并行技术,该实现方法能够大幅度降低迭代过程中产生的网络I/O;当计算节点较多时,计算效率能够提高4倍以上;并行加速比呈现类线性增长趋势。 展开更多
关键词 近地表层析反演 迭代计算 spark并行 弹性分布式数据集 规约基本单元
下载PDF
复杂属性条件下基于Spark的clique社区搜索算法
8
作者 佘鑫 何震瀛 《计算机工程》 CAS CSCD 北大核心 2021年第12期54-61,70,共9页
现有的社区搜索算法难以在网络中找到满足给定复杂属性条件的社区。同时,随着网络规模的不断扩大,单机串行的社区搜索算法也已无法有效地处理大规模的网络数据。针对复杂属性条件下的clique社区搜索问题,提出一种基于Spark的搜索算法。... 现有的社区搜索算法难以在网络中找到满足给定复杂属性条件的社区。同时,随着网络规模的不断扩大,单机串行的社区搜索算法也已无法有效地处理大规模的网络数据。针对复杂属性条件下的clique社区搜索问题,提出一种基于Spark的搜索算法。在Spark并行计算框架的基础上,结合图的结构特征和内容属性,根据由布尔表达式定义的复杂属性条件采取不同的搜索策略,搜索时利用属性的搜索成本和扩展成本进行局部优化,从而加快搜索过程。实验结果表明,与结构优先或属性优先的社区搜索算法相比,该算法在不同属性条件、网络规模和节点数目的情况下均能保证搜索准确性并提高搜索效率。 展开更多
关键词 社区搜索 复杂属性条件 布尔表达式 spark并行计算框架 clique结构
下载PDF
串行式混合类型航道船舶交通组织优化 被引量:1
9
作者 王志强 张新宇 +1 位作者 李倍莹 王婧贇 《计算机应用与软件》 北大核心 2023年第2期26-32,39,共8页
随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类... 随着港口航道类型逐渐向多样化、复杂化的混合类型趋势发展,港口交通问题愈发严峻。调研国内外港口混合类型航道,抽象出一种串行式简单混合类型航道作为研究对象。分析混合航道船舶交通状况,构建以单向/混合通航模式转化、混合航道异类子航道间通航模式切换、港池连接水域船舶交通冲突消解等为约束的串行式简单混合类型航道船舶交通组织优化模型。基于Spark并行计算框架,结合NSGA-II算法遗传操作天然并行性特点,提出一种Spark分布式多目标遗传算法,将全部种群分散在多节点上并行执行算法的遗传操作。实验表明,提出的算法具有较快的收敛速度和较好的稳定性,模型求解出的优化方案合理、有效。 展开更多
关键词 混合类型航道 船舶交通组织优化 分布式多目标遗传算法 spark并行计算框架
下载PDF
配电云平台的决策级数据融合及其并行化
10
作者 王可 赵瑞锋 +1 位作者 李波 李世明 《电气技术》 2021年第7期89-94,共6页
随着传感器技术的不断发展,配电主站中包含的传感器数量不断增加,配电云平台能够接收海量数据。为了提高数据的利用率,同时提高云平台对数据的处理效率,本文提出一种关于配电云平台的决策级数据融合方法及其并行化方案,通过计算传感器... 随着传感器技术的不断发展,配电主站中包含的传感器数量不断增加,配电云平台能够接收海量数据。为了提高数据的利用率,同时提高云平台对数据的处理效率,本文提出一种关于配电云平台的决策级数据融合方法及其并行化方案,通过计算传感器的重要程度判断传感器网络中各传感器反映某事项的程度,从而决定是否将数据实时传输到应用层,同时利用改进的基于权重的D-S理论在应用层实现进一步的数据融合,整个过程利用Spark进行并行化计算。本文提出的数据传输及融合方法能够在保证数据传输完整性的前提下大大提高应用层的决策效率,尤其对于需进行实时判断的事件,所提方法能够保证配电云平台实时高效地做出决策。 展开更多
关键词 数据融合 权重 D-S理论 配电云平台 spark并行
下载PDF
Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark 被引量:21
11
作者 LIU Peng ZHAO Hui-han +3 位作者 TENG Jia-yu YANG Yan-yan LIU Ya-feng ZHU Zong-wei 《Journal of Central South University》 SCIE EI CAS CSCD 2019年第1期1-12,共12页
The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parall... The sharp increase of the amount of Internet Chinese text data has significantly prolonged the processing time of classification on these data.In order to solve this problem,this paper proposes and implements a parallel naive Bayes algorithm(PNBA)for Chinese text classification based on Spark,a parallel memory computing platform for big data.This algorithm has implemented parallel operation throughout the entire training and prediction process of naive Bayes classifier mainly by adopting the programming model of resilient distributed datasets(RDD).For comparison,a PNBA based on Hadoop is also implemented.The test results show that in the same computing environment and for the same text sets,the Spark PNBA is obviously superior to the Hadoop PNBA in terms of key indicators such as speedup ratio and scalability.Therefore,Spark-based parallel algorithms can better meet the requirement of large-scale Chinese text data mining. 展开更多
关键词 Chinese text classification naive Bayes spark HADOOP resilient distributed dataset PARALLELIZATION
下载PDF
基于PSO-DE-BP的光伏发电功率短期预测 被引量:4
12
作者 刘春芳 王攀攀 曹菲 《计算机测量与控制》 2023年第5期180-186,共7页
提高光伏发电功率预测精度对保障智能电网安全稳定运行有重要意义;针对传统BP神经网络存在预测精度不高且收敛速度慢的弊端,提出一种基于粒子群(PSO)差分进化(DE)并行计算优化BP神经网络的光伏发电短期预测方法;首先分析影响因素重要程... 提高光伏发电功率预测精度对保障智能电网安全稳定运行有重要意义;针对传统BP神经网络存在预测精度不高且收敛速度慢的弊端,提出一种基于粒子群(PSO)差分进化(DE)并行计算优化BP神经网络的光伏发电短期预测方法;首先分析影响因素重要程度,通过带权重的欧式距离筛选相似的训练样本集;其次,对粒子群分组,通过粒子群和差分进化混合算法对粒子组内和组间优化,以保证种群多样性、提高预测稳定和精度、避免局部最优;然后,建立预测模型,通过基于spark的内存计算平台,将PSO-DE-BP算法并行优化以提高算法运行效率;最后,根据不同天气类型的预测结果对模型进行分析验证,此方法比PSO-BP、BP算法模型具有更高的稳定性和预测精度。 展开更多
关键词 光伏发电预测 BP神经网络 差分进化 粒子群分组 spark并行计算
下载PDF
基于车牌识别大数据的伴随车辆组发现方法 被引量:11
13
作者 曹波 韩燕波 王桂玲 《计算机应用》 CSCD 北大核心 2015年第11期3203-3207,共5页
基于对车牌识别大数据的处理与分析,可以完成伴随车辆组的发现,在涉案车辆追踪等方面具有广泛的应用。然而当前单一机器模式下伴随车辆组发现算法存在时间和空间上处理性能低下等问题。针对此问题,提出了一种伴随车辆组发现方法——FP-... 基于对车牌识别大数据的处理与分析,可以完成伴随车辆组的发现,在涉案车辆追踪等方面具有广泛的应用。然而当前单一机器模式下伴随车辆组发现算法存在时间和空间上处理性能低下等问题。针对此问题,提出了一种伴随车辆组发现方法——FP-DTC方法。该方法将传统的FP-Growth算法利用分布式处理框架Spark进行了并行化,并作了相应的改进和优化来更加高效地发现伴随车辆组。实验结果的分析表明,提出的方法能够很好地解决车牌识别大数据上的伴随车辆组发现问题,性能相比采用同样方法的Hadoop实现提升了近4倍。 展开更多
关键词 智能交通系统 车牌识别 伴随车辆组 FP-GROWTH算法 spark并行框架
下载PDF
基于Spark计算框架的路网核密度估计并行算法 被引量:7
14
作者 郭宇达 朱欣焰 +1 位作者 呙维 佘冰 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2020年第2期289-295,共7页
路网核密度估计是路网约束下针对事件点的聚类分析方法,常用于研究交通事故、城市犯罪、车辆轨迹等事件的空间分布模式。传统单机串行的路网核密度估计算法在小数据量条件下的运行效率较高,但随着数据量的增加,算法性能显著下降,无法满... 路网核密度估计是路网约束下针对事件点的聚类分析方法,常用于研究交通事故、城市犯罪、车辆轨迹等事件的空间分布模式。传统单机串行的路网核密度估计算法在小数据量条件下的运行效率较高,但随着数据量的增加,算法性能显著下降,无法满足实际应用需求。针对路网核密度估计中的道路网分割和核密度计算,设计并实现了基于Spark计算框架的高效并行算法。以交通事故为例,通过4组实验进行对比分析。结果表明,基于Spark计算框架的路网核密度估计并行算法具有较高的运算效率,并具备良好的可拓展性。 展开更多
关键词 路网约束 核密度分析 spark并行计算 空间聚类 事故分析
原文传递
基于大数据的设备能耗异常分析模型研究
15
作者 张俊丽 《自动化与仪器仪表》 2023年第6期31-34,39,共5页
为进一步分析设备能耗异常问题,以及面向海量的能耗数据,在提取能耗特征数据基础上,提出改进注意力机制结合Bi-LSTM的能耗异常分类模型,然后将分类模型部署到Spark并行框架中,以提高其海量数据的能力。结果表明,在引入能耗特征的分类模... 为进一步分析设备能耗异常问题,以及面向海量的能耗数据,在提取能耗特征数据基础上,提出改进注意力机制结合Bi-LSTM的能耗异常分类模型,然后将分类模型部署到Spark并行框架中,以提高其海量数据的能力。结果表明,在引入能耗特征的分类模型上,其准确率为95.11%,高于只以原始数据作为数据的分类模型;引入注意力机制的Bi-LSTM对能耗的分类准确率明显高于Bi-LSTM,准确率达97.76%。同时通过Spark并行框架运行,可实时监测能耗异常问题。由此通过以上构建,得出本研究构建的分析模型及平台可行,可在企业设备能耗监测中应用。 展开更多
关键词 能耗异常 分类模型 Bi-LSTM spark并行框架
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部