期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
基于RDDs的分布式聚类集成算法 被引量:2
1
作者 王韬 杨燕 +1 位作者 滕飞 冯晨菲 《小型微型计算机系统》 CSCD 北大核心 2016年第7期1434-1439,共6页
在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resil... 在大数据时代,数据规模的不断扩大,数据的多样性愈发突出,提高分布式聚类算法的结果质量逐渐成为关注的焦点.针对多数分布式聚类算法在处理海量数据时采用的并行策略不合理以及聚类结果不理想等缺陷,提出一种基于弹性分布式数据集(Resilient Distributed Datasets,RDDs)的分布式聚类集成算法(Dis CE).该算法首先设计一个基于RDDs的分布式邻接表,解决关联数据在分布式环境中的表示和存储;其次利用分布式的共识函数模型,综合几个海量基聚类结果并用分布式邻接表表示;最后运用改进的分布式近邻传播算法(MDAP),划分分布式邻;接表为最终的聚类结果.实验结果表明,新提出的算法对数据规模有很好的适应性,在有效提高聚类结果质量的同时可大幅减少运行时间. 展开更多
关键词 聚类集成 分布式计算 弹性分布式数据集
下载PDF
Cloud-based parallel power flow calculation using resilient distributed datasets and directed acyclic graph 被引量:4
2
作者 Dewen WANG Fangfang ZHOU Jiangman LI 《Journal of Modern Power Systems and Clean Energy》 SCIE EI CSCD 2019年第1期65-77,共13页
With the integration of distributed generation and the construction of cross-regional long-distance power grids, power systems become larger and more complex.They require faster computing speed and better scalability ... With the integration of distributed generation and the construction of cross-regional long-distance power grids, power systems become larger and more complex.They require faster computing speed and better scalability for power flow calculations to support unit dispatch.Based on the analysis of a variety of parallelization methods, this paper deploys the large-scale power flow calculation task on a cloud computing platform using resilient distributed datasets(RDDs).It optimizes a directed acyclic graph that is stored in the RDDs to solve the low performance problem of the MapReduce model.This paper constructs and simulates a power flow calculation on a large-scale power system based on standard IEEE test data.Experiments are conducted on Spark cluster which is deployed as a cloud computing platform.They show that the advantages of this method are not obvious at small scale, but the performance is superior to the stand-alone model and the MapReduce model for large-scale calculations.In addition, running time will be reduced when adding cluster nodes.Although not tested under practical conditions, this paper provides a new way of thinking about parallel power flow calculations in large-scale power systems. 展开更多
关键词 Power flow calculation PARALLEL programming MODEL distributED memory-shared MODEL resilient distributED datasets(rdds) Directed ACYCLIC graph(DAG)
原文传递
大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用 被引量:64
3
作者 张少敏 毛冬 王保义 《电力系统自动化》 EI CSCD 北大核心 2016年第14期129-134,共6页
风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障... 风电机组状态监测数据具有量大、多源、异构、复杂、增长迅速的电力大数据特点。现有的故障诊断与预警方法在处理大数据时难以在保证精度情况下进行快速处理,故提出了结合Storm实时流数据处理和Spark内存批处理技术的风电机组在线故障诊断与预警模型。以齿轮箱故障诊断与预警为例阐释该模型,引入了Storm处理状态监测数据流,设计了流数据处理的Topology结构;引入Spark,利用弹性分布式数据集(RDD)编程模型实现了朴素贝叶斯(NB)算法和反向传播(BP)算法对设备状态信息进行故障诊断与预测。实验结果显示,该故障诊断与预测方法在保证精度的前提下具有较好的加速比,也证明了该故障诊断与预警模型的有效性和可行性。 展开更多
关键词 风电机组 故障诊断 故障预警 弹性分布式数据集 内存批处理 流数据处理
下载PDF
并行计算框架Spark的自动检查点策略 被引量:1
4
作者 英昌甜 于炯 +2 位作者 卞琛 鲁亮 钱育蓉 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2017年第2期231-235,共5页
针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DA... 针对现有的Spark检查点机制需要编程人员根据经验选择检查点,具有一定的风险和随机性,可能导致恢复开销较大的问题,通过对RDD属性的分析,提出了自动检查点策略,包括权重生成(WG)算法和检查点自动选择(CAS)算法.首先,WG算法分析作业的DAG结构,获取RDD的血统长度和操作复杂度等属性,计算RDD权重;然后,CAS算法选择权重大的RDD作为检查点进行异步备份,来实现数据的快速恢复.结果表明:在使用CAS算法时,不同数据集执行时间和检查点容量大小都有所增加,其中Wiki-Talk由于其计算量较大,增幅明显;使用CAS算法设置检查点后,在单点失效恢复的情况下,数据集的恢复时间较短.因此,自动检查点策略在略微增加执行时间开销的基础上,能够有效地降低作业的恢复开销. 展开更多
关键词 自动检查点 rdd权重 SPARK 恢复时间
下载PDF
Spark计算引擎的数据对象缓存优化研究 被引量:3
5
作者 陈康 王彬 冯琳 《中兴通讯技术》 2016年第2期23-27,共5页
研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有... 研究了Spark并行计算集群对于内存的使用行为,认为其主要工作是通过对内存行为进行建模与分析,并对内存的使用进行决策自动化,使调度器自动识别出有价值的弹性分布式数据集(RDD)并放入缓存。另外,也对缓存替换策略进行优化,代替了原有的近期最少使用(LRU)算法。通过改进缓存方法,提高了任务在资源有限情况下的运行效率,以及在不同集群环境下任务效率的稳定性。 展开更多
关键词 并行计算 缓存 SPARK rdd
下载PDF
Sp-IEclat:一种大数据并行关联规则挖掘算法 被引量:22
6
作者 李成严 辛雪 +1 位作者 赵帅 冯世祥 《哈尔滨理工大学学报》 CAS 北大核心 2021年第4期109-118,共10页
针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计... 针对大数据环境下关联规则数据挖掘效率不高的问题,采用Eclat算法使用垂直数据库将事务的合并转换成集合操作的方法。研究了一种大数据并行关联规则挖掘算法-Sp-IEclat(Improved Eclat algorithm on Spark Framework),该算法基于内存计算的Spark框架,减少磁盘输入输出降低I/O负载,使用位图运算降低交集的时间代价并减少CPU占用,采用前缀划分的剪枝技术减少求交集运算的数据量,降低运算时间。使用mushroom数据集和webdocs数据集在两种大数据平台下实验,结果表明,Sp-IEclat算法的时间效率优于MapReduce框架下的Eclat算法及Spark框架下的FP-Growth算法和Eclat算法。从对集群的性能监控得到的数值表明,同Spark框架下的FP-Growth算法和Eclat算法相比,Sp-IEclat算法的CPU占用和I/O集群负载都较小。 展开更多
关键词 大数据 关联规则挖掘 频繁项集 Spark弹性分布式数据集 MAPREDUCE框架
下载PDF
Spark环境下基于SMT的分布式限界模型检测
7
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据集 可满足性模理论求解器 Spark框架
下载PDF
基于Spark Streaming的快速视频转码方法 被引量:2
8
作者 付眸 杨贺昆 +3 位作者 吴唐美 何润 冯朝胜 康胜 《计算机应用》 CSCD 北大核心 2018年第12期3500-3508,共9页
针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提... 针对单机视频转码方法转码速度较慢和面向批处理的并行转码方法效率提升有限的问题,基于Spark Streaming分布式流处理框架,提出了一种面向流处理的快速视频转码方法。首先,使用开源多媒体处理工具FFmpeg,构建了自动化的视频切片模型,提出编程算法;然后,针对并行视频转码的特点,对弹性分布式数据集(RDD)进行研究,构建了视频转码的流处理模型;最后,设计视频合并方案,将合并后的视频文件进行有效储存。根据所提出的快速视频转码方法设计与实现了基于Spark Streaming的快速视频转码系统。实验结果表明,与面向批处理Hadoop视频转码方法相比,所提方法转码效率提升了26. 7%;与基于Hadoop平台的视频并行转码方法相比,该方法转码效率提升了20. 1%。 展开更多
关键词 视频转码 SparkStreaming 分布式流处理 FFMPEG 弹性分布式数据集
下载PDF
大数据处理技术在风电机组状态监测中的应用 被引量:12
9
作者 梁涛 许琰 +1 位作者 李燕超 杨改文 《水力发电》 北大核心 2019年第8期107-110,125,共5页
随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。... 随着风电场规模的不断扩大扩大,风电机组状态监测流数据呈指数增长,而电力系统要求对生产、管理、运营能够实时监控。为保证海量监测流数据处理的实时性,掌握风电机组的运行状态,设计了结合大数据处理技术的风电机组在线状态监测模型。根据状态监测数据的特点,引入了大数据处理技术中的Spark和Storm。实验结果显示,该状态监测模型有着较好的数据吞吐能力和加速比,也证明了该模型的有效性和可行性。 展开更多
关键词 内存批处理 流数据处理 风电机组 状态监测 弹性分布式数据集
下载PDF
An Improved Memory Cache Management Study Based on Spark 被引量:2
10
作者 Suzhen Wang Yanpiao Zhang +2 位作者 Lu Zhang Ning Cao Chaoyi Pang 《Computers, Materials & Continua》 SCIE EI 2018年第9期415-431,共17页
Spark is a fast unified analysis engine for big data and machine learning,in which the memory is a crucial resource.Resilient Distribution Datasets(RDDs)are parallel data structures that allow users explicitly persist... Spark is a fast unified analysis engine for big data and machine learning,in which the memory is a crucial resource.Resilient Distribution Datasets(RDDs)are parallel data structures that allow users explicitly persist intermediate results in memory or on disk,and each one can be divided into several partitions.During task execution,Spark automatically monitors cache usage on each node.And when there is a RDD that needs to be stored in the cache where the space is insufficient,the system would drop out old data partitions in a least recently used(LRU)fashion to release more space.However,there is no mechanism specifically for caching RDD in Spark,and the dependency of RDDs and the need for future stages are not been taken into consideration with LRU.In this paper,we propose the optimization approach for RDDs cache and LRU based on the features of partitions,which includes three parts:the prediction mechanism for persistence,the weight model by using the entropy method,and the update mechanism of weight and memory based on RDDs partition feature.Finally,through the verification on the spark platform,the experiment results show that our strategy can effectively reduce the time in performing and improve the memory usage. 展开更多
关键词 resilient distribution datasets UPDATE mechanism weight MODE
下载PDF
超大规模栅格数据管理系统的设计与实现
11
作者 张江东 朱江 +2 位作者 苏望发 张玉华 李健 《测绘科学与工程》 2021年第3期60-64,共5页
本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据... 本文基于HDFS分布式文件系统和Spark分布式分析框架,首先,构建了超大规模栅格敎据管理系统,实现了不切片动态渲染分布式栅格地图服务,并采用移动计算到数据的策略和多级缓存机制,极大提高了动态渲染性能;然后,设计了栅格分布式分析数据模型RasterRDD,并利用Spark框架多节点分布式计算能力,大幅提升了栅格分析效率;最后,通过发布全国D0M和DEM栅格分布式地图服务,进行动态渲染和坡度分析性能验证,能够满足超大规模栅格数据的高效浏览、存储和分析。 展开更多
关键词 HDFS SPARK 弹性分布式数据集 动态渲染 分布式栅格分析
下载PDF
A Scheduling Optimization Technique Based on Reuse in Spark to Defend Against APT Attack 被引量:1
12
作者 Jianchao Tang Ming Xu +1 位作者 Shaojing Fu Kai Huang 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2018年第5期550-560,共11页
Advanced Persistent Threat (APT) attack, an attack option in recent years, poses serious threats to the security of governments and enterprises data due to its advanced and persistent attacking characteristics. To a... Advanced Persistent Threat (APT) attack, an attack option in recent years, poses serious threats to the security of governments and enterprises data due to its advanced and persistent attacking characteristics. To address this issue, a security policy of big data analysis has been proposed based on the analysis of log data of servers and terminals in Spark. However, in practical applications, Spark cannot suitably analyze very huge amounts of log data. To address this problem, we propose a scheduling optimization technique based on the reuse of datasets to improve Spark performance. In this technique, we define and formulate the reuse degree of Directed Acyclic Graphs (DAGs) in Spark based on Resilient Distributed Datasets (RDDs). Then, we define a global optimization function to obtain the optimal DAG sequence, that is, the sequence with the least execution time. To implement the global optimization function, we further propose a novel cost optimization algorithm based on the traditional Genetic Algorithm (GA). Our experiments demonstrate that this scheduling optimization technique in Spark can greatly decrease the time overhead of analyzing log data for detecting APT attacks. 展开更多
关键词 SPARK Advanced Persistent Threat (APT) SCHEDULE REUSE resilient distributed dataset (rdd Directed Acyclic Graph (DAG) Genetic Algorithm (GA)
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部