期刊文献+
共找到98篇文章
< 1 2 5 >
每页显示 20 50 100
基于Spark和NRSCA策略的并行深度森林算法
1
作者 毛伊敏 刘绍芬 《计算机应用研究》 CSCD 北大核心 2024年第1期126-133,共8页
针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher ... 针对并行深度森林在大数据环境下存在冗余及无关特征过多、两端特征利用率过低、模型收敛速度慢以及级联森林并行效率低等问题,提出了基于Spark和NRSCA策略的并行深度森林算法——PDF-SNRSCA。首先,该算法提出了基于邻域粗糙集和Fisher score的特征选择策略(FS-NRS),通过衡量特征的相关性和冗余度,对特征进行过滤,有效减少了冗余及无关特征的数量;其次,提出了一种随机选择和等距提取的扫描策略(S-RSEE),保证了所有特征能够同概率被利用,解决了多粒度扫描两端特征利用率低的问题;最后,结合Spark框架,实现级联森林并行化训练,提出了基于重要性指数的特征筛选机制(FFM-II),筛选出非关键性特征,平衡增强类向量与原始类向量维度,从而加快模型收敛速度,同时设计了基于SCA的任务调度机制(TSM-SCA),将任务重新分配,保证集群负载均衡,解决了级联森林并行效率低的问题。实验表明,PDF-SNRSCA算法能有效提高深度森林的分类效果,且对深度森林并行化训练的效率也有大幅提升。 展开更多
关键词 并行深度森林算法 spark框架 邻域粗糙集 正弦余弦算法 多粒度扫描
下载PDF
基于Spark平台的分类算法性能比较分析 被引量:1
2
作者 赵蕾 夏吉安 +1 位作者 吴洋 崔辉 《计算机与数字工程》 2024年第3期688-691,704,共5页
针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评... 针对目前大数据与机器学习技术的快速发展,使用基于Spark平台的MLlib机器学习库实现前馈神经网络(Feedforward Artificial Neural Network)、支持向量机(Support Vector Machine)与随机森林(Random Forest)三种机器学习算法,并分析与评估三种算法在大数据平台下的运行与分类性能。实验结果表明,随着节点数的增加,三种算法在大数据平台上消耗的时间都逐步变少。当数据集小于100MB时神经网络与支持向量机算法加速比较高,数据集大于1GB时随机森林算法加速比优于其他两种算法。神经网络算法在数据集100MB时可扩展性最小,支持向量机算法在数据集500MB时可扩展性最小。随机森林算法在数据集大于1GB时规模增长性优于其他两种算法。通过对于三种分类算法的时间效率与准确性比较,支持向量机算法消耗的时间最少,但是分类准确性最低。神经网络算法消耗的时间最长,分类准确性低于随机森林算法。随机森林算法的分类准确性最高,但是算法运行时间高于支持向量机算法。集成分类算法在大数据平台上表现出较好的时间性能与分类准确性。 展开更多
关键词 大数据 Hadoop框架 spark框架 机器学习 性能评估
下载PDF
基于Spark的叠加能量寻优反射波剩余静校正算法的工程化实现
3
作者 袁联生 《石油物探》 CSCD 北大核心 2024年第4期807-816,共10页
叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校... 叠加能量寻优反射波剩余静校正方法是解决剩余静校正问题的有效方法之一,该方法精度高,但计算量大且需要进行多域数据切换。随着原始数据量的不断增长,其算法实现的高效运行成为主要的应用瓶颈问题。分析了叠加能量寻优反射波剩余静校正方法计算密集、通讯密集的特征,针对算法难以实现并行计算的难点,提出了基于Spark分布式内存计算模型的技术解决方案,实现了海量地震数据弹性分布式数据集的高效流转和多域数据的灵活切换,完成了叠加能量寻优反射波剩余静校正方法的多节点分布式并行计算,提高了大数据情形下方法的适应性和计算效率,提升了其在地震数据处理中的实用化程度。实际生产数据的应用结果表明,基于Spark的叠加能量寻优反射波剩余静校正的软件模块在复杂近地表地震数据的处理中取得了能满足实际生产要求的应用效果,兼具适应性强和计算效率高的特点。 展开更多
关键词 反射波剩余静校正 spark框架 工程化实现 分布式并行计算
下载PDF
基于Spark框架的船舶电力数据预处理技术
4
作者 谢宽 杨哲 《船电技术》 2024年第7期69-72,共4页
为了解决因船舶电力数据数量大、类型混杂等特点造成的系统状态预测不精准的问题,引入了数据预处理技术;归纳总结了数据预处理技术的主要过程,和每一过程的目的及处理方法;针对船舶电力数据的特点和预处理现状,提出了船舶电力数据预处... 为了解决因船舶电力数据数量大、类型混杂等特点造成的系统状态预测不精准的问题,引入了数据预处理技术;归纳总结了数据预处理技术的主要过程,和每一过程的目的及处理方法;针对船舶电力数据的特点和预处理现状,提出了船舶电力数据预处理方案;为进一步提升预处理效率,采用了Spark框架作为数据预处理平台,介绍了Spark框架的运行流程,并与船舶电力数据预处理方案结合,给出了基于该框架的预处理实施流程;提高了船舶电力数据质量和可用性,为后续的研究工作奠定了基础。 展开更多
关键词 船舶电力数据 数据预处理 spark框架 流程
下载PDF
基于Spark框架的FP-Growth大数据频繁项集挖掘算法 被引量:12
5
作者 邵梁 何星舟 尚俊娜 《计算机应用研究》 CSCD 北大核心 2018年第10期2932-2935,共4页
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集... 针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标志符垂直排列,以此解决扫描整个数据集的缺陷;然后,通过FPGrowth算法构建频繁模式树,并生成频繁1-项集;接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸;最后,通过迭代过程来生成频繁k-项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。 展开更多
关键词 大数据 频繁项集挖掘 spark框架 FP-GROWTH算法 垂直布局
下载PDF
基于Spark框架和ASPSO的并行划分聚类算法 被引量:7
6
作者 毛伊敏 甘德瑾 +1 位作者 廖列法 陈志刚 《通信学报》 EI CSCD 北大核心 2022年第3期148-163,共16页
针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法... 针对划分聚类算法处理海量的数据存在的数据离散系数较大与抗干扰性差、局部簇簇数难以确定、局部簇质心随机性及局部簇并行化合并效率低等问题,提出了一种基于Spark框架和粒子群优化自适应策略(ASPSO)的并行划分聚类(PDC-SFASPSO)算法。首先,提出了基于皮尔逊相关系数和方差的网格划分策略获取数据离散系数较小的网格单元并进行离群点过滤,解决了数据离散系数较大与抗干扰性差的问题;其次,提出了基于势函数与高斯函数的网格划分策略,获取局部聚类的簇数,解决了局部簇簇数难以确定的问题;再次,提出了ASPSO获取局部簇质心,解决了局部簇质心的随机性问题;最后,提出了基于簇半径与邻居节点的合并策略对相似度大的簇进行并行化合并,提高了局部簇并行化合并的效率。实验结果表明,PDC-SFASPSO算法在大数据环境下进行数据的划分聚类具有较好的性能表现,适用于对大规模的数据集进行并行化聚类。 展开更多
关键词 spark框架 并行划分聚类 网格划分 粒子群优化自适应策略 并行化合并
下载PDF
基于Spark Streaming的实时数据分析系统及其应用 被引量:30
7
作者 韩德志 陈旭光 +2 位作者 雷雨馨 戴永涛 张肖 《计算机应用》 CSCD 北大核心 2017年第5期1263-1269,共7页
为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一... 为了实现对实时网络数据流的快速分析,设计一种分布式实时数据流分析系统(DRDAS),能有效解决并发访问数据流的收集、存储和实时分析问题,为大数据环境的网络安全检测提供了一种有效的数据分析平台;根据Spark Streaming运行的原理设计一种动态采样的K-Means并行算法,与DRDAS结合能实时有效地检测大数据环境下的各种分布式拒绝服务(DDo S)攻击。实验结果显示:DRDAS具有好的可扩展性、容错性和实时处理能力,与动态采样的K-Means并行算法结合能实时地检测各种DDo S攻击,缩短了攻击的检测时间。 展开更多
关键词 spark Streaming框架 分布式流处理 网络数据分析 分布式拒绝服务攻击
下载PDF
基于Spark的并行FP-Growth算法优化与实现 被引量:8
8
作者 陆可 桂伟 +1 位作者 江雨燕 杜萍萍 《计算机应用与软件》 2017年第9期273-278,共6页
频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集... 频繁模式挖掘作为模式识别的重要问题,一直受到研究者的广泛关注。FP-Growth算法因其高效快速的特点,被大量应用于频繁模式的挖掘任务中。然而,该算法依赖于内存运行的特性,使其难以适应大规模数据计算。针对上述问题,围绕大规模数据集下频繁模式挖掘展开研究,基于Spark框架,通过对支持度计数和分组过程的优化改进了FP-Growth算法,并实现了算法的分布式计算和计算资源的动态分配。运算过程中产生的中间结果均保存在内存中,因此有效减少数据的I/O消耗,提高算法的运行效率。实验结果表明,经优化后的算法在面向大规模数据时要优于传统的FP-Growth算法。 展开更多
关键词 频繁模式挖掘 FP-GROWTH算法 分布式计算 spark框架
下载PDF
Spark框架下利用分布式NBC的大数据文本分类方法 被引量:6
9
作者 臧艳辉 赵雪章 席运江 《计算机应用研究》 CSCD 北大核心 2019年第12期3705-3708,3712,共5页
针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有... 针对现有面向大数据的计算框架在可扩展性机器学习研究中面临的挑战,提出了基于MapReduce和Apache Spark框架的分布式朴素贝叶斯文本分类方法。通过研究MapReduce和Apache Spark框架的适应性来探索朴素贝叶斯分类器(NBC),并研究了现有面向大数据的计算框架。首先,基于朴素贝叶斯文本分类模型将训练样本数据集分为m类;进一步在训练阶段中,将前一个MapReduce的输出作为后一个MapReduce的输入,采用四个MapReduce作业得出模型。该设计过程充分利用了MapReduce的并行优势,最后在分类器测试时取出最大值所属的类标签值。在Newgroups数据集进行实验,在所有五类新闻数据组上的分类都取得了99%以上的结果,并且均高于对比算法,证明了提出方法的准确性。 展开更多
关键词 文本分类 MAPREDUCE spark框架 分布式 朴素贝叶斯分类器 机器学习
下载PDF
基于Spark框架和PSO优化算法的电力通信网络安全态势预测 被引量:19
10
作者 金鑫 李龙威 +2 位作者 苏国华 刘晓蕾 季佳男 《计算机科学》 CSCD 北大核心 2017年第S1期366-371,共6页
随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spar... 随着电力通信网络规模的不断扩大,电力通信网络不间断地产生海量通信数据。同时,对通信网络的攻击手段也在不断进化,给电力通信网络的安全造成极大威胁。针对以上问题,结合Spark大数据计算框架和PSO优化神经网络算法的优点,提出基于Spark内存计算框架的并行PSO优化神经网络算法对电力通信网络的安全态势进行预测。本研究首先引入Spark计算框架,Spark框架具有内存计算以及准实时处理的特点,符合电力通信大数据处理的要求。然后提出PSO优化算法对神经网络的权值进行修正,以增加神经网络的学习效率和准确性。之后结合RDD的并行特点,提出了一种并行PSO优化神经网络算法。最后通过实验比较可以看出,基于Spark框架的PSO优化神经网络算法的准确度高,且相较于传统基于Hadoop的预测方法在处理速度上有显著提高。 展开更多
关键词 spark计算框架 粒子群算法 并行PSO优化神经网络 电力通信网络 安全态势预测
下载PDF
基于Spark框架的能源互联网电力能源大数据清洗模型 被引量:25
11
作者 曲朝阳 张艺竞 +1 位作者 王永文 赵莹 《电测与仪表》 北大核心 2018年第2期39-44,共6页
对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于... 对能源大数据清洗可提高能源大数据质量的正确性、完整性、一致性、可靠性。针对能源大数据清洗过程中的提取统一异常检测模式困难、异常数据修正连续性及准确性低下等问题,提出了一种基于Spark框架的能源能源大数据清洗模型。首先基于改进CURE聚类算法获取正常簇;其次,实现了正常簇的边界样本获取方法,并设计了基于边界样本的异常识别算法;最后通过指数加权移动平均数实现了异常数据修正。通过对某风电场风力发电监测数据进行了数据清洗实验分析,验证了清洗模型的高效性、准确性。 展开更多
关键词 能源大数据 数据清洗 异常识别 异常修正 spark框架
下载PDF
基于Spark框架的图书馆微信服务平台设计研究 被引量:3
12
作者 黄铁娜 戴文静 曹君 《现代电子技术》 2021年第15期99-103,共5页
图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主... 图书馆微信服务平台运行稳定性较差,导致平台的数据处理效率较低,对此,基于Spark框架设计一种新的图书馆微信服务平台。分析图书馆微信服务平台运行的基本原理,根据级别、分类设置和创建菜单,同时设置URL和USB两种消息接口,分别设计主动推送功能、业务办理模式、查询帮助服务、在线咨询和社交平台、智能问答系统五项功能。通过预处理、特征提取以及并行化聚类三个阶段实现基于Spark框架的图书馆微信服务平台工作流程。实验结果表明,基于Spark框架的图书馆微信服务平台能够有效提高运行稳定性,增强数据处理效率。 展开更多
关键词 平台设计 微信服务平台 spark框架 特征提取 并行化聚类 运行稳定性 微时代
下载PDF
基于Spark和三路交互信息的并行深度森林算法 被引量:2
13
作者 毛伊敏 周展 陈志刚 《通信学报》 EI CSCD 北大核心 2023年第8期228-240,共13页
针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始... 针对并行深度森林在处理大数据时存在冗余及无关特征过多、类向量过长、模型收敛速度慢以及并行化训练效率低等问题,提出了基于Spark和三路交互信息的并行深度森林(PDF-STWII)算法。首先,提出基于特征交互的特征选择(FSFI)策略过滤原始特征,剔除无关及冗余特征;其次,提出多粒度向量消除(MGVE)策略,融合相似类向量,缩短类向量长度;再次,提出级联森林特征增强(CFFE)策略提高信息利用率,加快模型收敛速度;最后,结合Spark框架提出多级负载均衡(MLB)策略,通过自适应子森林划分和异构倾斜数据划分,提高并行化训练效率。实验结果表明,所提算法能显著提升模型分类效果,缩短并行化训练时间。 展开更多
关键词 spark框架 并行深度森林算法 特征选择 多级负载均衡
下载PDF
基于Spark的并行频繁项集挖掘算法 被引量:2
14
作者 毛伊敏 吴斌 +1 位作者 许春冬 张茂省 《计算机集成制造系统》 EI CSCD 北大核心 2023年第4期1267-1283,共17页
针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(... 针对大数据环境下基于Spark的频繁模式增长(FP-Growth)算法存在创建条件频繁模式树(FP-tree)时空效率低,节点间通信开销大,以及冗余搜索等问题,提出了基于Spark的并行频繁项集挖掘算法(PAFMFI-Spark)。首先,该算法提出非负矩阵分解策略(SNMF),通过提供支持度计数查询和分解储存支持度计数的矩阵,解决了创建条件FP-tree的时空效率低的问题;其次,提出基于遗传算法的分组策略(GS-GA),均衡分配频繁1项集至各节点,解决了节点间的通信开销大的问题;最后,提出高效缩减树结构策略(ERTSS),缩减FP-tree树结构,解决了冗余搜索的问题。实验结果验证了PAFMFI-Spark算法的可行性以及相较于其他挖掘算法的性能优势,所提算法能有效适应各种数据的频繁项集挖掘。 展开更多
关键词 大数据 spark框架 并行频繁项集挖掘 频繁模式增长算法 非负矩阵分解
下载PDF
Spark框架下分布式K-means算法优化方法 被引量:13
15
作者 王法玉 刘志强 《计算机工程与设计》 北大核心 2019年第6期1595-1600,共6页
针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的... 针对传统K-means算法在处理海量数据时存在计算效率低和时间复杂度高的缺点,提出一种基于Spark计算框架的改进K-means算法。利用网格单元保存数据点的空间位置信息,通过与聚类中心的空间位置关系减少冗余计算,为提高算法处理海量数据的能力,采用Spark框架对算法进行并行化实现。在集群环境下进行测试,基于Spark框架的改进后算法能有效降低计算的时间复杂度,算法具有良好扩展性,计算效率有显著提高。 展开更多
关键词 K-MEANS算法 spark计算框架 分布式 网格 空间位置
下载PDF
基于Spark的投影树频繁项集挖掘算法 被引量:3
16
作者 冯兴杰 潘轩 《计算机工程与设计》 北大核心 2018年第8期2477-2483,共7页
通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改... 通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改进,降低运算量,减少集群节点间通信的消耗;将Apriori先验性质添加到候选项集的筛选过程中,减少节点间的通信量。将算法与Spark平台所具备的特殊性能相结合,得到基于Spark的投影树关联规则挖掘算法,实验结果表明,该算法具备良好的可扩展性,适宜于处理大规模数据。 展开更多
关键词 数据挖掘 大数据 spark大数据框架 投影树 并行化
下载PDF
Spark下遥感大数据特征提取的加速策略 被引量:7
17
作者 黄震 钱育蓉 +1 位作者 范迎迎 杜娇 《计算机工程与设计》 北大核心 2017年第12期3279-3283,共5页
提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Sp... 提出一种基于Spark分布式内存计算框架的遥感大数据特征提取策略。采用Landsat8为数据源,以计算归一化植被指数(NDVI)、差值植被指数(DVI)、比值植被指数(RVI)为例开展实验。实验结果表明,在相同硬件环境、处理任务、数据量的条件下,Spark处理遥感大数据的速度较单机模式下的处理遥感大数据提升了约2倍,基于Hadoop分布式文件系统(HDFS)处理模式较Spark-standalone处理模式处理速度提升了约1.2倍,基于Spark下的HDFS存储模式下,栅格切分遥感大数据较非栅格切分处理速度提高了约1.5倍。 展开更多
关键词 spark分布式内存计算框架 HADOOP分布式文件系统 遥感大数据 内存计算 栅格切分
下载PDF
基于Spark的并行化高效用项集挖掘算法 被引量:6
18
作者 何登平 何宗浩 李培强 《计算机工程与科学》 CSCD 北大核心 2019年第10期1723-1730,共8页
针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结... 针对传统基于链表结构的Top-K高效用挖掘算法在大数据环境下不能满足挖掘需求的问题,提出一种基于Spark的并行化高效用项集挖掘算法(STKO)。首先从阈值提升、搜索空间缩小等方面对TKO算法进行改进;然后选择Spark平台,改变原有数据存储结构,利用广播变量优化迭代过程,在避免大量重新计算的同时使用负载均衡思想实现Top-K高效用项集的并行挖掘。实验结果表明,该并行算法能有效地挖掘出大数据集中的高效用项集。 展开更多
关键词 数据挖掘 高效用项集 spark大数据框架 并行化 TOP-K
下载PDF
Spark环境下基于SMT的分布式限界模型检测
19
作者 任胜兵 张健威 +1 位作者 吴斌 王志健 《计算机工程》 CAS CSCD 北大核心 2017年第6期19-23,29,共6页
在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布... 在基于可满足性模理论(SMT)的限界模型检测中,限界深度对于程序验证结果的可信性和程序验证效率具有重要影响。传统串行检测方法由于单机处理性能和内存的限制,不能在限界较深的条件下进行验证。针对该问题,在Spark环境下提出一种分布式限界模型检测方法。将源程序的LLVM中间表示(LLVM-IR)构造为Spark内置的数据结构Pair RDD,利用MapReduce算法将Pair RDD转化为表示验证条件的弹性分布式数据集(VCs RDD),VCs RDD转化为SMT-LIB并输入SMT求解器进行验证。实验结果表明,与传统串行检测方法相比,该方法提高了验证过程中的限界深度和验证结果的正确率,并且对于复杂度较高的程序在限界相同的情况下其验证速度也有所提升。 展开更多
关键词 软件验证 限界模型检测 弹性分布式数据集 可满足性模理论求解器 spark框架
下载PDF
一种基于Spark的大规模语义数据分布式推理框架 被引量:2
20
作者 陈恒 《计算机科学》 CSCD 北大核心 2016年第S2期93-96,共4页
随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主... 随着大规模语义数据的涌现,研究高效的并行化语义推理成为热点问题之一。现有推理框架大多存在可扩展性方面的不足,难以满足大规模语义数据的需求。针对现有推理框架的不足,提出一种基于Spark的大规模语义数据分布式推理框架。该框架主要包括语义建模、规则提取和基于Spark的并行推理机等3个模块。通过过程分析和推理实例验证,提出的分布式并行推理的计算性能(T(n)=O(log_(2)n))远远优于顺序式推理的计算性能(T(n)=O(n))。 展开更多
关键词 spark 并行化语义推理 分布式框架 语义大数据
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部