期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于spark框架的DBSCAN文本聚类算法 被引量:2
1
作者 宁建飞 《汕头大学学报(自然科学版)》 2018年第2期73-80,共8页
针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在sp... 针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比. 展开更多
关键词 DBSCAN聚类 大数据 并行算法 SNN相似度 spark计算平台
下载PDF
基于Spark与改进K- modes的增量聚类研究 被引量:1
2
作者 郑忠斌 孙繁荣 《信息技术》 2020年第6期50-55,共6页
为改善传统K-modes在无序分类数据聚类中忽略多属性和属性间差异的问题,以及解决算法在高维和动态增量数据聚类的应用,提出基于Spark与改进K-modes增量聚类方法。提出多属性值modes的新相异度度量方法,在保留多属性的同时,引入基于信息... 为改善传统K-modes在无序分类数据聚类中忽略多属性和属性间差异的问题,以及解决算法在高维和动态增量数据聚类的应用,提出基于Spark与改进K-modes增量聚类方法。提出多属性值modes的新相异度度量方法,在保留多属性的同时,引入基于信息熵的属性权重计算方法,以综合考虑不同维度下属性差异;提出基于多原则的迭代方法对聚类中心K进行优选,提高聚类准确率;基于Spark平台,引入增量聚类思想运行改进算法;最后搭建Spark实验环境对提出方法进行验证,结果表明改进K-modes聚类的准确率明显优于传统K-modes算法,且并行化算法在对增量数据执行效率和准确率上也具有明显优势。 展开更多
关键词 spark计算平台 K-modes算法 相异度度量 信息熵
下载PDF
一种工业大数据云平台的架构及监控技术研究 被引量:7
3
作者 李晓根 吴晗 乔亮 《工业控制计算机》 2019年第6期107-110,共4页
针对传统工业架构下工业企业面临的数据孤岛,数据处理技术不明确,数据利用效率低下等问题,对基于Spark的工业大数据云平台相关大数据技术进行了深入研究,提出了基于该云平台的工业大数据解决方案,并最终搭建了一个小型私有工业大数据云... 针对传统工业架构下工业企业面临的数据孤岛,数据处理技术不明确,数据利用效率低下等问题,对基于Spark的工业大数据云平台相关大数据技术进行了深入研究,提出了基于该云平台的工业大数据解决方案,并最终搭建了一个小型私有工业大数据云平台。该云平台的实际应用情况表明其对于大数据技术应用于工业企业、促进管理人员智能决策管理具有重要的借鉴意义。 展开更多
关键词 spark分布式计算平台 工业大数据 平台 智能决策
下载PDF
云环境下NB算法的垃圾邮件过滤研究 被引量:4
4
作者 刘月峰 张亚斌 苑江浩 《微电子学与计算机》 CSCD 北大核心 2018年第8期60-63,共4页
朴素贝叶斯算法在解决垃圾邮件分类领域内具有较高的准确性,能够很好的将邮件区分开来,但是在分类前期的训练阶段却会大量耗用系统和网络资源,严重影响分类效率.为此引入spark平台.以并行的思想去解决邮件分类问题,利用spark计算平台RD... 朴素贝叶斯算法在解决垃圾邮件分类领域内具有较高的准确性,能够很好的将邮件区分开来,但是在分类前期的训练阶段却会大量耗用系统和网络资源,严重影响分类效率.为此引入spark平台.以并行的思想去解决邮件分类问题,利用spark计算平台RDD的血缘关系合理的安排NB邮件分类的各个过程.实验结果表明,与其他传统的分类方法对比而言,朴素贝叶斯在精确率,召回率等方面具有很好的效果,并且与传统单机下的邮件分类,本次实验因引入分布式的思想,利用spark集群的优势大大加快了分类的速率. 展开更多
关键词 垃圾邮件 朴素贝叶斯 spark计算平台 分布式
下载PDF
采用SVM方法的文本情感极性分类研究 被引量:12
5
作者 陈培文 傅秀芬 《广东工业大学学报》 CAS 2014年第3期95-101,共7页
文本情感极性分类是文本情感分析首先要解决的关键问题.在分析影响文本情感分类的各类因素的基础上,首先构建了情感词典,并进行情感特征选取以及情感特征加权,然后使用SVM分类的方法对文本进行情感识别及分类,最后在语料数据集的基础上... 文本情感极性分类是文本情感分析首先要解决的关键问题.在分析影响文本情感分类的各类因素的基础上,首先构建了情感词典,并进行情感特征选取以及情感特征加权,然后使用SVM分类的方法对文本进行情感识别及分类,最后在语料数据集的基础上,在单机平台上和Spark分布式计算平台上执行分类模型,对比分析其分类精度和时间代价.实验结果验证了本文构建的情感极性分类模型在单机和分布式云平台上中的有效性. 展开更多
关键词 情感分类 支持向量机 spark分布式计算平台
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部