期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于改进预测强度的大数据K-均值聚类方法 被引量:1
1
作者 蔡洪山 许峰 《软件导刊》 2016年第5期4-6,共3页
为了降低偶然因素的影响,提出了一种基于改进预测强度的大数据K-均值聚类方法,其基本思想是:首先将数据集若干等分,每一等分轮流作为测试集,取其平均预测强度,然后根据预测强度确定聚类数和聚类变量,再用K-均值聚类方法对数据集进行聚... 为了降低偶然因素的影响,提出了一种基于改进预测强度的大数据K-均值聚类方法,其基本思想是:首先将数据集若干等分,每一等分轮流作为测试集,取其平均预测强度,然后根据预测强度确定聚类数和聚类变量,再用K-均值聚类方法对数据集进行聚类。用上述方法研究了访客在某网站各栏目的平均停留时间,结果表明,基于预测强度的聚类方法较常规聚类方法更适宜于大数据的聚类分析。 展开更多
关键词 大数据 K-均值聚类 预测强度 网站栏目关注度
下载PDF
基于Spark的Kmeans并行算法研究 被引量:2
2
作者 蔡洪山 《电脑知识与技术》 2016年第2期74-75,78,共3页
随着处理数据规模的迅速增长,对算法的执行速度要求越来越高。Kmean是聚类分析分析中的一个经典算法,虽然其已在Hadoop平台上有并行化实现,但Hadoop的计算模型并不适合像Kmeans这种迭代计算。Spark被看作下一代大数据并行处理框架,非常... 随着处理数据规模的迅速增长,对算法的执行速度要求越来越高。Kmean是聚类分析分析中的一个经典算法,虽然其已在Hadoop平台上有并行化实现,但Hadoop的计算模型并不适合像Kmeans这种迭代计算。Spark被看作下一代大数据并行处理框架,非常适合进行迭代计算。该文论述了Kmeans算法在Spark平台上的并行原理,给出了实现方法,并通过实验证明该实现能够快速完成在大数据集上的聚类。 展开更多
关键词 Kmeans 并行化 SPARK 大数据 聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部