-
题名基于改进预测强度的大数据K-均值聚类方法
被引量:1
- 1
-
-
作者
蔡洪山
许峰
-
机构
安徽理工大学计算机学院
安徽理工大学理学院
-
出处
《软件导刊》
2016年第5期4-6,共3页
-
基金
安徽省教育厅自然科学基金项目(2014KB236)
-
文摘
为了降低偶然因素的影响,提出了一种基于改进预测强度的大数据K-均值聚类方法,其基本思想是:首先将数据集若干等分,每一等分轮流作为测试集,取其平均预测强度,然后根据预测强度确定聚类数和聚类变量,再用K-均值聚类方法对数据集进行聚类。用上述方法研究了访客在某网站各栏目的平均停留时间,结果表明,基于预测强度的聚类方法较常规聚类方法更适宜于大数据的聚类分析。
-
关键词
大数据
K-均值聚类
预测强度
网站栏目关注度
-
Keywords
Big Data
K-Means Clustering
Prediction Strength
Website Column Access Analysis
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名基于Spark的Kmeans并行算法研究
被引量:2
- 2
-
-
作者
蔡洪山
-
机构
安徽理工大学计算机科学与工程学院
-
出处
《电脑知识与技术》
2016年第2期74-75,78,共3页
-
文摘
随着处理数据规模的迅速增长,对算法的执行速度要求越来越高。Kmean是聚类分析分析中的一个经典算法,虽然其已在Hadoop平台上有并行化实现,但Hadoop的计算模型并不适合像Kmeans这种迭代计算。Spark被看作下一代大数据并行处理框架,非常适合进行迭代计算。该文论述了Kmeans算法在Spark平台上的并行原理,给出了实现方法,并通过实验证明该实现能够快速完成在大数据集上的聚类。
-
关键词
Kmeans
并行化
SPARK
大数据
聚类
-
Keywords
KmeanS algorithm
parallelization
big data
spark
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-