针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDkmeans(Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统Kmeans算法因初始点的不确定性,易陷入...针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDkmeans(Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统Kmeans算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能.展开更多
文摘针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDkmeans(Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统Kmeans算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能.