期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
DBSCAN算法研究及并行化实现 被引量:21
1
作者 宋董飞 徐华 《计算机工程与应用》 CSCD 北大核心 2018年第24期52-56,122,共6页
DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于S... DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。 展开更多
关键词 大数据 DBSCAN算法 APACHE SPARK 分布式计算
下载PDF
基于Spark的K-means改进算法的并行化实现 被引量:3
2
作者 宋董飞 徐华 《计算机系统应用》 2018年第4期151-156,共6页
针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDkmeans(Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统Kmeans算法因初始点的不确定性,易陷入... 针对传统K-means算法在处理海量数据时,存在计算复杂度高和计算能力不足等问题,提出了SKDkmeans(Spark based kd-tree K-means)并行聚类算法.该算法通过引入kd-tree改善初始中心点的选择,克服传统Kmeans算法因初始点的不确定性,易陷入局部最优解的问题,同时利用kd-tree的最近邻搜索减少K-means在迭代中的距离计算,加快聚类速度,并在Spark平台上实现了该算法的并行化,使其适用于海量数据聚类,最后通过实验验证了算法具有良好的准确率和并行计算性能. 展开更多
关键词 KD-TREE SPARK K-MEANS 并行化 云计算
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部