具有噪声的基于密度的聚类方法(Density-based spatial clustering of applications with noise,DBSCAN)在数据规模上的扩展性较差。本文在其基础上提出一种改进算法——具有噪声的基于密度的快速聚类方法(Fast-density-based spatial c...具有噪声的基于密度的聚类方法(Density-based spatial clustering of applications with noise,DBSCAN)在数据规模上的扩展性较差。本文在其基础上提出一种改进算法——具有噪声的基于密度的快速聚类方法(Fast-density-based spatial clustering of applications with noise,F-DBSCAN),对核心对象邻域中的对象只作标记,不再进行扩展检查,通过判断核心对象邻域中是否存在已标记对象来实现簇合并,对边界对象判断其邻域中是否存在核心对象来确认是否为噪声。此方法避免了原始算法中对重叠区域的重复操作,在不需创建空间索引的前提下,其时间复杂度为O(nlogn)。通过实验数据集和真实数据集,验证其聚类效果及算法效率。实验表明F-DBSCAN算法不仅保证了有良好的聚类效果及算法效率,并且在数据规模上具有良好的扩展性。展开更多
文摘具有噪声的基于密度的聚类方法(Density-based spatial clustering of applications with noise,DBSCAN)在数据规模上的扩展性较差。本文在其基础上提出一种改进算法——具有噪声的基于密度的快速聚类方法(Fast-density-based spatial clustering of applications with noise,F-DBSCAN),对核心对象邻域中的对象只作标记,不再进行扩展检查,通过判断核心对象邻域中是否存在已标记对象来实现簇合并,对边界对象判断其邻域中是否存在核心对象来确认是否为噪声。此方法避免了原始算法中对重叠区域的重复操作,在不需创建空间索引的前提下,其时间复杂度为O(nlogn)。通过实验数据集和真实数据集,验证其聚类效果及算法效率。实验表明F-DBSCAN算法不仅保证了有良好的聚类效果及算法效率,并且在数据规模上具有良好的扩展性。