经典DBSCAN(density based spatial clustering of applications with noise)算法需要人工指定邻域半径(Eps)和点数阈值(Minpts),且均为全局参数,导致聚类准确率低。针对此问题,为了提高经典DBSCAN聚类算法的聚类准确率,基于网格划分思...经典DBSCAN(density based spatial clustering of applications with noise)算法需要人工指定邻域半径(Eps)和点数阈值(Minpts),且均为全局参数,导致聚类准确率低。针对此问题,为了提高经典DBSCAN聚类算法的聚类准确率,基于网格划分思想,提出了一种局部自适应DBSCAN聚类算法。根据数据集自身特征生成网格空间,将特征数据映射至相应的网格空间;利用高斯核函数估计每个网格区间的局部密度;联合多维度网格密度分布信息,寻找无连接或弱连接高密度网格之间的区域,同时统计同区域的波峰数量,从而自适应确定各区域的Eps及Minpts参数;使用每个区域独有的参数作为DBSCAN算法输入,并进行聚类。实验结果表明,该算法能够在聚类过程中自适应确定每个局部区域的Eps和Minpts参数,聚类准确率高且耗时较低。展开更多
DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark...DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark Density Division Kernel Density Estimation Boundary Stategy-Density-based Spatial Clustering of Applications with Noise)改进算法,设计Spark缓存机制结合不规则动态分区和边界合并以及核密度估计并行化。实验表明,改进算法一般适用不同形状类簇和较大规模数据聚类,在准确率和计算速率上有一定提升。展开更多
为了探究昆明市中心城区服务业的空间分布特点,从高德地图开放平台中获取昆明市中心城区的兴趣点(point of interest,POI)数据,通过删除重复兴趣点、删除缺失的属性点对数据进行清理;以服务业兴趣点的密度为研究对象,采用核密度分析法...为了探究昆明市中心城区服务业的空间分布特点,从高德地图开放平台中获取昆明市中心城区的兴趣点(point of interest,POI)数据,通过删除重复兴趣点、删除缺失的属性点对数据进行清理;以服务业兴趣点的密度为研究对象,采用核密度分析法确定了不同服务业的聚集中心,利用平均最邻近指数确定了研究区域内14类兴趣点在空间中均存在“聚集”的空间分布特征;采用KANN-DBSCAN聚类算法对研究区域内的服务业兴趣点进行聚类,并使用街道面积归一化得到每一类兴趣点在街道上的密度。结果表明:研究区内的服务业空间分布形成“一核多中心”的空间分布特征,城市服务设施呈“Y”型放射状发展;呈贡新区的教育职能突出,吸引了服务业设施的聚集;老城市中心服务职能复杂多样,其特征主要体现在商业设施及其周边配套形成的核心聚集和专业市场形成的多个中心的聚集;不同服务设施间的聚集程度存在较大差异。最后,结合分析结果为昆明市中心城区的服务设施的发展提出3点建议,可对昆明市中心城区服务业的发展提供一定参考。展开更多
文摘经典DBSCAN(density based spatial clustering of applications with noise)算法需要人工指定邻域半径(Eps)和点数阈值(Minpts),且均为全局参数,导致聚类准确率低。针对此问题,为了提高经典DBSCAN聚类算法的聚类准确率,基于网格划分思想,提出了一种局部自适应DBSCAN聚类算法。根据数据集自身特征生成网格空间,将特征数据映射至相应的网格空间;利用高斯核函数估计每个网格区间的局部密度;联合多维度网格密度分布信息,寻找无连接或弱连接高密度网格之间的区域,同时统计同区域的波峰数量,从而自适应确定各区域的Eps及Minpts参数;使用每个区域独有的参数作为DBSCAN算法输入,并进行聚类。实验结果表明,该算法能够在聚类过程中自适应确定每个局部区域的Eps和Minpts参数,聚类准确率高且耗时较低。
文摘DBSCAN算法是基于密度的聚类算法,可在有噪声点的数据集中发现任意形状类簇,得到广泛应用。但其存在大规模磁盘I/O导致计算速度慢,密度不均匀类簇和人工干预确定阈值导致聚类偏差等缺陷,基于此提出Spark内存迭代并行化SDKB-DBSCAN(Spark Density Division Kernel Density Estimation Boundary Stategy-Density-based Spatial Clustering of Applications with Noise)改进算法,设计Spark缓存机制结合不规则动态分区和边界合并以及核密度估计并行化。实验表明,改进算法一般适用不同形状类簇和较大规模数据聚类,在准确率和计算速率上有一定提升。
文摘为了探究昆明市中心城区服务业的空间分布特点,从高德地图开放平台中获取昆明市中心城区的兴趣点(point of interest,POI)数据,通过删除重复兴趣点、删除缺失的属性点对数据进行清理;以服务业兴趣点的密度为研究对象,采用核密度分析法确定了不同服务业的聚集中心,利用平均最邻近指数确定了研究区域内14类兴趣点在空间中均存在“聚集”的空间分布特征;采用KANN-DBSCAN聚类算法对研究区域内的服务业兴趣点进行聚类,并使用街道面积归一化得到每一类兴趣点在街道上的密度。结果表明:研究区内的服务业空间分布形成“一核多中心”的空间分布特征,城市服务设施呈“Y”型放射状发展;呈贡新区的教育职能突出,吸引了服务业设施的聚集;老城市中心服务职能复杂多样,其特征主要体现在商业设施及其周边配套形成的核心聚集和专业市场形成的多个中心的聚集;不同服务设施间的聚集程度存在较大差异。最后,结合分析结果为昆明市中心城区的服务设施的发展提出3点建议,可对昆明市中心城区服务业的发展提供一定参考。