传统的密度聚类算法在聚类划分时不会考虑数据点间的属性差异,它将所有数据点都看成同质化的点。对此,在DBSCAN算法的基础上,提出了一种动态邻域密度聚类算法DN-DBSCAN(Dynamic Neighborhood-Density Based Spatial Clustering of Appli...传统的密度聚类算法在聚类划分时不会考虑数据点间的属性差异,它将所有数据点都看成同质化的点。对此,在DBSCAN算法的基础上,提出了一种动态邻域密度聚类算法DN-DBSCAN(Dynamic Neighborhood-Density Based Spatial Clustering of Applications with Noise)。该算法在聚类时由样本点的属性决定其自身的邻域半径,因此各点的邻域半径是动态变化的,由此可将具有不同属性的点对集群产生的不一样的影响力体现在聚类结果之中,使密度聚类算法更具有现实意义。在算例分析的基础上,针对长三角城市群划分问题应用所提DN-DBSCAN算法进行分析求解,并对比分析DBSCAN算法、OPTICS算法和DPC算法的求解效果。结果显示,DN-DBSCAN算法能根据各城市属性的不同合理地划分出长三角城市群,准确率为95%,准确率分别高于上述3种对比算法85%,85%,88%,说明其具有更好的解决实际问题的能力。展开更多
流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针...流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation,ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。展开更多
采用改进的点格局分析法——邻域密度函数(Neighborhood Density Function,NDF)对太白山地区桦林-冷杉林交错区内主要树种的空间分布格局、种间空间关联性及其更新空间关联性进行了分析。结果表明:各树种所有个体整体上都呈随机分布,划...采用改进的点格局分析法——邻域密度函数(Neighborhood Density Function,NDF)对太白山地区桦林-冷杉林交错区内主要树种的空间分布格局、种间空间关联性及其更新空间关联性进行了分析。结果表明:各树种所有个体整体上都呈随机分布,划分不同层级后,则各林层个体分布格局各异,各树种在较低的林层呈明显聚集分布,随林层增高,中、高层内个体聚集分布的空间尺度降低。两个主要竞争种牛皮桦(Betula albo-sinensisvar.septen-trionalis)和巴山冷杉(Abies fargesii)整体表现出显著空间负相关,巴山冷杉与玉皇柳(Salix yuhuangshanensis)未表现出明显相关性,而牛皮桦与玉皇柳间则有空间负相关的趋势。牛皮桦的更新格局仅依靠自身倒木扰动产生的机会,且被限定在较小尺度上。巴山冷杉在小尺度上会限制自身更新,此外与牛皮桦在小尺度上竞争激烈,可占据利用其空间位置进行更新。从空间格局分析角度认识牛皮桦和巴山冷杉的生态学特性,为进一步研究其共存机制,认识太白山桦林在秦岭植被垂直带中的作用和地位提供参考依据。展开更多
由于传统离群点检测方法未对离群点进行判定,从而导致出现了检测速度慢、检测误差大的问题,为此提出一种海量不确定数据集中离群点快速检测的方法。优先判定出不确定数据集中的离群点,利用点排序识别聚类结构(Ordering points to identi...由于传统离群点检测方法未对离群点进行判定,从而导致出现了检测速度慢、检测误差大的问题,为此提出一种海量不确定数据集中离群点快速检测的方法。优先判定出不确定数据集中的离群点,利用点排序识别聚类结构(Ordering points to identify the clustering structure)算法完成,确定待检测离群点所需参数,计算出离群点的离群属性,根据离群属性计算结果,引入邻域密度构建离群点快速检测模型,设定模型中离群点检测阈值,实现不确定数据集中离群点的快速检测。由仿真结果得出,与传统检测方法相比,提出的方法算法运行耗时降低了50%以上,离群点的判定准确度更高,漏检、误检率大大降低,实现了离群点精度高、速度快的检测,对数据挖掘与预处理有显著的实践意义。展开更多
文摘传统的密度聚类算法在聚类划分时不会考虑数据点间的属性差异,它将所有数据点都看成同质化的点。对此,在DBSCAN算法的基础上,提出了一种动态邻域密度聚类算法DN-DBSCAN(Dynamic Neighborhood-Density Based Spatial Clustering of Applications with Noise)。该算法在聚类时由样本点的属性决定其自身的邻域半径,因此各点的邻域半径是动态变化的,由此可将具有不同属性的点对集群产生的不一样的影响力体现在聚类结果之中,使密度聚类算法更具有现实意义。在算例分析的基础上,针对长三角城市群划分问题应用所提DN-DBSCAN算法进行分析求解,并对比分析DBSCAN算法、OPTICS算法和DPC算法的求解效果。结果显示,DN-DBSCAN算法能根据各城市属性的不同合理地划分出长三角城市群,准确率为95%,准确率分别高于上述3种对比算法85%,85%,88%,说明其具有更好的解决实际问题的能力。
文摘流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation,ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。
文摘由于传统离群点检测方法未对离群点进行判定,从而导致出现了检测速度慢、检测误差大的问题,为此提出一种海量不确定数据集中离群点快速检测的方法。优先判定出不确定数据集中的离群点,利用点排序识别聚类结构(Ordering points to identify the clustering structure)算法完成,确定待检测离群点所需参数,计算出离群点的离群属性,根据离群属性计算结果,引入邻域密度构建离群点快速检测模型,设定模型中离群点检测阈值,实现不确定数据集中离群点的快速检测。由仿真结果得出,与传统检测方法相比,提出的方法算法运行耗时降低了50%以上,离群点的判定准确度更高,漏检、误检率大大降低,实现了离群点精度高、速度快的检测,对数据挖掘与预处理有显著的实践意义。