为提升时间序列的聚类精度,提出一种融合优化可调Q因子小波变换的改进密度峰值聚类(improved density peaks clustering based on optimal tunable Q-factor wavelet transform,OTQWT-IDPC)算法,该算法利用可调Q因子小波变换的能量优化...为提升时间序列的聚类精度,提出一种融合优化可调Q因子小波变换的改进密度峰值聚类(improved density peaks clustering based on optimal tunable Q-factor wavelet transform,OTQWT-IDPC)算法,该算法利用可调Q因子小波变换的能量优化选择策略及改进粒子群优化算法确定的最佳Q因子分解时序信号,通过最优特征子带的能量、均值、标准差和模糊熵构建特征子空间,并采用主成分分析降低特征维度,以减少特征冗余。同时,考虑到距离较远而周围密集程度较大的K近邻样本对局部密度的贡献率,引入权重系数及K近邻重新定义DPC的局部密度,并利用共享最近邻描述样本间的相似性。在BONN癫痫脑电信号和CWRU滚动轴承数据集上进行对比实验,结果表明,该算法的聚类精度分别为95%、94%,且Jacarrd、FMI和F_(1)值指标均优于其他对比算法,证明了OTQWT-IDPC算法的有效性。展开更多
针对密度峰值聚类算法(clustering by fast search and find of density peaks,DPC)聚类无特定形状的实际数据集时聚类精度欠佳的问题,提出一种最优化密度估计的密度峰聚值类算法。使用最优Oracle逼近(Oracle approximating shrinkage,...针对密度峰值聚类算法(clustering by fast search and find of density peaks,DPC)聚类无特定形状的实际数据集时聚类精度欠佳的问题,提出一种最优化密度估计的密度峰聚值类算法。使用最优Oracle逼近(Oracle approximating shrinkage,AS)计算出最优协方差矩阵,利用最优协方差矩阵构造马氏距离,通过最优协方差矩阵提高DPC对数据相似度的区分能力,在此基础上结合K近邻算法,实现数据样本密度最优估计,利用最优密度估计提高DPC对实际数据集的聚类精度。在人工数据集和UCI真实数据集上进行仿真实验,实验结果表明,改进DPC算法的思路是可行的。展开更多
密度峰值聚类算法(density peaks clustering algorithm,DPC)是2014年提出的一种新型聚类分析算法,它基于聚类中心局部密度大以及与密度更大点之间的距离较远两大特点绘制决策图寻找聚类中心,从而得到任意形状的簇.但在寻找聚类中心的...密度峰值聚类算法(density peaks clustering algorithm,DPC)是2014年提出的一种新型聚类分析算法,它基于聚类中心局部密度大以及与密度更大点之间的距离较远两大特点绘制决策图寻找聚类中心,从而得到任意形状的簇.但在寻找聚类中心的过程中,求解局部密度以及高密度距离属性都依赖于相似度矩阵的计算,计算复杂度较高,限制了密度峰值聚类算法在大规模数据集中的应用.针对此不足,提出基于网格筛选的密度峰值聚类算法(density peaks clustering algorithm based on grid screening,SDPC),根据数据的不均匀分布,使用网格化方法去除部分密度稀疏的点,然后再使用密度峰值聚类算法中决策图的方法选取聚类中心,可以在保证聚类准确性的基础上有效降低计算复杂度.理论分析和实验测试表明:基于网格筛选的密度峰值聚类算法不仅可以对大规模数据集进行正确的聚类,还极大地降低了计算复杂度.展开更多
不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique base...不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering,DPCOTE)。DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm,DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题。最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法。展开更多
针对密度峰值聚类算法(Density Peaks Clustering Algorithm, DPC)用传统距离度量方式不能很好地反映数据分布,人为选取截断距离参数主观性较强等问题,设计了一种基于麻雀搜索算法改进的密度峰值聚类算法(Improved Density Peak Cluster...针对密度峰值聚类算法(Density Peaks Clustering Algorithm, DPC)用传统距离度量方式不能很好地反映数据分布,人为选取截断距离参数主观性较强等问题,设计了一种基于麻雀搜索算法改进的密度峰值聚类算法(Improved Density Peak Clustering Algorithm Based on Sparrow Search Algorithm, SSA-DPC)。该算法从两个方面进行改进:改变数据间的距离度量方式,用标准欧氏距离替代原算法中的欧氏距离;利用麻雀搜索算法(Sparrow Search Algorithm, SSA)较强的全局寻优能力,搜寻最佳截断距离值。通过对7个数据集进行仿真测试,证明SSA-DPC算法在3个评价指标上均优于其他聚类算法,提升了聚类性能,说明了算法的有效性。展开更多
针对人工经验设定密度峰值的聚类算法(clustering by fast search and find of density peaks, DPC)的截断距离dc有很大的主观性和随机性,进而导致密度峰值聚类算法的性能无法完全发挥的问题。提出贝叶斯算法(Bayesian Optimization,BO...针对人工经验设定密度峰值的聚类算法(clustering by fast search and find of density peaks, DPC)的截断距离dc有很大的主观性和随机性,进而导致密度峰值聚类算法的性能无法完全发挥的问题。提出贝叶斯算法(Bayesian Optimization,BO)优化密度峰值的聚类算法以实现自适应聚类。并解决密度峰值的聚类算法簇间数据点识别错误问题。该方法建立在数据集Aggregation、Flame、Jain、Spiral上进行实验,分别通过内部指标Silhouette和外部指标F-measure对实验结果评估,性能均有提升。展开更多
太阳活动区是太阳大气中产生各种活动现象的区域,精确地检测和识别太阳活动区对理解太阳磁场的形成机制具有极为重要的科学意义.根据太阳活动区结构较为复杂的特点,基于尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)和密...太阳活动区是太阳大气中产生各种活动现象的区域,精确地检测和识别太阳活动区对理解太阳磁场的形成机制具有极为重要的科学意义.根据太阳活动区结构较为复杂的特点,基于尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)和密度峰值聚类(Clustering by Fast Search and Find of Density Peaks,DPC)算法的优越性,提出了一种太阳活动区的自动检测和识别方法.首先,对太阳动力学天文台(Solar Dynamics Observatory,SDO)日震和磁场成像仪(Helioseismic and Magnetic Imager,HMI)的纵向磁图进行对比度增强;然后采用SIFT方法提取出全日面磁图中的特征点;最后利用DPC算法将特征点进行聚类,从而自动检测和识别出太阳活动区.研究结果表明,SIFT和DPC算法相结合的方法可以在不需要人工交互的情况下准确地自动检测出太阳活动区.展开更多
文摘为提升时间序列的聚类精度,提出一种融合优化可调Q因子小波变换的改进密度峰值聚类(improved density peaks clustering based on optimal tunable Q-factor wavelet transform,OTQWT-IDPC)算法,该算法利用可调Q因子小波变换的能量优化选择策略及改进粒子群优化算法确定的最佳Q因子分解时序信号,通过最优特征子带的能量、均值、标准差和模糊熵构建特征子空间,并采用主成分分析降低特征维度,以减少特征冗余。同时,考虑到距离较远而周围密集程度较大的K近邻样本对局部密度的贡献率,引入权重系数及K近邻重新定义DPC的局部密度,并利用共享最近邻描述样本间的相似性。在BONN癫痫脑电信号和CWRU滚动轴承数据集上进行对比实验,结果表明,该算法的聚类精度分别为95%、94%,且Jacarrd、FMI和F_(1)值指标均优于其他对比算法,证明了OTQWT-IDPC算法的有效性。
文摘针对密度峰值聚类算法(clustering by fast search and find of density peaks,DPC)聚类无特定形状的实际数据集时聚类精度欠佳的问题,提出一种最优化密度估计的密度峰聚值类算法。使用最优Oracle逼近(Oracle approximating shrinkage,AS)计算出最优协方差矩阵,利用最优协方差矩阵构造马氏距离,通过最优协方差矩阵提高DPC对数据相似度的区分能力,在此基础上结合K近邻算法,实现数据样本密度最优估计,利用最优密度估计提高DPC对实际数据集的聚类精度。在人工数据集和UCI真实数据集上进行仿真实验,实验结果表明,改进DPC算法的思路是可行的。
文摘密度峰值聚类算法(density peaks clustering algorithm,DPC)是2014年提出的一种新型聚类分析算法,它基于聚类中心局部密度大以及与密度更大点之间的距离较远两大特点绘制决策图寻找聚类中心,从而得到任意形状的簇.但在寻找聚类中心的过程中,求解局部密度以及高密度距离属性都依赖于相似度矩阵的计算,计算复杂度较高,限制了密度峰值聚类算法在大规模数据集中的应用.针对此不足,提出基于网格筛选的密度峰值聚类算法(density peaks clustering algorithm based on grid screening,SDPC),根据数据的不均匀分布,使用网格化方法去除部分密度稀疏的点,然后再使用密度峰值聚类算法中决策图的方法选取聚类中心,可以在保证聚类准确性的基础上有效降低计算复杂度.理论分析和实验测试表明:基于网格筛选的密度峰值聚类算法不仅可以对大规模数据集进行正确的聚类,还极大地降低了计算复杂度.
文摘不平衡数据是监督学习中的一个挑战性问题。传统的分类器通常偏向多数类,忽略了少数类,而少数类样本往往包含很多重要信息,需要得到更多的关注。针对此问题,提出了一种基于密度峰值聚类算法的过采样技术(An Oversampling Technique based on Density Peak Clustering,DPCOTE)。DPCOTE的主要思想是:(1)利用k近邻算法去除多数类和少数类噪声样本;(2)基于密度峰值聚类算法(Density peaks clustering algorithm,DPC)中的2个重要因子,即样本局部密度和样本到局部密度较高的最近邻的距离,来为每个少数类样本分配采样权重;(3)对于DPC算法中涉及到的距离,使用马氏距离来度量,以消除样本特征量纲不一致问题。最后,在12个UCI数据集上进行了对比实验,用不同的指标评价分类结果,结果表明本文提出的算法在处理不平衡分类问题时优于其它过采样方法。
文摘针对密度峰值聚类算法(Density Peaks Clustering Algorithm, DPC)用传统距离度量方式不能很好地反映数据分布,人为选取截断距离参数主观性较强等问题,设计了一种基于麻雀搜索算法改进的密度峰值聚类算法(Improved Density Peak Clustering Algorithm Based on Sparrow Search Algorithm, SSA-DPC)。该算法从两个方面进行改进:改变数据间的距离度量方式,用标准欧氏距离替代原算法中的欧氏距离;利用麻雀搜索算法(Sparrow Search Algorithm, SSA)较强的全局寻优能力,搜寻最佳截断距离值。通过对7个数据集进行仿真测试,证明SSA-DPC算法在3个评价指标上均优于其他聚类算法,提升了聚类性能,说明了算法的有效性。
文摘针对人工经验设定密度峰值的聚类算法(clustering by fast search and find of density peaks, DPC)的截断距离dc有很大的主观性和随机性,进而导致密度峰值聚类算法的性能无法完全发挥的问题。提出贝叶斯算法(Bayesian Optimization,BO)优化密度峰值的聚类算法以实现自适应聚类。并解决密度峰值的聚类算法簇间数据点识别错误问题。该方法建立在数据集Aggregation、Flame、Jain、Spiral上进行实验,分别通过内部指标Silhouette和外部指标F-measure对实验结果评估,性能均有提升。
文摘太阳活动区是太阳大气中产生各种活动现象的区域,精确地检测和识别太阳活动区对理解太阳磁场的形成机制具有极为重要的科学意义.根据太阳活动区结构较为复杂的特点,基于尺度不变特征变换(Scale-Invariant Feature Transform,SIFT)和密度峰值聚类(Clustering by Fast Search and Find of Density Peaks,DPC)算法的优越性,提出了一种太阳活动区的自动检测和识别方法.首先,对太阳动力学天文台(Solar Dynamics Observatory,SDO)日震和磁场成像仪(Helioseismic and Magnetic Imager,HMI)的纵向磁图进行对比度增强;然后采用SIFT方法提取出全日面磁图中的特征点;最后利用DPC算法将特征点进行聚类,从而自动检测和识别出太阳活动区.研究结果表明,SIFT和DPC算法相结合的方法可以在不需要人工交互的情况下准确地自动检测出太阳活动区.