高维数据具有稀疏性与易受维度灾难影响的特点,这使高维数据聚类的精度与的效率一直难以得到保证,因此采用子空间聚类的方式减小稀疏性与维度灾难对聚类结果的影响。首先采用随机抽样的方式从高维数据中挑选出适合聚类的维度生成子空间...高维数据具有稀疏性与易受维度灾难影响的特点,这使高维数据聚类的精度与的效率一直难以得到保证,因此采用子空间聚类的方式减小稀疏性与维度灾难对聚类结果的影响。首先采用随机抽样的方式从高维数据中挑选出适合聚类的维度生成子空间,并结合hoeffding界保证抽样结果的有效性。其次利用网格的邻接性,在子空间内生成混合网格,即可以保证数据的完整性也可以提高子空间密度。最后根据子空间的相似度与相异度,对维度剪枝,再次提高子空间密度。算法在加州大学欧文分校数据集(University of California-Irvine,UCI)上能够取得较好的结果,而且算法在的伸缩性以及抗噪声能力上有较好的表现。展开更多
文摘高维数据具有稀疏性与易受维度灾难影响的特点,这使高维数据聚类的精度与的效率一直难以得到保证,因此采用子空间聚类的方式减小稀疏性与维度灾难对聚类结果的影响。首先采用随机抽样的方式从高维数据中挑选出适合聚类的维度生成子空间,并结合hoeffding界保证抽样结果的有效性。其次利用网格的邻接性,在子空间内生成混合网格,即可以保证数据的完整性也可以提高子空间密度。最后根据子空间的相似度与相异度,对维度剪枝,再次提高子空间密度。算法在加州大学欧文分校数据集(University of California-Irvine,UCI)上能够取得较好的结果,而且算法在的伸缩性以及抗噪声能力上有较好的表现。