在当今信息爆炸的大数据时代,不完全数据是数据聚类分析中一个普遍存在的问题.然而,传统模糊C均值(fuzzy c means,FCM)算法的很多缺点,如易陷入局部最优,缺乏对特征信息的充分考虑等,当出现信息缺失尤其是面对稀疏数据时,都将严重影响...在当今信息爆炸的大数据时代,不完全数据是数据聚类分析中一个普遍存在的问题.然而,传统模糊C均值(fuzzy c means,FCM)算法的很多缺点,如易陷入局部最优,缺乏对特征信息的充分考虑等,当出现信息缺失尤其是面对稀疏数据时,都将严重影响聚类结果.为了解决该问题,本文提出一种基于多重信息的不完全数据的FCM算法.该算法首先引入部分距离策略,给出了不完全数据的簇内距离平方和计算公式;其次,充分利用动态特征权重和簇间距离信息,有效地提高该算法的准确性;再者,运用粒子群优化算法进行聚类,借助其强大的全局寻优能力解决传统FCM算法对初始聚类中心敏感和容易陷入局部最优的缺陷;最后,通过不同缺失率UCI公共数据集的对比实验,验证了本文提出算法在不完全数据的聚类研究中不仅能避免陷入局部最优还能有效提高聚类准确性.展开更多
文摘在当今信息爆炸的大数据时代,不完全数据是数据聚类分析中一个普遍存在的问题.然而,传统模糊C均值(fuzzy c means,FCM)算法的很多缺点,如易陷入局部最优,缺乏对特征信息的充分考虑等,当出现信息缺失尤其是面对稀疏数据时,都将严重影响聚类结果.为了解决该问题,本文提出一种基于多重信息的不完全数据的FCM算法.该算法首先引入部分距离策略,给出了不完全数据的簇内距离平方和计算公式;其次,充分利用动态特征权重和簇间距离信息,有效地提高该算法的准确性;再者,运用粒子群优化算法进行聚类,借助其强大的全局寻优能力解决传统FCM算法对初始聚类中心敏感和容易陷入局部最优的缺陷;最后,通过不同缺失率UCI公共数据集的对比实验,验证了本文提出算法在不完全数据的聚类研究中不仅能避免陷入局部最优还能有效提高聚类准确性.