针对传统的分簇算法在解决超大规模数据集的分簇问题上不具有高效的时间和空间复杂度且易于陷入局部最优的问题,提出了改进型灰狼分簇算法(Improved Gray Wolf Clustering Algorithm,IGWCA),将灰狼行为规则与灰狼狩猎策略相融合,同时引...针对传统的分簇算法在解决超大规模数据集的分簇问题上不具有高效的时间和空间复杂度且易于陷入局部最优的问题,提出了改进型灰狼分簇算法(Improved Gray Wolf Clustering Algorithm,IGWCA),将灰狼行为规则与灰狼狩猎策略相融合,同时引入狄利克雷分布(Dirichlet Distribution)实现先验,在基准数据集上完成IGWCA与其他分簇算法的对比分析。实验结果表明IGWCA不仅具有较强的探索和开发能力,还具有较小的分散度。使用Hadoop框架的MapReduce模型实现IGWCA的并行化(IGWCA on MapReduce,IGWCA-MR),通过F-Measure和平均运行时间验证IGWCA-MR的分簇质量,并在真实数据集上验证了IGWCA-MR的运行时间和加速性能。实验结果证明,IGWCA-MR可以有效解决超大规模数据集的分簇问题,是一种高效的替代算法。展开更多
文摘针对传统的分簇算法在解决超大规模数据集的分簇问题上不具有高效的时间和空间复杂度且易于陷入局部最优的问题,提出了改进型灰狼分簇算法(Improved Gray Wolf Clustering Algorithm,IGWCA),将灰狼行为规则与灰狼狩猎策略相融合,同时引入狄利克雷分布(Dirichlet Distribution)实现先验,在基准数据集上完成IGWCA与其他分簇算法的对比分析。实验结果表明IGWCA不仅具有较强的探索和开发能力,还具有较小的分散度。使用Hadoop框架的MapReduce模型实现IGWCA的并行化(IGWCA on MapReduce,IGWCA-MR),通过F-Measure和平均运行时间验证IGWCA-MR的分簇质量,并在真实数据集上验证了IGWCA-MR的运行时间和加速性能。实验结果证明,IGWCA-MR可以有效解决超大规模数据集的分簇问题,是一种高效的替代算法。