摘要
k-modes是一种代表性的分类数据的聚类算法。首先对k-modes聚类算法的实现过程进行了改进:通过在分配数据对象到簇时更新这个簇中各个属性项的次数,使得在遍历一次全部数据对象就能计算出新的簇中心。为了使k-modes能够处理大规模分类数据,在Hadoop平台上用MapReduce并行计算模型实现了k-modes算法。实验表明:在处理大量数据时,并行k-modes比串行k-modes极大地缩短了聚类时间,取得了较好的加速比。
K-modes is a representative categorical attribute oriented clustering algorithm.First,improve the implement process of k-modes: when allocating categorical objects to clusters,update the number of items of each attribute in clusters.so that can compute the new modes of clusters after read the whole dataset once.In order to make k-modes capable for large-scale categorical data,implement k-modes on Hadoop using MapReduce parallel computing model.Experiments show that,parallel k-modes achieve good speedup when dealing with large-scale categorical data.
出处
《智能计算机与应用》
2015年第1期43-45,共3页
Intelligent Computer and Applications
基金
国家自然科学基金(61103046)
上海市自然科学基金(11ZR1401200)