摘要
聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类主要有层次聚类和非层次聚类两种方法。前者包括合并法、分解法、树状图;而后者主要包括划分聚类、谱聚类。下面重点介绍一下非层次聚类算法中的K-means算法。其执行过程包括初始化和循环:初始化是指选择(或人为指定)某些记录作为凝聚点;而循环步骤主要有:(1)按就近原则将其余记录向凝聚点凝集。(2)计算出各个初始分类的中心位置。(3)用计算出的中心位置重新进行聚类。(4)如此反复循环,直到凝聚点位置收敛为止。这种算法主要特点是:通常要求已知类别数;可人为指定初始位置;节省运算时间;样本量大于100时有必要考虑以及只能使用连续性变量。
出处
《电子世界》
2014年第11期190-190,共1页
Electronics World