变密度高维数据局部间隙密度聚类(Local Gap Density for Clustering High Dimensional Data with Varying Densities,LGD)算法是密度聚类中的一种改进方法,该算法在分配时选取代表点,并以链的形式进行分配,所以会形成“链式错误”.针...变密度高维数据局部间隙密度聚类(Local Gap Density for Clustering High Dimensional Data with Varying Densities,LGD)算法是密度聚类中的一种改进方法,该算法在分配时选取代表点,并以链的形式进行分配,所以会形成“链式错误”.针对上述问题,提出一种加权最近邻分配的局部间隙密度聚类(Weighted Nearest Neighbor Distribution of Local Gap Density Clustering,WKNN-LGD)算法,采用类似半监督学习的方法,利用得到的聚类信息,把未分配的点分配给最可能的簇.该算法充分考虑数据间的结构关联性,并在传播的过程中不断更新数据的状态,利用更充分的信息提高分配正确率.WKNN-LGD算法主要有三个步骤:首先,计算局部间隙密度,并根据阈值区分核心点和边界点;然后,删除交叉边,并根据最大顶点基数形成簇骨干;最后,利用加权K近邻分配方法,将剩余点分配到形成的簇骨干中,形成最终簇.在人工数据集和真实数据集上,和目前主流的聚类算法进行比较验证,实验结果表明,WKNN-LGD算法在性能和鲁棒性方面表现优越,并可以处理流形和非线性等复杂数据.展开更多
基金supported by National Natural Science Foundation of China(No.61806006)Jiangsu University Superior Discipline Construction ProjectTalent Introduction Project(No.B12018)。
文摘变密度高维数据局部间隙密度聚类(Local Gap Density for Clustering High Dimensional Data with Varying Densities,LGD)算法是密度聚类中的一种改进方法,该算法在分配时选取代表点,并以链的形式进行分配,所以会形成“链式错误”.针对上述问题,提出一种加权最近邻分配的局部间隙密度聚类(Weighted Nearest Neighbor Distribution of Local Gap Density Clustering,WKNN-LGD)算法,采用类似半监督学习的方法,利用得到的聚类信息,把未分配的点分配给最可能的簇.该算法充分考虑数据间的结构关联性,并在传播的过程中不断更新数据的状态,利用更充分的信息提高分配正确率.WKNN-LGD算法主要有三个步骤:首先,计算局部间隙密度,并根据阈值区分核心点和边界点;然后,删除交叉边,并根据最大顶点基数形成簇骨干;最后,利用加权K近邻分配方法,将剩余点分配到形成的簇骨干中,形成最终簇.在人工数据集和真实数据集上,和目前主流的聚类算法进行比较验证,实验结果表明,WKNN-LGD算法在性能和鲁棒性方面表现优越,并可以处理流形和非线性等复杂数据.