-
题名基于相似度均值的分类数据层次聚类分析算法
被引量:11
- 1
-
-
作者
褚轲欣
荀亚玲
-
机构
太原科技大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2022年第11期154-163,共10页
-
基金
国家自然科学基金项目(61602335)
山西省自然科学基金(201901D211302)。
-
文摘
层次聚类分析在数据挖掘与机器学习等领域是一种广泛使用的无监督学习技术,但是,由于层次聚类分析算法主要是依赖于人为设定的相似度阈值来实现聚类簇的合并或分裂,因此在没有任何先验知识时,难以设定相似度阈值。采用相似度均值以及边界数据对象分配策略,提出了一种基于相似度均值的分类数据层次聚类分析算法。该算法利用相似度均值刻画数据集中数据对象分布的集中趋势以及平稳相似性度量,作为层次聚类簇合并或分裂的重要依据,给出了一种相似度均值的计算公式,从而可以自动确定相似度阈值,解决了层次聚类分析中相似度阈值参数的人为设定问题;利用相似度均值,给出了一种边界数据对象的分配策略,有效提高了边界数据对象分配的准确性及聚类质量。在UCI与人工合成数据集上的实验验证了该算法具有良好的聚类性能和抗噪性,以及相似度均值的稳定性和有效性。
-
关键词
层次聚类
分类数据
相似度均值
平稳相似性度量
分配策略
-
Keywords
hierarchical clustering
categorical data
mean of similarity
steady similarity measure
allocation strategy
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-