摘要
距离与差异性度量是聚类分析中的基本概念,是许多聚类算法的核心内容。在经典的聚类分析中,度量差异性的指标是距离的简单函数。该文针对混合属性数据集,提出两种距离定义,将差异性度量推广成为距离、类大小等因素的多元函数,使得原来只适用于数值属性或分类属性数据的聚类算法可用于混合属性数据。实验结果表明新的距离定义和差异性度量方法可提高聚类的质量。
The distance and dissimilarity are basic concepts in clustering analysis.In classical clustering analysis,the dissimilarity is only simple function of distance.This paper propose s two distance definitions for attribute-mixed dataset,and generalizes dissimilarity to multi-function of distance and cluster size,the new distance and dissimilarity definitions make existed clustering algorithms for numerical attribute or categorical attribute can be used to attribute-mixed dataset.The experimental results show that the new distance and dissimilarity definitions can improve clustering quality.
出处
《计算机工程与应用》
CSCD
北大核心
2005年第11期146-149,共4页
Computer Engineering and Applications
基金
国家自然科学基金项目(编号:60273075)
关键词
距离
差异性
聚类
distance,dissimilarity,clustering