-
题名混合属性数据流的二重k近邻聚类算法
被引量:8
- 1
-
-
作者
黄德才
沈仙桥
陆亿红
-
机构
浙江工业大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2013年第10期226-230,共5页
-
基金
农村水电效益分析与增效关键技术研究与示范
水利部公益性行业科研专项(201001031)资助
-
文摘
现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法。该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想。算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化。实验结果表明,所提出的算法具有良好的聚类质量及可扩展性。
-
关键词
数据流
混合属性
聚类
二重k近邻
-
Keywords
Data stream, Heterogeneous, Clustering, Double k-nearest neighbors
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-