-
题名三层流数据聚类框架与最优2k近邻聚类算法
被引量:1
- 1
-
-
作者
沈仙桥
黄德才
陆亿红
-
机构
浙江工业大学计算机科学与技术学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第11期2451-2455,共5页
-
基金
水利部公益性行业科研专项(201001031)资助
-
文摘
面向流数据的传统聚类算法主要有3个方面的不足,一是对流数据不断进入的动态环境不太适应;二是其微簇半径不能随流数据分布的密度变化进行相应的伸缩;三是其聚类阈值严重依赖人为摸索.针对这些不足和流数据环境普遍采用的两层聚类框架,提出了基于微簇优化的三层流数据聚类框架,并在此基础上提出了基于最优2k近邻的流数据聚类算法.该算法的在线层不断地凝聚微簇的密集状态,优化微簇并自适应地调整微簇半径,而离线聚类层还利用先验聚类结果调整聚类参数.实验结果表明,所提出的算法提高了流数据聚类的稳定性、精确性和可扩展性,具有良好的聚类效果.
-
关键词
流数据
框架
聚类
微簇
-
Keywords
stream data
framework
clustering
micro-cluster
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名混合属性数据流的二重k近邻聚类算法
被引量:8
- 2
-
-
作者
黄德才
沈仙桥
陆亿红
-
机构
浙江工业大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2013年第10期226-230,共5页
-
基金
农村水电效益分析与增效关键技术研究与示范
水利部公益性行业科研专项(201001031)资助
-
文摘
现有的数据流聚类算法大都只能处理单一数值属性的数据,不能应对同时包含数值属性与分类属性特征的数据,且已存在的混合属性数据流聚类算法在对数据的标准化处理和聚类上还有很大的改进之处,为此,提出二重k近邻混合属性数据流聚类算法。该算法采用CluStream算法的在线、离线框架,并提出了混合属性数据流下三步聚类的思想。算法先运用二重k近邻和改进的维度距离生成微聚类,然后利用动态标准化数据方法和基于均值的余弦模型生成初始宏聚类,最后利用基于均值的余弦模型和先验聚类结果进行宏聚类优化。实验结果表明,所提出的算法具有良好的聚类质量及可扩展性。
-
关键词
数据流
混合属性
聚类
二重k近邻
-
Keywords
Data stream, Heterogeneous, Clustering, Double k-nearest neighbors
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-