摘要
为了发现分布式数据流环境下的微簇,针对数据流的遗忘特性,提出一种基于时间衰减的数据流聚类算法.根据衰减模型增量式的处理局部站点,将局部模型发送给中心站点.中心站点对局部站点的微簇进行合并,生成全局聚类模型.通过真实数据和仿真数据的实验表明,该算法能够得到较好的聚类质量,并且有较好的伸缩性.
To find the clusters under the distributed data stream environment,in allusion to amnesic features of data stream, this paper proposed the time-attenuation-based data stream clustering algorithm. The algorithm updates incremental local model by attenuation function. Center site receives local summary structure and merges clusters from local site to get eventual clustering model. The experimental results on real and synthetic datasets demonstrate that the al- gorithm can get better clustering quality,and has good scalability.
出处
《太原师范学院学报(自然科学版)》
2013年第2期87-90,共4页
Journal of Taiyuan Normal University:Natural Science Edition
基金
安徽省优秀青年人才基金项目(2010SQRL126)
安徽省自然科学基金项目(11040606M151)
蚌埠学院自然科学基金项目(2011ZR11)
关键词
分布式数据流
聚类
时间衰减
滑动窗口
distributed data stream
clustering
time-recession
sliding windows