针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引入微簇衰减密度来精确反映数据流的演化信息,并采用在线...针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.展开更多
文摘针对现有算法聚类精度不高、处理离群点能力较差以及不能实时检测数据流变化的缺陷,提出一种基于密度与近邻传播融合的数据流聚类算法.该算法采用在线/离线两阶段处理框架,通过引入微簇衰减密度来精确反映数据流的演化信息,并采用在线动态维护和删减微簇机制,使算法模型更符合原始数据流的内在特性.同时,当模型中检测到新的类模式出现时,采用一种改进的加权近邻传播聚类(Weighted and hierarchical affinity propagation,WAP)算法对模型进行重建,因而能够实时检测到数据流的变化,并能给出任意时间的聚类结果.在真实数据集和人工数据集上的实验表明,该算法具有良好的适用性、有效性和可扩展性,能够取得较好的聚类效果.
基金Supported by the National Natural Science Foundation of China under Grant No.60875031(国家自然科学基金)the National Basic Research Program of China under Grant No.2007CB311002(国家重点基础研究发展计划(973))+2 种基金the Program for New Century Excellent Talents in University of china under Grant No.NECT-06-0078(新世纪优秀人才支持计划)the Research Fund for the Doctoral Program of Higher Education of the Ministry of Education of China under Grant No.20050004008(教育部高等学校博士学科点专项科研基金)the Fok Ying-Tbng Education Foundation for Young Teachers in the Higher Education Instirutions of China under Grant No.101068(霍英东教育基金会高等院校青年教师基金)