针对现实不确定数据流具备分布非凸性和包含大量噪声等特点,提出不确定数据流聚类算法Clu_Ustream(clustering on uncertain stream)来解决对近期数据进行实时高效聚类演化问题。首先,在线部分利用子窗口采样机制采集滑动窗口中的不确...针对现实不确定数据流具备分布非凸性和包含大量噪声等特点,提出不确定数据流聚类算法Clu_Ustream(clustering on uncertain stream)来解决对近期数据进行实时高效聚类演化问题。首先,在线部分利用子窗口采样机制采集滑动窗口中的不确定流数据,采用双层概要统计结构链表存储概率密度网格的统计信息;然后,离线聚类过程中通过衰减窗口机制弱化老旧数据的影响,并定期对窗口中的过期子窗口进行清理;同时采用动态异常网格删除机制有效过滤离群点,从而降低算法的时空复杂度。在模拟数据集和网络入侵真实数据集上的仿真结果表明,Clu_Ustream算法与其他同类算法相比具有较高的聚类质量和效率。展开更多
文摘针对现实不确定数据流具备分布非凸性和包含大量噪声等特点,提出不确定数据流聚类算法Clu_Ustream(clustering on uncertain stream)来解决对近期数据进行实时高效聚类演化问题。首先,在线部分利用子窗口采样机制采集滑动窗口中的不确定流数据,采用双层概要统计结构链表存储概率密度网格的统计信息;然后,离线聚类过程中通过衰减窗口机制弱化老旧数据的影响,并定期对窗口中的过期子窗口进行清理;同时采用动态异常网格删除机制有效过滤离群点,从而降低算法的时空复杂度。在模拟数据集和网络入侵真实数据集上的仿真结果表明,Clu_Ustream算法与其他同类算法相比具有较高的聚类质量和效率。
基金Supported by the National Natural Science Foundation of China under Grant Nos.60673060, 60773103 the Natural Science Foundation of Jiangsu Province of China under Grant No.BK2008206~~