期刊文献+

基于多代表点的大规模数据模糊聚类算法 被引量:9

Fuzzy clustering algorithm based on multiple medoids for large-scale data
原文传递
导出
摘要 针对传统模糊聚类在大规模数据场景下,由于内存的限制不能一次装载所有数据,以及在通过聚类捕捉数据的潜在结构和描述各个类时仅使用单个代表点存在信息量不足的问题,提出一种基于多代表点的大规模数据模糊聚类算法.该算法通过对大规模数据进行分块,在对每个数据块进行聚类时使用多个代表点描述捕捉到的数据的潜在结构和各个类信息,并通过考虑代表点与代表点之间在聚类过程中的约束关系,提高最后聚类结果的精度.在模拟数据集和真实数据集上的3组实验验证了所提出算法的有效性. For the problem that the traditional fuzzy clustering is not able to load all the data at a time because of the limited memory in the application scenario for large-scale data, and using a single medoid is insufficient to capture the underlying structure of data and describe each cluster, a fuzzy clustering algorithm based on multiple medoids for large-scale data is presented. The algorithm handles data chunk by chunk, and uses multiple medoids to represent the underlying data structure and each cluster information in one chunk, and the pairwise constraints from the relationship between two identified medoids are taken into account. These mechanisms improve the accuracy of the final clustering results. The effectiveness of the proposed algorithm is verified by three sets of experiments on a simulated dataset and two real datasets.
出处 《控制与决策》 EI CSCD 北大核心 2016年第12期2122-2130,共9页 Control and Decision
基金 国家自然科学基金项目(61272210) 江苏省杰出青年基金项目(BK20140001) 江苏省自然科学基金项目(BK20130155)
关键词 大规模数据 模糊聚类 增量式聚类 多代表点 large-scale data fuzzy clustering incremental clustering multiple medoids
  • 相关文献

同被引文献70

引证文献9

二级引证文献50

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部