面向混合属性数据集的双重聚类方法被引量：2

Dual clustering method of mixed data set

下载PDF

导出

摘要面对复杂信息环境下的数据预处理需求,提出了一种可以处理混合属性数据集的双重聚类方法。这种双重聚类方法由双重近邻无向图的构造算法或其改进算法,基于分离集合并的双重近邻图聚类算法、基于宽度优先搜索的双重近邻图聚类算法、或基于深度优先搜索的双重近邻图聚类算法来实现。通过人工数据集和UCI标准数据集的仿真实验,可以验证,尽管这三个聚类算法所采用的搜索策略不同,但最终的结果是一致的。仿真实验结果还表明,对于一些具有明显聚类分布结构且无近邻噪声干扰的数据集,该方法经常能取得比K-means算法和AP算法更好的聚类精度,从而说明这种双重聚类方法具有一定的有效性。为进一步推广并在实际中发掘出该方法的应用价值,最后给出了一点较有价值的研究展望。 In order to effectively preprocessing mixed data sets from complex information environment, this paper proposes a dual clustering method. This dual clustering method is implemented by a construction algorithm of a dual near neighbor undirected graph or its improved algorithm, a clustering algorithm based on merging disjointset, a clustering algorithm based on breadthfirstsearch, or a clustering algorithm based on depthfirstsearch. Through the simulation experiments of some artificial data sets and UCI standard data sets, we can verify that the three clustering algorithms can obtain the same results in the end, although they use different search strategies. The experimental results also show that this dual clustering method can often obtain better clustering quality than kmeans algorithm and AP algorithm when handling some data sets with apparent clusters and without near neighbors noises. This demonstrates the dual clustering method is comparatively effective and practical. In the end, some research expectations are given to disinter and popularize this method.

作者陈新泉

机构地区重庆三峡学院计算机科学与工程学院

出处《计算机工程与科学》 CSCD 北大核心 2013年第2期127-132,共6页 Computer Engineering & Science

基金重庆三峡学院科学研究项目计划资助(11ZZ-058)

关键词混合数据集分离集宽度优先搜索深度优先搜索双重聚类 mixed data set disjoint-set breadth-first-search depth-first-search dual clustering

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

同被引文献28

1杨春宇,周杰.一种混合属性数据流聚类算法[J].计算机学报,2007,30(8):1364-1371. 被引量：22
2Tang Pang-ning, Michael Steinbaeh, Vipin Kumar. IntroductiontO data mining [M]. Beijing:Post:Telecom Press, 2006.
3Jain A K. Data clustering:50 years beyond k-means[J]. Pattern Recognition Letters, 2010,31 (8) : 651-666.
4Aggarwal C C, Han J,Wang J, et al. A framework for clustering evolving data streams[C]//Proc of VLDB. 2003:81-92.
5Aggarwal C C, Han J, Wang J, et al. A framework for projected clustering of high dimensional data streams [C]//Proc. of VLDB. 2004 : 852-863.
6Cao F, Estery M, Qian W, et al. Density-based clustering over- ran evolving data stream with noise[C]//Proc of the SIAM Conference on Data Mining (SDM). 2006：326-337.
7Huang Z. Extension to K-means algorithm for clustering large datasets with categorical values[J]. Data Mining and Know- ledge Discovery II, 1998(2) : 283-304.
8Aggarwal C C, Yu P S. A framework for clustering massive text and categorical data streams[C]//Proc of 6th Siam IntConf on Data Mining. Bethesda, 2006 : 477-481.
9Guha S, Rastogi R, Shim K. ROCK:a robust clustering algo- rithm for categorical attributes[C]//Proc of ICDE. 1999: 512- 521.
10Barbara D, Couto J, Yi L. COOLCAT: an entropy-based algo- rithm for categorical clustering[C]//Proc of CIKM. 2002 : 582- 589.

引证文献2

1李晓庆,唐昊,司加胜,苗刚中.面向混合属性数据集的改进半监督FCM聚类方法[J].自动化学报,2018,44(12):2259-2268. 被引量：8
2刘晋胜.基于平均互信息的混合条件属性聚类算法[J].计算机科学,2015,42(3):261-265.

二级引证文献8

1赵云强,韩翼,崔慧茹,郑琳.聚类目标函数下混合属性大数据集分析系统[J].电子设计工程,2020,28(4):73-76. 被引量：3
2谭程宏,卢雪松.利用搜索模型提升Simulink故障探测性能的方法研究[J].计算机应用研究,2020,37(9):2758-2761.
3余海燕,陈京京,邱航,王永,王若凡.嵌套删失数据期望最大化的高斯混合聚类算法[J].自动化学报,2021,47(6):1302-1314. 被引量：5
4刘兰淇,向青松.网络数据交换下复合载荷节点半监督方法仿真[J].计算机仿真,2021,38(6):268-272.
5陈庆超,韩松,毛钧毅.采用多层次特征融合SPP-net的暂态稳定多任务预测[J].控制与决策,2022,37(5):1279-1288. 被引量：5
6黄跃珍,戴晶帼,张承业,魏东.基于关联图关键边发现的人脸图像聚类算法[J].北京邮电大学学报,2023,46(1):97-102.
7郁小强,袁海,王磊,韩磊,赛颖夫.基于信息融合的配电网工程三维数据智能处理算法设计[J].电子设计工程,2023,31(9):118-122. 被引量：2
8刘雪梅,卢汉康,李海瑞,槐先锋,陈晓璐.知识驱动的水利工程应急方案智能生成方法—以南水北调中线工程为例[J].水利学报,2023,54(6):666-676. 被引量：13

1江涛,张传霞.城市扩展动态变化的遥感研究[J].遥感信息,1999,21(4):50-53. 被引量：27
2付文兰,杨国林.Web数据挖掘在个性化搜索引擎中的研究与应用[J].内蒙古农业大学学报（自然科学版）,2009,30(4):223-226. 被引量：3
3翟烁.基于用户兴趣和双重聚类融合的协同过滤算法的优化研究[J].无线互联科技,2015,12(5):124-127. 被引量：2
4胡磊,蔡红霞,俞涛.双重聚类的协同过滤算法在智能家居中的应用[J].计算机技术与发展,2017,27(2):100-105. 被引量：1
5吴陈,汤莹.基于选择迁移的bagging文本分类算法[J].计算机工程与设计,2015,36(7):1808-1812. 被引量：4
6陈平华,陈传瑜.基于云模型的用户双重聚类推荐算法[J].计算机工程与科学,2015,37(7):1245-1251. 被引量：6
7李清霞,魏文红,蔡昭权.混合用户和项目协同过滤的电子商务个性化推荐算法[J].中山大学学报（自然科学版）,2016,55(5):37-42. 被引量：13
8马恒,丁世飞.一种基于混合数据相似性度量的谱聚类算法[J].小型微型计算机系统,2016,37(8):1746-1750. 被引量：3
9石美红,赵辉,贾郑磊,雷燕,张祥俊.基于数据场的无线传感网数据双重聚类算法[J].微电子学与计算机,2016,33(2):49-53. 被引量：2
10孙扬,封孝生,周城,汤大权,肖卫东.一种面向混合数据集可视化的高效数据转换技术[J].国防科技大学学报,2010,32(3):82-88. 被引量：2

计算机工程与科学

2013年第2期

浏览历史

内容加载中请稍等...

面向混合属性数据集的双重聚类方法被引量：2

同被引文献28

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向混合属性数据集的双重聚类方法 被引量：2

同被引文献28

引证文献2

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

面向混合属性数据集的双重聚类方法被引量：2