基于维度频率相异度和强连通融合的混合数据聚类算法被引量：5

Clustering Algorithm for Mixed Data Based on Dimensional Frequency Dissimilarity and Strongly Connected Fusion

下载PDF

导出

摘要 k-Prototypes算法对初始点选取的敏感性导致聚类结果具有随机性,并且忽视样本数据点与聚类集合中已有样本的总体差异.针对此问题,文中提出基于维度频率相异度和强连通融合的混合数据聚类算法,首先通过多次预聚类产生大量子簇,然后根据子簇之间的连通关系,采用强连通融合的策略得到最终的聚类结果.在UCI数据库中3个混合属性数据集上的实验表明,相比k-Prototypes算法及已有的混合属性聚类算法,文中算法具有更好的聚类质量,从而验证文中算法的优越性. The clustering result of k-Prototypes algorithm is unpredictable due to the sensitivity of the initial prototypes selection. Moreover, the whole diversity between data points and clusters is ignored. Therefore, a clustering algorithm based on dimensional frequency dissimilarity and strongly connected fusion is proposed. Plenty of sub-clusters are produced by multiple pre-clustering. According to the connectivity of those sub-clusters, strongly connected fusion is used to generate the final clusters. The proposed clustering algorithm is validated on three different UCI datasets. Meanwhile, it is compared with three mixed data clustering algorithms. The experimental results show that the proposed algorithm can yield better clustering precision and purity.

作者钱潮恺黄德才

机构地区浙江工业大学计算机科学与技术学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2016年第1期82-89,共8页 Pattern Recognition and Artificial Intelligence

基金水利部公益性行业科研专项项目(No.201401044)资助~~

关键词维度频率相异度混合属性聚类强连通融合 Dimensional Frequency Dissimilarity, Mixed Attribute, Clustering, Strongly Connected Fusion

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1黄德才,沈仙桥,陆亿红.混合属性数据流的二重k近邻聚类算法[J].计算机科学,2013,40(10):226-230. 被引量：8
2王骏,王士同,邓赵红.聚类分析研究中的若干问题[J].控制与决策,2012,27(3):321-328. 被引量：194
3王述云,张成洪,郝秀兰,胡运发.基于免疫原理的数据流聚类算法[J].模式识别与人工智能,2009,22(2):246-255. 被引量：5
4KAUFMAN L, ROUSSEEUW P J. Finding Groups in Data: An In- troduction to Cluster Analysis. New York, USA: John Wiley & Sons, 1990.
5ESTER M, KRIEGEL H P, SANDER J, et al. A Density-Based Al- gorithm for Discovering Clusters in Large Spatial Databases with Noise // Proc of the 2nd International Conference on Knowledge Discovery and Data Mining. Oregon, USA, 1996: 226-231.
6刘海涛,魏汝祥,蒋国萍.软件成本数据的相似性度量[J].上海交通大学学报,2012,46(11):1736-1740. 被引量：2
7HUANG Z X. Clustering Large Data Sets with Mixed Numeric and Categorical Values // Proc of the 1st Pacific-Asia Conference on Knowledge Discovery and Data Mining. Singapore, Singapore, 1997, 21-35.
8顾王一,朱林,杨杰.快速近似聚类算法及其在图像检索中的应用[J].上海交通大学学报,2011,45(2):149-153. 被引量：4
9CHATZIS S P. A Fuzzy c-means-Type Algorithm for Clustering of Data with Mixed Numeric and Categorical Attributes Employing a Probabilistic Dissimilarity Functional. Expert Systems with Applica- tions, 2011, 38(7): 8684-8689.
10白天,冀进朝,何加亮,周春光.混合属性数据聚类的新方法[J].吉林大学学报（工学版）,2013,43(1):130-134. 被引量：7

二级参考文献196

1黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
2邓赵红,王士同.鲁棒性的模糊聚类神经网络[J].软件学报,2005,16(8):1415-1422. 被引量：11
3阳琳贇,王文渊.聚类融合方法综述[J].计算机应用研究,2005,22(12):8-10. 被引量：28
4杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
5李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
6王丽娟,关守义,王晓龙,王熙照.基于属性权重的Fuzzy C Mean算法[J].计算机学报,2006,29(10):1797-1803. 被引量：45
7刘建晔,李芳.一种基于密度的高性能增量聚类算法[J].计算机工程,2006,32(21):76-78. 被引量：12
8刘青宝,邓苏,张维明.基于相对密度的聚类算法[J].计算机科学,2007,34(2):192-195. 被引量：13
9常建龙,曹锋,周傲英+.基于滑动窗口的进化数据流聚类[J].软件学报,2007,18(4):905-918. 被引量：61
10de Castro L N, Timmis J. Artificial Immune Systems: A New Computational Intelligence Approach. New York, USA: Springer, 2002

共引文献286

1蒙克,华冉,汪佩洁.重新发现比较社会政策研究:概念化与方法[J].中国公共政策评论,2020(2):1-27. 被引量：1
2陈卫东,胡盛林.兼顾公平和效率原则的我国电力市场碳配额分配方案[J].煤炭经济研究,2020,40(1):15-21. 被引量：8
3郭林,程保增,张博.定量方法在古墓葬研究中的运用——以邹县野店墓地为例[J].洛阳考古,2022(2):24-29.
4智源,行飞.复杂网络社区结构问题综述[J].阴山学刊（自然科学版）,2011,25(3):31-34. 被引量：2
5王玲,姬长英,陈兵林,刘善军.基于图像特征的收获前籽棉品级聚类融合分析[J].作物学报,2007,33(7):1162-1167. 被引量：1
6谢志强,张豪,杨静.基于混合属性的多级模糊模式识别在水质评价中的应用[J].水资源与水工程学报,2008,19(2):1-3. 被引量：7
7孙扬,封孝生,周城,汤大权,肖卫东.一种面向混合数据集可视化的高效数据转换技术[J].国防科技大学学报,2010,32(3):82-88. 被引量：2
8刘士荣,张波涛.采用生物信息机制的量子免疫克隆算法[J].模式识别与人工智能,2011,24(3):391-399. 被引量：3
9金弟,刘杰,杨博,何东晓,刘大有.局部搜索与遗传算法结合的大规模复杂网络社区探测[J].自动化学报,2011,37(7):873-882. 被引量：53
10赵向梅,王艳君,刘林.聚类算法及聚类融合算法研究[J].电子设计工程,2011,19(15):4-5. 被引量：5

同被引文献64

1王永贵,林琳,刘宪国.结合双粒子群和K-means的混合文本聚类算法[J].计算机应用研究,2014,31(2):364-368. 被引量：16
2谭鹏许,陈越,兰巨龙,贾洪勇.用于云存储的安全容错编码[J].通信学报,2014,35(3):109-115. 被引量：24
3郭迟,刘经南,方媛,罗梦,崔竞松.位置大数据的价值提取与协同挖掘方法[J].软件学报,2014,25(4):713-730. 被引量：54
4刘经南,方媛,郭迟,高柯夫.位置大数据的分析处理研究进展[J].武汉大学学报（信息科学版）,2014,39(4):379-385. 被引量：104
5魏理豪,王甜,陈飞,冯艳茹.基于层次分析法的信息系统实用化评价研究[J].科技通报,2014,30(2):143-145. 被引量：26
6常茜茜,张月琴.一种基于划分的混合数据聚类算法[J].计算机应用与软件,2014,31(6):154-157. 被引量：5
7吴涛,陈黎飞,郭躬德.优化子空间的高维聚类算法[J].计算机应用,2014,34(8):2279-2284. 被引量：27
8王杨.基于改进的粒子群优化的模糊C-均值聚类算法[J].计算机与数字工程,2014,42(9):1610-1612. 被引量：1
9余长俊,张燃.云环境下基于Canopy聚类的FCM算法研究[J].计算机科学,2014,41(B11):316-319. 被引量：21
10沈艳,余冬华,王昊雷.粒子群K-means聚类算法的改进[J].计算机工程与应用,2014,50(21):125-128. 被引量：15

引证文献5

1赵露.基于聚类分析的网络安全数据特征可视化融合研究[J].长春工程学院学报（自然科学版）,2020(2):94-97. 被引量：3
2王东强,王晓霞.云存储中大数据优化粒子群聚类算法[J].电子设计工程,2017,25(2):26-30. 被引量：13
3石鸿雁,徐明明.基于平均差异度的改进k-prototypes聚类算法[J].沈阳工业大学学报,2019,41(5):555-559. 被引量：4
4胡赢双,陆亿红.基于MapReduce的强连通网格聚类算法[J].计算机科学,2019,46(S11):204-207. 被引量：7
5王新刚,赵舫,朱文君.基于综合能源计量数据的区域用能特性分析[J].中国电力,2022,55(9):140-145. 被引量：1

二级引证文献27

1屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4
2涂俊英,李志敏.云计算下非结构化大数据存储系统设计[J].现代电子技术,2018,41(1):173-177. 被引量：16
3赵莹,贺珊颖,肖峰,李晨,周航帆.特高压输电线选线设计模式优化研究[J].自动化与仪器仪表,2018,0(11):78-81. 被引量：1
4郑勇锋,潘松柏,孙丽莉,贾翠玲,彭嫚.一体化国网云平台的高可用方案研究[J].电力信息与通信技术,2019,17(7):46-51. 被引量：13
5王小林,付山,邰伟鹏,胡涛.一种面向大规模二维点集数据的密度聚类算法[J].安徽工业大学学报（自然科学版）,2020,37(2):147-152.
6胡毅,朱子江.基于优化粒子群算法的云环境大数据聚类算法[J].现代电子技术,2020,43(14):72-75. 被引量：6
7湛玉婕,李贤功.模拟DDoS攻击场景下大数据访存踪迹聚类仿真[J].计算机仿真,2020,37(7):480-484. 被引量：1
8费丹雄,严思唯,芦金雨,周文哲,范正权.基于混合高斯模型的用电量计量数据聚类算法研究[J].电子设计工程,2020,28(20):106-110. 被引量：4
9尚宇辉,赵彦明.基于中间件技术的网络处理器气候大数据多级存储系统[J].现代电子技术,2020,43(22):53-56.
10雷阳,姜瑛.云计算环境下关联节点的异常判断[J].计算机科学,2021,48(1):295-300. 被引量：4

1周娟.基于DKC值的K-means改进聚类算法的研究[J].企业技术开发,2015,34(1):24-26.
2王守强,朱大铭,徐小平.求解K-means聚类更有效的算法[J].计算机工程与设计,2008,29(2):378-380. 被引量：9
3陈福集,蒋芳.基于2d-距离改进的K-means聚类算法研究[J].太原理工大学学报,2012,43(2):114-118. 被引量：8
4张靖,张晓君,江万寿,王建超,郭大海.一种改进的线性预测滤波算法[J].国土资源遥感,2011,23(1):52-56. 被引量：9
5王守强,朱大铭,韩爱丽.基于初始点选取的k-means聚类近似常数算法[J].计算机研究与发展,2007,44(z2):69-74. 被引量：3
6魏锋涛,宋俐,李言,石坤.改进的多学科协同优化方法[J].计算机集成制造系统,2013,19(9):2116-2122. 被引量：7
7李海燕,马明旭,井元伟,柳锐.一种具有全局稳定性的多学科协同优化方法[J].计算机集成制造系统,2009,15(12):2363-2369. 被引量：11
8王舵,郄君,张娟,李文斌.一种快速词自动聚类算法[J].计算机应用与软件,2010,27(8):276-278. 被引量：3
9张建勋,汪波,侯之旭,靳冲.图像多特征融合的障碍物检测[J].重庆理工大学学报（自然科学）,2015,29(3):65-70. 被引量：5
10王行甫,陈静,王琳.基于适应性动态步长的变异果蝇优化算法[J].计算机应用,2016,36(7):1870-1874. 被引量：6

模式识别与人工智能

2016年第1期

浏览历史

内容加载中请稍等...

基于维度频率相异度和强连通融合的混合数据聚类算法被引量：5

参考文献15

二级参考文献196

共引文献286

同被引文献64

引证文献5

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于维度频率相异度和强连通融合的混合数据聚类算法 被引量：5

参考文献15

二级参考文献196

共引文献286

同被引文献64

引证文献5

二级引证文献27

相关作者

相关机构

相关主题

浏览历史

基于维度频率相异度和强连通融合的混合数据聚类算法被引量：5