基于划分的聚类个数与初始中心的确定方法被引量：4

A Determination Method for Clustering Numbers and Initial Centers Based on Partitioning

下载PDF

导出

摘要 k均值聚类算法在对数据进行聚类时需要以确定的聚类个数和初始聚类中心为前提,但聚类个数是难以准确给定的,通常随机选取k个样本作为初始聚类中心,由于不同的初始聚类中心可能导致不同的聚类结果,采用随机选取初始聚类中心的方法存在着较大的盲目性,造成聚类结果极不稳定。为此,提出了一种基于划分的聚类个数与初始中心点的确定方法。该方法通过对数据空间进行划分,统计每个网格空间中数据点数目作为网格的数据密度,同时计算局部密度极大值的网格个数;按照不同的分度值对数据集进行划分,当局部密度极大值的网格个数趋于相对稳定时,将局部密度极大值的网格个数作为聚类个数,并同时获得聚类初始中心。基于机器学习数据库数据集以及随机生成的人工模拟数据集进行了仿真实验,实验结果表明,所提出的算法有效可行,具有较高的准确性。 The k-means clustering algorithm needs the determined clustering number and initial clustering center before data clustering. However, the clustering number is difficult to be accurately given. Since different initial clustering centers may lead to distinct clustering results,the randomly selective method of initial clustering centers exists blindness to make clustering results very instable. Therefore, a new algorithm for determining optimal number of clusters and initial centers with partitioning has been proposed ,in which partition of da- ta space has been conducted to take the statistical number of data marker inside each grid as the data density in the grid and count the grid number with local maximum density. The data set has been partitioned according to the different index value. While the number of local maximum density grid tends to be relatively stable, it can be considered as cluster number and initial cluster centers can be acquired mean- while. Simulation experiments for verification have been conducted with UCI data sets and random artificial data sets. The experimental results show that the proposed algorithm is effective and feasible with quite fine accuracy,

作者征原谢云

机构地区南京邮电大学江苏省无线通信重点实验室

出处《计算机技术与发展》 2017年第7期76-78,82,共4页 Computer Technology and Development

基金国家自然科学基金资助项目(61471203 61101105) 教育部博士点基金(20113223120001) 江苏973项目(BK2011027)

关键词 K均值聚类聚类个数初始聚类中心划分 k-means clustering number of clustering initial clustering centers partitioning

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63
2魏建东,陆建峰,彭甫镕.一种层次初始的聚类个数自适应的聚类方法研究[J].电子设计工程,2015,23(6):5-8. 被引量：6
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1074
4张红云,刘向东,段晓东,苗夺谦,马垣.数据挖掘中聚类算法比较研究[J].计算机应用与软件,2003,20(2):5-6. 被引量：35
5周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
6孟令奎,胡春春.基于模糊划分测度的聚类有效性指标[J].计算机工程,2007,33(11):15-17. 被引量：9
7周开乐,杨善林,丁帅,罗贺.聚类有效性研究综述[J].系统工程理论与实践,2014,34(9):2417-2431. 被引量：109

二级参考文献165

1李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：191
4李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
5贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
7谢崇宝,袁宏源,郭元裕.最优分类的模糊划分聚类改进方法[J].系统工程,1997,15(1):58-63. 被引量：12
8[1]Hang T. BIRCH. An efficient data clustering method for very large database. In: Proc of the ACM SIGMOD International Conf. on Management of Data Montreal: ACM press, 1996,83 ～ 94.
9[2]Udipto Guha, Rastogi R, Shim K. CURE: A clustering algorithm for large databases. Technical report, Bell Laboratories, Mucray Hill, 1997,67 ～ 78,1998,73 ～ 84.
10[3]Martin Ester, Hans- Peter Kriegel, Jorg Sander, Xiaowei Xu. A desitybased algorithm for Discovery clusters in large spatial databs e with noise.In Proc. Of 2th International Conference on knowledge Discovery in Databases and Data Mining, Portland, Oregon, August, 1996.

共引文献1318

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
10尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.

同被引文献25

1周粉妹.聚类算法在客户细分中的应用[J].烟台职业学院学报,2006,12(2):40-43. 被引量：2
2夏鲁宁,荆继武.SA-DBSCAN:一种自适应基于密度聚类算法[J].中国科学院研究生院学报,2009,26(4):530-538. 被引量：81
3周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
4张路,张光,赖伟平.大学生学风建设及其对学业成绩的影响实证研究——基于N学院本科生问卷调查数据的分析[J].长春理工大学学报（社会科学版）,2013,26(12):173-176. 被引量：3
5魏瑾瑞.一类基于模型的聚类方法[J].统计与信息论坛,2014,29(2):19-22. 被引量：5
6李卫军.K-means聚类算法的研究综述[J].现代计算机（中旬刊）,2014(8):31-32. 被引量：10
7夏高峰,薛焱.基于MATLAB-Modelsim-ISE/Quartus的FPGA联合开发设计[J].航空电子技术,2014,45(3):5-11. 被引量：7
8姜琴.一种改进的FCM算法在手写数字识别中的应用[J].湖北工业职业技术学院学报,2016,29(2):105-108. 被引量：2
9周志靖,陈金良,沈华,张建峰.空中交通航空飞行流量优化预测仿真[J].计算机仿真,2016,33(8):54-57. 被引量：6
10余成进,赵姝,陈洁,张燕平,段震.复杂网络中的层次结构挖掘[J].南京大学学报（自然科学版）,2016,52(5):861-870. 被引量：4

引证文献4

1熊中敏,朱春卫,郭振辉,陈明.基于OLAP和聚类分析的关联规则挖掘方法[J].计算机应用与软件,2018,35(5):55-61. 被引量：5
2杨冬进,娄建安.18650型锂电池荷电状态的估计[J].计算机测量与控制,2018,26(4):268-271. 被引量：4
3谷欣超,徐福祥,杨勇,曲福恒.基于全局K-means算法的高校学生成绩分析[J].长春理工大学学报（自然科学版）,2019,42(5):93-97. 被引量：5
4李周辉.基于RFM模型在高校学生成绩分析中的应用研究[J].信息与电脑,2022,34(16):55-57. 被引量：1

二级引证文献15

1郑莉,陈素峰.航迹点搁浅风险数据关联规则挖掘方法研究[J].舰船科学技术,2019,41(24):43-45.
2孟敏.基于Apriori算法的船用物联网多来源数据深度挖掘方法[J].舰船科学技术,2019,0(24):193-195. 被引量：1
3司伟,冯长江,黄天辰.基于内阻法修正的蓄电池卡尔曼滤波SOC估算[J].计算机测量与控制,2018,26(12):185-189. 被引量：4
4王化娟.“一次委托、统一测绘、成果共享”服务模式研究[J].城市勘测,2019,0(4):88-91. 被引量：18
5陈元丽,赵振东,陈素娟.基于Simulink的三元锂电池建模与仿真研究[J].南京工程学院学报（自然科学版）,2019,17(3):16-20. 被引量：4
6李博文,王顺利,于春梅,李建超,谢伟.在线参数辨识和扩展卡尔曼算法的锂离子电池SOC估算研究[J].自动化仪表,2020,41(3):41-46.
7杜伟栋,陆金桂,翟鑫钰,刘新,潘艳飞.移动小车电源SOC实时估算系统设计[J].软件导刊,2020,19(7):131-135.
8李明,吴迪.基于FCM聚类算法的学生动态评估方法研究[J].安阳师范学院学报,2020(5):45-47. 被引量：1
9段桂芹,邹臣嵩.基于近邻传播聚类的职业能力评价模型[J].计算机与现代化,2022(5):21-27.
10王君,何进荣,马乐荣.《平凡的世界》人物关系网络分析[J].计算机与现代化,2022(6):32-36.

1袁平,毛志忠,王福利.基于免疫原理的T-S模糊系统在线建模方法[J].信息与控制,2006,35(4):432-437.
2李安安.遥感大数据自动分析与数据挖掘[J].信息系统工程,2017,0(6):114-115. 被引量：2
3曹奇敏,刘鸿霞.基于少量标注数据的半监督K-means算法[J].电脑编程技巧与维护,2017(13):40-42. 被引量：1
4王立国,杜心平.K均值聚类和孪生支持向量机相结合的高光谱图像半监督分类[J].应用科技,2017,44(3):12-18. 被引量：11
5何明亮,陈泽茂,黄相静.基于改进K均值聚类的入侵检测算法研究[J].计算机与数字工程,2017,45(6):1145-1149. 被引量：7
6李巍,龚洁中.物联网信息安全现状及标准研究[J].现代电信科技,2017,47(3):33-36. 被引量：2
7希腊出售Thessaloniki港67％股权[J].海运情报,2017,0(6):40-40.
8陈玉叶,肖可,郭振雄,何俊杰,刘畅,陈松岩.液晶屏线路中导电粒子压合的自动光学检测研究[J].液晶与显示,2017,32(7):553-559. 被引量：3
9白艳宇,申超群,杨新锋.结合SIFT特征和神经网络池的物体分类方法[J].电子技术应用,2017,43(7):130-134. 被引量：1
10李长生,吴辰文,梁靖涵,王伟.信息熵特征加权核函数的SVM数据分类方法[J].小型微型计算机系统,2017,38(7):1528-1532. 被引量：9

计算机技术与发展

2017年第7期

浏览历史

内容加载中请稍等...

基于划分的聚类个数与初始中心的确定方法被引量：4

参考文献7

二级参考文献165

共引文献1318

同被引文献25

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于划分的聚类个数与初始中心的确定方法 被引量：4

参考文献7

二级参考文献165

共引文献1318

同被引文献25

引证文献4

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于划分的聚类个数与初始中心的确定方法被引量：4