基于拟蒙特卡洛的K均值聚类中心初始化方法被引量：5

A Novel Method for Refining the Initial Points for K-means Clustering Based on Quasi-Monte Carlo Method

下载PDF

导出

摘要针对传统K-means算法随机选择初始聚类中心容易造成聚类结果不稳定且准确率低等问题,基于拟蒙特卡洛(Quasi-Monte Carlo,QMC)方法提出一种新的初始聚类中心确定方法;该算法利用QMC序列分布的超均匀性特点,对整个样本空间中的样本分布进行采样估计;基于k近邻距离(k-distance)对QMC序列点进行加权的K-means聚类,得到初始聚类中心。该算法的计算复杂度为O(max(d、n)logn),其中d、n分别表示样本数据的维数和数量;在人工数据和实际数据集上的仿真实验表明,该算法能选择更优的初始聚类中心,有效降低K-means算法的迭代次数,提高聚类的准确性、鲁棒性和收敛速度。 Traditional K - means clustering algorithms can randomly generate the initial seeds suffer from the instability and unreliability of the clustering results. To overcome these deficiencies, a novel method for determining the initial points of the K -means clustering algorithm was proposed based on Quasi-Monte Carlo （QMC） method. The low-discrepancy characteristic of QMC was utilized for estimating the density of data distribution in the whole sample space. Weights of all QMC points were calculated based on the mean of k - NN distance, and the initial seeds were obtained by applying weighted K -means algorithm on the QMC points. The results show that the corresponding computational complexity is O（max（d,n） logn） ,where d denotes the dimensionality of samples and n is the size of samples. Simulation results on the artificial and real-life data sets indicate that the proposed algorithm can obtain better initial points which are nearer to the real ones, decrease the iteration time of K - means algorithm, and improve its correctness, stability and convergence rate.

作者庄瑞格倪泽邦刘学艺

机构地区中国计量大学理学院中国计量大学量新学院

出处《济南大学学报（自然科学版）》北大核心 2017年第1期35-41,共7页 Journal of University of Jinan(Science and Technology)

基金浙江省自然科学基金项目(LY14F030020)

关键词 K-MEANS聚类拟蒙特卡洛 k最近邻初始聚类中心 K - means clustering quasi-Monte Carlo k - nearest neighbor initial clustering center

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献14

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
2郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35
3仝雪姣,孟凡荣,王志晓.对k-means初始聚类中心的优化[J].计算机工程与设计,2011,32(8):2721-2723. 被引量：29
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
5赖玉霞,刘建平.K-means算法的初始聚类中心的优化[J].计算机工程与应用,2008,44(10):147-149. 被引量：75
6王赛芳,戴芳,王万斌,张晓宇.基于初始聚类中心优化的K-均值算法[J].计算机工程与科学,2010,32(10):105-107. 被引量：24
7韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
8汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
9谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
10谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的初始聚类中心优化K-均值算法[J].计算机应用研究,2012,29(3):888-892. 被引量：53

二级参考文献133

1荆丰伟,刘冀伟,王淑盛.改进的K-均值算法在岩相识别中的应用[J].微计算机信息,2004,20(7):41-42. 被引量：5
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3万志华,欧阳为民,张平庸.一种基于划分的动态聚类算法[J].计算机工程与设计,2005,26(1):177-179. 被引量：16
4张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
5朱蔚恒,印鉴,谢益煌.基于数据流的任意形状聚类算法[J].软件学报,2006,17(3):379-387. 被引量：51
6李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
7李永森,杨善林,马溪骏,胡笑旋,陈增明.空间聚类算法中的K值优化问题研究[J].系统仿真学报,2006,18(3):573-576. 被引量：39
8钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
9刘青宝,戴超凡,邓苏,张维明.基于网格的数据流聚类算法[J].计算机科学,2007,34(3):159-161. 被引量：10
10袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152

共引文献1571

1杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：23
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：4
4王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
5林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
6高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
7毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
8张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
9李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
10尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.

同被引文献45

1李强,周京阳,于尔铿,刘树春,王磊.基于混合量测的电力系统状态估计混合算法[J].电力系统自动化,2005,29(19):31-35. 被引量：57
2孙宇锋.基于MATLAB的模糊聚类分析及应用[J].韶关学院学报,2006,27(9):1-4. 被引量：31
3孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
4王金雪,韩静轩,王金亮.山东省电力消费和经济发展关系的协整分析[J].济南大学学报（自然科学版）,2008,22(4):415-418. 被引量：5
5陈寿文,李明东.基于面向对象思想KMeans算法实现[J].滁州学院学报,2008,10(3):42-44. 被引量：7
6赖玉霞,刘建平,杨国兴.基于遗传算法的K均值聚类分析[J].计算机工程,2008,34(20):200-202. 被引量：71
7汪中,刘贵全,陈恩红.一种优化初始中心点的K-means算法[J].模式识别与人工智能,2009,22(2):299-304. 被引量：140
8韩凌波,王强,蒋正锋,郝志强.一种改进的k-means初始聚类中心选取算法[J].计算机工程与应用,2010,46(17):150-152. 被引量：93
9YUE ShiHong,WANG JeenShing,TAO Gao,WANG HuaXiang.An unsupervised grid-based approach for clustering analysis[J].Science China(Information Sciences),2010,53(7):1345-1357. 被引量：7
10王赛芳,戴芳,王万斌,张晓宇.基于初始聚类中心优化的K-均值算法[J].计算机工程与科学,2010,32(10):105-107. 被引量：24

引证文献5

1尹晓丽.重心随机漂移KMeans聚类算法的设计[J].长春大学学报,2017,27(8):35-38. 被引量：2
2牛雷,孙忠林.PCA-AKM算法及其在入侵检测中的应用[J].计算机科学,2018,45(2):226-230. 被引量：4
3刘荣凯,孙忠林.针对K-means初始聚类中心优化的PCA-TDKM算法[J].软件导刊,2018,17(9):85-87. 被引量：3
4刘荣凯,孙忠林.PCA-KDKM算法及其在微博舆情中的应用[J].山东科技大学学报（自然科学版）,2018,37(6):84-92. 被引量：5
5裘华东,段光,张利军,李晓春,陶轶群,陈志敏.基于AHP-FCM聚类的售电侧市场化改革进展评估[J].济南大学学报（自然科学版）,2018,32(2):96-101.

二级引证文献13

1杨凝之.基于CNN的入侵检测技术[J].通讯世界,2019,26(1):233-235. 被引量：2
2陈万志,徐东升,张静,唐雨.结合优化支持向量机与K-means++的工控系统入侵检测方法[J].计算机应用,2019,39(4):1089-1094. 被引量：9
3张思维,郭秀娟.基于模糊聚类K均值算法的研究[J].吉林工程技术师范学院学报,2019,35(4):86-88. 被引量：3
4包志强,赵媛媛,赵研,胡啸天,黄琼丹.基于改进RFM模型的百度外卖客户价值分析[J].西安邮电大学学报,2019,24(1):105-110. 被引量：8
5徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
6闫俊伢,马尚才.基于文本聚类的网络微博舆情话题识别与追踪技术研究[J].重庆理工大学学报（自然科学）,2019,33(9):176-181. 被引量：7
7陈万志,徐东升,张静.工业控制网络入侵检测的BP神经网络优化方法[J].辽宁工程技术大学学报（自然科学版）,2019,38(1):82-87. 被引量：3
8韩琮师,李旭健.改进的K-means算法研究[J].软件,2020,41(3):21-23. 被引量：6
9景源,郝金山.基于期望最大化的K-Means聚类算法[J].辽宁大学学报（自然科学版）,2020,47(2):106-111. 被引量：6
10张牧子,孙永福,宋玉鹏,修宗祥,赵晓龙,胡光海.单轴压缩条件下溶蚀礁灰岩细观变形破坏特征研究[J].计算力学学报,2021,38(2):222-229. 被引量：5

1向继,高能,荆继武.聚类算法在网络入侵检测中的应用[J].计算机工程,2003,29(16):48-49. 被引量：41
2杨强,吴中福,余平,钟将.基于正反馈的支持向量机[J].重庆大学学报（自然科学版）,2004,27(5):41-44.
3罗会兰,危辉.一种基于聚类集成技术的混合型数据聚类算法[J].计算机科学,2010,37(11):234-238. 被引量：6
4王丹,吴孟达.动态阈值粗糙C均值算法[J].计算机科学,2011,38(3):218-221. 被引量：1
5潘龙,纪庆革,陈靖.线积分卷积与双色调映射相结合的彩色素描模拟方法[J].中国图象图形学报,2017,22(7):875-885. 被引量：3
6邹国锋,傅桂霞,高明亮,尹丽菊,王科俊.融合类别和结构信息的多尺度协同耦合度量学习方法[J].模式识别与人工智能,2017,30(6):499-508. 被引量：1
7张进,王贵成,汪滢.基于模糊聚类的谷氨酸发酵过程故障诊断研究[J].沈阳化工大学学报,2017,31(2):182-187. 被引量：5
8王晓立.计算机上对网络浏览证据准确提取仿真研究[J].计算机仿真,2017,34(7):240-243. 被引量：4
9曾青松,黄晓宇,钟闰禄.格拉斯曼流形降维及应用研究[J].计算机科学,2017,44(7):318-323. 被引量：2
10万新贵,李玲娟,马可.分布式数据流聚类算法及其基于Storm的实现[J].计算机技术与发展,2017,27(7):150-155. 被引量：2

济南大学学报（自然科学版）

2017年第1期

浏览历史

内容加载中请稍等...

基于拟蒙特卡洛的K均值聚类中心初始化方法被引量：5

参考文献14

二级参考文献133

共引文献1571

同被引文献45

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于拟蒙特卡洛的K均值聚类中心初始化方法 被引量：5

参考文献14

二级参考文献133

共引文献1571

同被引文献45

引证文献5

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

基于拟蒙特卡洛的K均值聚类中心初始化方法被引量：5