优化初始聚类中心选择的K-means算法被引量：6

K-Means Algorithm for Optimizing Initial Cluster Center Selection

下载PDF

导出

摘要 K-means算法的聚类效果与初始聚类中心的选择以及数据中的孤立点有很大关联,具有很强的不确定性。针对这个缺点,提出了一种优化初始聚类中心选择的K-means算法。该算法考虑数据集的分布情况,将样本点分为孤立点、低密度点和核心点,之后剔除孤立点与低密度点,在核心点中选取初始聚类中心,孤立点不参与聚类过程中各类样本均值的计算。按照距离最近原则将孤立点分配到相应类中完成整个算法。实验结果表明,改进的K-means算法能提高聚类的准确率,减少迭代次数,得到更好的聚类结果。 The clustering effect of K-means algorithm is closely related to the selection of initial clustering center and the isolated points in the data,so it has strong uncertainty.In order to solve this problem,a novel K-means algorithm based on nearest neighbor density is proposed.In this algorithm,considering the distribution of the data set,the sample points are divided into isolated points,low density points and core points,and then the isolated points and low density points are eliminated,and the initial clustering cen⁃ter is selected in the core points.Isolated points do not participate in the calculation of the mean value of all kinds of samples in the process of clustering.The outlier is assigned to the corresponding class according to the nearest principle to complete the whole al⁃gorithm.The experimental results show that the improved K-means algorithm can improve the clustering accuracy,reduce the num⁃ber of iterations,and get better clustering results.

作者杨一帆贺国先李永定 YANG Yi-fan;HE Guo-xian;LI Yong-ding(School of Transportation,Lanzhou Jiaotong University,Lanzhou 730070,China)

机构地区兰州交通大学交通运输学院

出处《电脑知识与技术》 2021年第5期252-255,共4页 Computer Knowledge and Technology

关键词聚类 K-MEANS 最近邻点密度初始聚类中心孤立点 clustering k-means nearest neighbor density initial clustering center isolated points

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1赵文冲,蔡江辉,赵旭俊,张继福.一种影响空间下的快速K-means聚类算法[J].小型微型计算机系统,2016,37(9):2060-2064. 被引量：7
2贾瑞玉,李玉功.类簇数目和初始中心点自确定的K-means算法[J].计算机工程与应用,2018,54(7):152-158. 被引量：47
3胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：62
4金晓民,张丽萍.基于最小生成树的多层次k-Means聚类算法及其在数据挖掘中的应用[J].吉林大学学报（理学版）,2018,56(5):1187-1192. 被引量：17
5何熊熊,管俊轶,叶宣佐,詹亦钊.一种基于密度和网格的簇心可确定聚类算法[J].控制与决策,2017,32(5):913-919. 被引量：21
6邢长征,谷浩.基于平均密度优化初始聚类中心的k-means算法[J].计算机工程与应用,2014,50(20):135-138. 被引量：32
7冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：48
8高诗莹,周晓锋,李帅.基于密度比例的密度峰值聚类算法[J].计算机工程与应用,2017,53(16):10-17. 被引量：22
9邵伦,周新志,赵成萍,张旭.基于多维网格空间的改进K-means聚类算法[J].计算机应用,2018,38(10):2850-2855. 被引量：15
10李晓瑜,俞丽颖,雷航,唐雪飞.一种K-means改进算法的并行化实现与应用[J].电子科技大学学报,2017,46(1):61-68. 被引量：49

二级参考文献80

1李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
2杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
3FAHIM A.M,SALEM A.M,TORKEY F.A,RAMADAN M.A.An efficient enhanced k-means clustering algorithm[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2006,7(10):1626-1633. 被引量：29
4贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：222
5刘敏娟,柴玉梅,张西芝.基于相似度的网格聚类算法[J].计算机工程与应用,2007,43(7):198-201. 被引量：12
6钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
7袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
8谢崇宝,袁宏源,郭元裕.最优分类的模糊划分聚类改进方法[J].系统工程,1997,15(1):58-63. 被引量：12
9毛韶阳,李肯立.优化K-means初始聚类中心研究[J].计算机工程与应用,2007,43(22):179-181. 被引量：26
10孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50

共引文献303

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2张明宇,齐瑞锋,王强,刘峰.喷杆机械臂障碍物检测系统设计与性能测试[J].中国农业信息,2021,33(2):49-56. 被引量：2
3刘凌旗,张炜,王洪川.世界人工智能研究储量及技术热点分析——基于2013~2018年SCIE高质量数据[J].中国电子科学研究院学报,2020,15(2):115-124.
4张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：18
5骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
6穆建晔,田碧洁.影响经济发展的文化因素及其扬弃[J].学术交流,2000(3):36-38.
7谢璐,金志刚,王颖.基于视频稳像和视角变换的公交客流计数方法[J].计算机应用,2013,33(10):2926-2930. 被引量：6
8韩最蛟.基于数据密集性的自适应K均值初始化方法[J].计算机应用与软件,2014,31(2):182-187. 被引量：19
9李蓉,周维柏.基于改进的K-Means算法入侵检测框架[J].实验室研究与探索,2014,33(3):110-114. 被引量：3
10魏瑶,朱伟义,龚桃荣,郑浩.基于数据挖掘技术的用电异常分析系统设计[J].电力信息与通信技术,2014,12(5):70-73. 被引量：13

同被引文献45

1赵明清,蒋昌俊,陶树平.基于等价相异度矩阵的聚类[J].计算机科学,2004,31(7):183-184. 被引量：11
2朱帮助,林健.基于支持向量数据描述的无标签数据多类分类[J].智能系统学报,2009,4(2):131-136. 被引量：3
3陶新民,刘福荣,童智靖,杨立标.不均衡数据下基于SVM的故障检测新算法[J].振动与冲击,2010,29(12):8-12. 被引量：20
4刘建美,马寿峰,马帅奇.基于改进的Dijkstra算法的动态最短路计算方法[J].系统工程理论与实践,2011,31(6):1153-1157. 被引量：45
5周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
6王树西,吴政学.改进的Dijkstra最短路径算法及其应用研究[J].计算机科学,2012,39(5):223-228. 被引量：91
7胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：62
8张靖,段富.优化初始聚类中心的改进k-means算法[J].计算机工程与设计,2013,34(5):1691-1694. 被引量：56
9王勇,唐靖,饶勤菲,袁巢燕.高效率的K-means最佳聚类数确定算法[J].计算机应用,2014,34(5):1331-1335. 被引量：65
10孟子健,马江洪.一种可选初始聚类中心的改进k均值算法[J].统计与决策,2014,30(12):12-14. 被引量：18

引证文献6

1杨其帆,周展,湛松扬,吴凡.基于聚类分析的室外配餐点选取模型[J].科学技术创新,2021(15):168-171.
2张嘉龙.一种新的选取K-means初始聚类中心算法[J].现代计算机,2021,27(18):56-59. 被引量：2
3陈扬,刘勤明,梁耀旭.陌生小样本不平衡数据下基于机器学习联合算法的设备寿命预测研究[J].计算机应用研究,2021,38(11):3366-3370. 被引量：4
4刘晓彤,赵小兵.基于文本数据挖掘的新冠疫苗接种的情感分析[J].信息技术与标准化,2022(3):74-78. 被引量：3
5许健,王琪,唐海荣,韩少聪,张弛,陈梁,倪洋.基于改进K-means算法的指标阈值告警方法研究[J].现代计算机,2022,28(20):31-36. 被引量：1
6罗晓萍,廖可非,欧阳缮,杜毅.基于聚类相参叠加的频率分集阵列雷达目标成像方法[J].桂林电子科技大学学报,2023,43(2):99-105. 被引量：2

二级引证文献12

1曾怡苗.基于环形数据集的改进K-means聚类算法[J].软件,2021,42(11):74-76. 被引量：1
2崔家勇,王锡苓.社交媒体中的新冠疫苗信息框架及其对疫苗犹豫的影响--基于新浪微博的内容分析与在线控制实验[J].信息资源管理学报,2022,12(3):165-180. 被引量：5
3苗水清,闫文耀,吴梦蝶.基于并行权重自适应k-邻域算法的图像分类方法[J].贵州师范大学学报（自然科学版）,2023,41(2):113-120.
4冉桂玲.方形件组批优化模型[J].科学技术创新,2023(17):224-228.
5董华忠,蒋达飞,尹维波.电动汽车接入配电网不平衡负荷数据渐进学习方法[J].电子设计工程,2023,31(19):20-24.
6陈凌,火明刚,陶雪娇,朱长娥.基于改进贝叶斯的知识图谱关联查询算法仿真[J].计算机仿真,2023,40(7):453-456.
7庞丽,王利鹏,郑春雨,陈婕.科技期刊文本与数据挖掘人工智能应用的研究进展[J].中国科技期刊研究,2023,34(8):1007-1013.
8黄欣怡,谢宁波,廖可非,李沁璘.阵元与阵间频偏联合设计的FDA解模糊成像[J].国外电子测量技术,2023,42(11):8-14.
9周鹏,王丽莹,李鹏飞,布锦钶,吕子悦,高艺蜚,张文理,赵青.基于频率分集阵列小埋体检测三维形貌成像方法[J].郑州航空工业管理学院学报,2024,42(2):72-78.
10刘云香,同军红,李穂丰,吴晓玲.小样本机器学习下数据多尺度挖掘算法设计[J].计算机仿真,2024,41(4):431-435.

1康庄,杨杰,李桂兰,南柄飞,曾璐.基于改进YOLOv3的站口行人检测方法[J].铁道科学与工程学报,2021,18(1):55-63. 被引量：7
2刘志秀,胡峰,邓维斌,于洪.基于密度聚类和邻域的主动学习方法[J].山西大学学报（自然科学版）,2020,43(4):850-857. 被引量：2
3胡晓敏,王明丰,张首荣,李敏.用于文本聚类的新型差分进化粒子群算法[J].计算机工程与应用,2021,57(4):61-67. 被引量：7

电脑知识与技术

2021年第5期

浏览历史

内容加载中请稍等...

优化初始聚类中心选择的K-means算法被引量：6

参考文献11

二级参考文献80

共引文献303

同被引文献45

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

优化初始聚类中心选择的K-means算法 被引量：6

参考文献11

二级参考文献80

共引文献303

同被引文献45

引证文献6

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

优化初始聚类中心选择的K-means算法被引量：6