K-Means聚类算法的研究被引量：134

The Research about Clustering Algorithm of K-Means

下载PDF

导出

摘要 K-Means算法是一种经典的聚类算法,有很多优点,也存在许多不足。比如初始聚类数K要事先指定,初始聚类中心选择存在随机性,算法容易生成局部最优解,受孤立点的影响很大等。文中主要针对K-Means算法初始聚类中心的选择以及孤立点问题加以改进,首先计算所有数据对象之间的距离,根据距离和的思想排除孤立点的影响,然后提出了一种新的初始聚类中心选择方法,并通过实验比较了改进算法与原算法的优劣。实验表明,改进算法受孤立点的影响明显降低,而且聚类结果更接近实际数据分布。 The algorithm of K-means is one kind of classical clustering algorithm,including both many points and also shortages.For example must choose the initial clustering number.The choose of initial clustering centre has randomness.The algorithm receives locally optimal solution easily,the effect of isolated point is serious.Mainly improved the choice of initial clustering centre and the problem of isolated point.First of all,the algorithm calculated distance between all data and eliminated the effect of isolated point.Then proposed one new method for choosing the initial clustering centre and compared the algorithm having improved and the original algorithm using the experiment.The experiments indicate that the effect of isolated point for algorithm having improved reduces obviously,the results of clustering approach the actual distribution of the data.

作者周爱武于亚飞

机构地区安徽大学计算机科学与技术学院

出处《计算机技术与发展》 2011年第2期62-65,共4页 Computer Technology and Development

基金安徽省教育科研重点项目(KJ2009A57)

关键词 K-MEANS算法初始聚类中心孤立点 K-Means initial clustering centre isolated point

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献11

1周卫星,廖欢.基于K均值聚类和概率松弛法的图像区域分割[J].计算机技术与发展,2010,20(2):68-70. 被引量：10
2Mac Q J. Some methods for classification and analysis of mult- ivariate observations [ C ]//In: Proc. 5th Berkeley Symposium in Mathematics. Berkeley, USA : Univ of California, 1967.
3GUHA S, RASTOGI R, SHIM K. CURE: An efficient clustering algorithm for large databases [ C ]//Proceedings of the 1998 ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1998: 73-84.
4Ester,Martin, Hans Peter Kriegel, et al. A Density Based Algoriihm for Discovering Clusters in Large Spatial Databases with Noise [ C ]//Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining(KDD-96). Ortland,Oregon: [ s. n. ] ,.1996.
5Wang W, Yang J, Muntz R. STING : A Statistical Information Grid Approach to Spatial Data Mining[ C ]//Proc. of 1997 Intl. Conf. on Very Large Databases. Athens, Greece : [ s. n. ], 1997 : 186-195.
6Kohonen T. Self -- organized Formation of Topologically Correct Feature Maps [ J ]. Biological Cybernetics, 1982,43 ( 1 ) : 59 -69.
7李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
8苏锦旗,薛惠锋,詹海亮.基于划分的K-均值初始聚类中心优化算法[J].微电子学与计算机,2009,26(1):8-11. 被引量：33
9步媛媛,关忠仁.基于K-means聚类算法的研究[J].西南民族大学学报（自然科学版）,2009,35(1):198-200. 被引量：22
10连凤娜,吴锦林,唐琦.一种改进的K-means聚类算法[J].电脑与信息技术,2008,16(1):38-40. 被引量：23

二级参考文献37

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：47
3王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
5黄光球,王西邓,刘冠.基于网格划分策略的改进人工鱼群算法[J].微电子学与计算机,2007,24(7):83-86. 被引量：18
6Han J W, Kamber M. Data mining concepts and techniques[ M].北京:高等教育出版社,2002:335-394.
7Bradley P S, Fayyad U M. Refining initial points for K- Means clustering [ C ]// Proc. of the 15th International Conf. on Machine Learning. San Franciseo, CA: Morgan Kaufmann, 1998: 91 - 99.
8Mob' d B Al- Daoud, Stuart A Roberts. New methods for the initialization of clusters[J]. Pattern Recognition Letters, 2001(17) :451 - 455.
9Kaufman L, Rousseeuw P J. Finding groups in data:an introduction to cluster analysis[M]. NY:John Wiley&Sons, 1990.
10Moh' d B,Al - Daoud,Stuart A Roberts. New methods for the initialization of clusters[J]. Pattern Recognition Letters,2002(17) :451 - 455.

共引文献125

1楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
2张红荣,张峰.传统的K-means聚类算法的研究与改进[J].咸阳师范学院学报,2010,25(4):59-62. 被引量：4
3周爱武,汪贤惠,刘慧婷.基于HowNet词汇相关性的文本聚类[J].微电子学与计算机,2015,32(4):90-93. 被引量：4
4邓江华,熊小红.基于等腰直角三角形的二值图像压缩算法研究[J].黄冈师范学院学报,2007,27(6):52-57. 被引量：1
5牛冀平,张勇传,胡志华,杨族桥.大流域DEM的地形结构线的提取方法研究[J].水电能源科学,2008,26(1):84-87. 被引量：1
6连凤娜,吴锦林,唐琦.一种改进的K-means聚类算法[J].电脑与信息技术,2008,16(1):38-40. 被引量：23
7孙丹萍,吴佳,张永红,白净,翁维良,吴煜.基于特征聚类的舌下络脉自动提取方法[J].中国生物医学工程学报,2008,27(2):265-269. 被引量：12
8韦佳,彭宏,林毅申.基于改进距离的孤立点检测方法[J].华南理工大学学报（自然科学版）,2008,36(9):25-30. 被引量：12
9闫宗奎,石冰.基于网格模型的孤立点检测算法[J].山东大学学报（理学版）,2008,43(11):58-60.
10荣宝坚,刘杨,杨丽芳,梁莹,李玥.基于等腰直角三角形的分形图像压缩算法[J].广西科学院学报,2008,24(4):291-292.

同被引文献1167

1刘厚莲.中国老年人口健康状况变动——基于第六次、第七次全国人口普查数据的分析[J].老龄科学研究,2023,11(2):1-14. 被引量：8
2张英婕,王洪强,徐愉.一线城市房屋租赁价格影响因素研究——以上海市中心城区为例[J].价格理论与实践,2020(11):72-75. 被引量：7
3李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
4郑昌文,严平,丁明跃,苏康.飞行器航迹规划研究现状与趋势[J].宇航学报,2007,28(6):1441-1446. 被引量：94
5刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
6冯前进.浅议网络诈骗犯罪的遏制对策[J].信息网络安全,2008(4):32-34. 被引量：19
7蔡竞峰,John,Durkin,蔡清波.数据挖掘的机遇、应用和发展战略[J].计算机科学,2002,29(z1):225-228. 被引量：3
8王洪,汪同庆,刘建胜,朱永权,皇甫征声.基于小波包纹理分析的字体识别方法[J].光电工程,2002,29(S1):62-65. 被引量：5
9邓依萍,刘涛.新疆节水农业区划及分区对策研究[J].节水灌溉,2008(10):8-11. 被引量：17
10王连银.基于小波变换的印刷体汉字字体识别研究[J].科技资讯,2007,5(14):61-62. 被引量：2

引证文献134

1赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
2申彦,宋顺林,朱玉全.一种基于半监督的大规模数据集聚类算法[J].南京大学学报（自然科学版）,2011,47(4):372-382. 被引量：1
3吴家鑫,张国栋,刘晓洁,齐鹏,郑应华,何继红,宋敏,葛辛玫,王华丽,曹芹.聚类分析在黄霉素发酵过程中的应用[J].微生物学通报,2012,39(6):865-871. 被引量：12
4孙平安.基于维分量簇中心为初始中心的多维k-means聚类算法[J].曲阜师范大学学报（自然科学版）,2012,38(4):65-69.
5缪凯.基于K-MEANS算法的山东省金融IC卡城市推广规划[J].科技信息,2013(1):461-461.
6张磊,张公让,张金广.一种网格化聚类算法的MapReduce并行化研究[J].计算机技术与发展,2013,23(2):60-64. 被引量：3
7兰远东,刘宇芳,徐涛.分批处理的K-means算法并行实现[J].计算机工程,2012,38(13):145-147. 被引量：2
8李四海,满自斌.自适应特征权重的K-means聚类算法[J].计算机技术与发展,2013,23(6):98-101. 被引量：10
9张凯,谢庆华.K均值算法影响因素的可视化分析[J].山西电子技术,2013(3):8-10.
10冯军帅,樊庆文,王德麾,王之魁.一种运用自聚类方法优化椭圆图像识别的方法[J].电子测试,2013,24(6):19-23. 被引量：2

二级引证文献559

1卢功靖,卢林艳,李媛媛,王成军.基于议题类型的临近预测:使用社交媒体预测新冠肺炎疫情确诊人数[J].中国网络传播研究,2021(4):93-117. 被引量：1
2梁力伟,丁长松,黄辛迪,梁昊,蔡雄.基于重叠社区的“方-药”网络经方配伍规律分析[J].中草药,2020,51(2):496-506. 被引量：5
3禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
4孙铭,魏守科,王莹洁,赵金东,袁梅雪.基于小波分解的LSTM水质预测模型[J].计算机系统应用,2020,29(12):55-63. 被引量：10
5赵春丽,王延博,万润之,孙丽平.基于R语言探析中医药治疗哮喘发作期的用药规律[J].世界科学技术-中医药现代化,2023,25(3):1011-1019. 被引量：4
6何立蜓.基于K-means聚类算法的防汛物资调配改进模型[J].人民黄河,2021,43(S02):272-275. 被引量：1
7唐燕雯.基于聚类算法的农用无人机远程监控系统研究[J].农机化研究,2020,42(9):222-227. 被引量：1
8缪海旭.民航旅客价值初探[J].经营与管理,2021(4):30-34. 被引量：2
9冯霞,曾晓维,卢敏.基于层次出行意图的旅客航线偏好预测[J].计算机应用研究,2020,37(S02):126-128.
10张晨,王建东,罗宵,赵鲲,廖勇.工程管理数字化关键技术研究进展[J].计算机应用,2023,43(S01):187-195. 被引量：6

1唐华松,姚耀文.数据挖掘中决策树算法的探讨[J].计算机应用研究,2001,18(8):18-19. 被引量：120
2魏传华,李静,吴喜之.部分线性模型基于参数信息的统计推断[J].数学的实践与认识,2009,39(19):162-168. 被引量：1
3陈文坤.论和谐法治校园的构建[J].文教资料,2010(27):154-155.

计算机技术与发展

2011年第2期

浏览历史

内容加载中请稍等...

K-Means聚类算法的研究被引量：134

参考文献11

二级参考文献37

共引文献125

同被引文献1167

引证文献134

二级引证文献559

相关作者

相关机构

相关主题

浏览历史

K-Means聚类算法的研究 被引量：134

参考文献11

二级参考文献37

共引文献125

同被引文献1167

引证文献134

二级引证文献559

相关作者

相关机构

相关主题

浏览历史

K-Means聚类算法的研究被引量：134