一种改进的K-means聚类算法被引量：23

An Improved Algorithm of K-means

下载PDF

导出

摘要 K-means算法是最常用的聚类算法之一,有很多的优点,但也存在着不足。它不仅对样本的输入顺序敏感,可能产生局部最优解,而且受孤立点的影响很大。文章正是针对这些不足,提出了一种改进的K-means算法,主要从数据预处理、初始聚类中心的选择方面进行了改进,并做了改进前后算法的对比实验。结果表明,改进后的算法不但更具稳定性,准确度也高,受孤立点的影响也大大降低。 K-means algorithm is one of the most widespread methods in clustering, including both strong points and also shortages. Not only is it sensitive to the order of sample data, but also it may make out the local excellent and be affected by the outliers. Given these shortages, an improved algorithm is discussed, which makes improvements in data preprocessing and selection of original clustering center. Check experiment was done, which indicates the improved one is more stable, more accurate and the affection by the outliers is down to a much low figure.

作者连凤娜吴锦林唐琦

机构地区厦门大学信息科学与技术学院

出处《电脑与信息技术》 2008年第1期38-40,共3页 Computer and Information Technology

关键词 K-MEANS算法聚类孤立点 k-means dustering outliers

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Han J W Kamber M 范明孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版杜,2001.147-158.
2Kaufan L, Rousseeuw Pj. Finding Groups in Data: an Introduction to Cluster Analysis[M]. New York: John Wiley & Sons, 1990.
3Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databased[C]. In Haas LM, Tiwary A eds. Proceedings of the ACM SIGMOD International Conference on Management of Data, Sesttle: ACM Press, 1998:73-84.
4陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
5袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48

二级参考文献13

1JiaweiHan MichelineKamber 范明孟小峰译.数据挖掘概念与技术[M].北京：机械工业出版社,2002..
2E M Knorr,R T Ng,V Tucakov. Distance-Based Outliers :Algorithms and Applications[J].VLDB Journal:Very Large Databases,2000:237～253
3S D Bay,M Schwabacher. Mining Distance-Based Outliers in Near Linear Time with Randomization and a Simple Pruning Rule[C].In:SIGKDD '03, Washington, DC, USA ,2003
4J Laurikkala,M Juhola,E Kentala. Informal Identification of Outliers in Medical Data[C].In :5th International Workshop on Intelligent Data Analysis in Medicine and Pharmacology, (IDAMAP-2000) ,2000
5K Yamanishi,J Takeuchi.A Unifying Framework for Detecting Oulliers and Change Points from Non-Stationary Time Series Data[C].In:SIGKDD '02 Edmonton,Alberta,Canda,2002
6S Ramaswamy,R Rastogi,K Shim. Efficient Algorithms for Mining Outliers from Large Data Sets[C].In:Proceedings of the ACM SIGMOD Conference, 2000: 473～438
7Wen Jin,K H Tung,Jiawei Han. Mining Top-n Local Outliers in Large Databases[C].In:KDD 2001 San Francisco,California USA
8F Angiulli,C Pizzuti.Fast Outlier Detection in High Dimensional Spaces[C].In:Proccedings of the Sixth European Conference on the Principles of Data Mining and Knowledge Discovery,2002:15～16
9NHL data.http://moo. Hawaii.edu: 1749/hockey/hockey.html
10La Jolla. Alternatives to the k-means algorithm that find better clustering. Department of Computer Science and Engineering,University of California,San Diego,CA92093

共引文献201

1周文勇.改进的K-均值聚类算法[J].光盘技术,2007(2):54-56. 被引量：6
2楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
3叶震,周兵斌.基于数据挖掘的NIDS日志分析系统[J].合肥工业大学学报（自然科学版）,2005,28(1):87-90.
4于希宁,牛成林,李建强.基于决策树和专家系统的短期电力负荷预测系统[J].华北电力大学学报（自然科学版）,2005,32(5):57-61. 被引量：27
5陈亚东.数据挖掘在图书馆中的应用[J].中华医学图书情报杂志,2006,15(5):16-18. 被引量：3
6郭俊芳,谢益武,周生宝.关联规则相关性的度量[J].计算机应用,2007,27(4):892-893. 被引量：6
7徐雪松,章兢,贺庆.一种基于免疫聚类竞争的关联规则挖掘算法[J].计算机工程与应用,2007,43(16):16-19. 被引量：1
8蒋志方,祝翠玲,吴强.一个对不带类别标记文本进行分类的方法[J].计算机工程,2007,33(12):96-98. 被引量：1
9张钊,王锁柱,张雨.一种基于SOM和PAM的聚类算法[J].计算机应用,2007,27(6):1400-1402. 被引量：8
10曾小宁,肖水晶.一种增量更新算法在数据挖掘中的应用[J].计算机应用,2007,27(6):1403-1406. 被引量：1

同被引文献151

1周文勇.改进的K-均值聚类算法[J].光盘技术,2007(2):54-56. 被引量：6
2陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
3袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
4刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
5邵锐,巫兆聪,钟世明.基于粗糙集的K-均值聚类算法在图像分割中的应用[J].测绘信息与工程,2005,30(5):1-2. 被引量：6
6李培强,李欣然,陈辉华,唐外文.基于模糊聚类的电力负荷特性的分类与综合[J].中国电机工程学报,2005,25(24):73-78. 被引量：131
7杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
8张玉英,孟海东.数据挖掘技术中聚类算法的改进研究[J].包头钢铁学院学报,2005,24(4):338-341. 被引量：4
9王本年,高阳,陈兆乾,谢俊元,陈世福.面向Option的k-聚类Subgoal发现算法[J].计算机研究与发展,2006,43(5):851-855. 被引量：8
10周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72

引证文献23

1步媛媛,关忠仁.基于K-means聚类算法的研究[J].西南民族大学学报（自然科学版）,2009,35(1):198-200. 被引量：23
2顾洪博,张继怀.基于孤立点和初始质心选择的k-均值改进算法[J].长江大学学报（自科版）（上旬）,2009,6(1):60-62. 被引量：7
3雷宏,张著洪.受约束的两类数据分割算法及其应用[J].贵州大学学报（自然科学版）,2009,26(2):85-89.
4顾洪博,苏冬娜.基于孤立点和初始质心选择的k均值算法的改进与应用[J].陕西理工学院学报（自然科学版）,2009,25(3):45-49. 被引量：4
5顾洪博,赵万平.数据挖掘算法性能优化的研究与应用[J].长春理工大学学报（自然科学版）,2010,33(1):164-166. 被引量：9
6王德荣,李卫华.网络号百用户兴趣模型挖掘算法[J].现代计算机,2010,16(4):44-48. 被引量：1
7顾洪博,张继怀.聚类算法初始聚类中心的优化[J].西安工程大学学报,2010,24(2):222-226. 被引量：7
8孙祥,赵勇.基于就业吸引力的大学生区域流向分类研究[J].黄冈师范学院学报,2010,30(3):46-51. 被引量：6
9顾洪博,张继怀.改进的k-均值算法在聚类分析中的应用[J].西安科技大学学报,2010,30(4):484-489. 被引量：3
10钟晓旭,胡学钢.基于数据挖掘的Web招聘信息相关性分析[J].安徽建筑工业学院学报（自然科学版）,2010,18(4):93-96. 被引量：11

二级引证文献275

1赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
2周桃义.大数据背景下高职工商管理专业学生岗位需求分析[J].区域治理,2018,0(43):61-61.
3顾洪博,张继怀.改进的k-均值算法在聚类分析中的应用[J].西安科技大学学报,2010,30(4):484-489. 被引量：3
4周文鹏.基于数据挖掘的个性化网页推送服务模式研究[J].计算机与数字工程,2010,38(8):58-61. 被引量：4
5黄美璇.一种基于Kmax的K-means改进算法[J].佛山科学技术学院学报（自然科学版）,2010,28(2):49-52. 被引量：1
6简艳,贾洪勇.一种基于数据场的K-均值算法[J].计算机应用研究,2010,27(12):4498-4501. 被引量：11
7周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
8向娴,汤建龙.一种基于网格密度聚类的雷达信号分选[J].火控雷达技术,2010,39(4):67-72. 被引量：13
9李辉.禁忌粒子群算法[J].陕西理工学院学报（自然科学版）,2011,27(1):85-90. 被引量：4
10石红丽,王洁,唐艳,张小军.基于无线传感器网络的K均值算法研究[J].电子设计工程,2011,19(6):113-115. 被引量：2

1马勇.一种改进的K-means聚类分析算法在医院信息系统中的应用研究[J].信息资源管理学报,2012,2(3):93-96. 被引量：1
2程晓旭,于海涛,李梓.改进的K-means网络入侵检测算法[J].智能计算机与应用,2012,2(2):21-23. 被引量：2
3龚静,李安民.一种改进的k-means中文文本聚类算法[J].湖南工业大学学报,2008,22(2):52-54. 被引量：13
4孙珊珊.聚类分析在入侵检测中的应用[J].河北省科学院学报,2010,27(3):31-34. 被引量：2
5郑鹏宇.一种挖掘模糊关联规则的新方法[J].福建电脑,2007,23(3):11-12.
6张英武.一种改进的基于粒子群的离线聚类算法[J].鞍山师范学院学报,2013,15(4):46-49.
7卢洋,张旭秀.图像边缘检测算法的对比分析与研究[J].太原科技,2009(3):50-52. 被引量：7
8韩春燕.一种改进的K-means算法[J].内江师范学院学报,2009,24(8):27-30.
9侯丽敏,王文莉.基于SOM改进的K-Means聚类算法[J].内蒙古大学学报（自然科学版）,2011,42(5):586-590. 被引量：3
10顾洪博,赵万平.数据挖掘算法性能优化的研究与应用[J].长春理工大学学报（自然科学版）,2010,33(1):164-166. 被引量：9

电脑与信息技术

2008年第1期

浏览历史

内容加载中请稍等...

一种改进的K-means聚类算法被引量：23

参考文献5

二级参考文献13

共引文献201

同被引文献151

引证文献23

二级引证文献275

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means聚类算法 被引量：23

参考文献5

二级参考文献13

共引文献201

同被引文献151

引证文献23

二级引证文献275

相关作者

相关机构

相关主题

浏览历史

一种改进的K-means聚类算法被引量：23