一种优化初始中心点的K-means算法被引量：139

A K-means Algorithm Based on Optimized Initial Center Points

导出

摘要针对K-means算法所存在的问题,提出一种优化初始中心点的算法.采用密度敏感的相似性度量来计算对象的密度,启发式地生成样本初始中心.然后设计一种评价函数——均衡化函数,并以均衡化函数为准则自动生成聚类数目.与传统算法相比,本文算法可得到较高质量的初始中心和较稳定的聚类结果.实验结果表明该算法的有效性和可行性. Aiming at the problems of K-means algorithm, a method is proposed to optimize the initial center points through computing the density of objects. Thus, the initial center of the samples can be built in a heuristic way. Then, a new evaluation function is proposed, namely equalization function, and consequently the cluster number is generated automatically. Compared with the traditional algorithms, the proposed algorithm can get initial centers with higher quality and steadier cluster results. Experimental results show the effectiveness and feasibility of the proposed algorithm.

作者汪中刘贵全陈恩红

机构地区中国科学技术大学计算机科学与技术系安徽省计算与通讯软件重点实验室

出处《模式识别与人工智能》 EI CSCD 北大核心 2009年第2期299-304,共6页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金资助项目(No.60775037)

关键词 K-MEANS算法密度初始中心点均衡化函数 K-means Algorithm, Density, Initial Center Point, Equalization Function

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1Han J, Kamber M. Data Mining Concepts and Techniques. Orlando, USA: Morgan Kaufmann Publishers, 2001
2史忠植.知识发现[M].北京:清华大学出版社,2004.137-140.
3Huang J Z, Ng M K, Rang Hongqiang, et al. Automated Variable Weighting in K-means Type Clustering. IEEE Trans on Pattern Analysis and Machine Intelligence, 2005, 27 (5) : 657 - 668
4Dhillon I S, Guan Yuqiang, Kogan J. Refining Clusters in High Dimensional Text Data//Proc of the 2nd SIAM Workshop on Clustering High Dimensional Data. Arlington, USA, 2002 : 59 - 66
5Zhang B. Generalized K-Harmonic Means: Dynamic Weighting of Data in Unsupervised Learning//Proc of the 1 st SIAM International Conference on Data Mining. Chicago, USA, 2001 : 1 - 13
6杨风召,朱扬勇.一种有效的量化交易数据相似性搜索方法[J].计算机研究与发展,2004,41(2):361-368. 被引量：26
7Sarafis I, Zalzala A M S, Trinder P W. A Genetic Rule-Based Data Clustering Toolkit//Proc of the Congress on Evolutionary Computation. Honolulu, USA, 2002 : 1238 - 1243
8Ma J, Perkins S. Time-Series Novelty Detection Using One-Class Support Vector Machines// Proc of the International Joint Conference on Neural Networks. Portland, USA, 2003, Ⅲ: 1741 - 1745
9Kaufman L,Rousseeuw P J. Finding Groups in Data: An Introduction to Cluster Analysis. New York, USA: John Wiley & Sons, 1990
10钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32

二级参考文献45

1李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：113
2A Guttman. R-Tree: A dynamic index structure for spatial searching. The ACM SIGMOD Int'l Conf on Management of Data, Boston, MA, 1984
3T Sellis, N Roussopoulos, C Faloutsos. The R+ tree: A dynamic index for multidimensional objects. The 13th Int'l Conf on Very Large Data Bases, Brighton, England, 1987
4N Beckman, H-P Kriegel, R Schneider et al. The R*-tree: An efficient and robust method for points and rectangles. The ACM SIGMOD Int'l Conf on Management of Data, Atlantic City, NJ, 1990
5N Katayama, S Satoh. The SR-tree: An index structure for high dimensional nearest neighbor queries. The ACM SIGMOD Int'l Conf on Management of Data, Tucson, Arizona, USA, 1997
6S Berchtold, D Keim, H-P Kriegel. The X-tree: An index structure for high-dimensional data. The 22nd Int'l Conf on Very Large Data Bases, Bombay, India, 1996
7S Berchtold, C Bhm, H V Jagadish et al. Independent quantization: An index compression technique for high-dimensional data spaces. The 16th Int'l Conf on Data Engineering, San Diego, California, USA, 2000
8Y Sakurai, M Yoshikawa, S Uemura et al. The A-tree: An index structure for high-dimensional spaces using relative approximation. The 26th Int'l Conf on Very Large Data Bases, Cairo, Egypt, 2000
9R Weber, H J Scheck, S Blott. A quantitative analysis and performance study for similarity search methods in high dimensional spaces. The 24th Int'l Conf on Very Large Data Bases, New York City, New York, USA, 1998
10K Beyer, J Goldstein, R Ramakrishnan et al. When is nearest neighbors meaningful? The 7th Int'l Conf on Database Theory, Jerusalem, Israel, 1999

共引文献152

1但小岗,陈笑蓉.决策树学习算法在土地规划分析的应用研究[J].科技创新导报,2007,4(34):123-124.
2吴金炎.自动排课系统的研究与实现[J].福建教育学院学报,2005,2(1):119-120. 被引量：4
3常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
4陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
5王华伟,施智平,史忠植,胡宏.一种基于子镜头聚类的情节代表帧选取方法[J].计算机工程与应用,2005,41(27):157-159. 被引量：2
6李由,刘东波,张维明.基于数据实例分布特征的自动模式匹配方法[J].计算机科学,2005,32(11):85-87. 被引量：11
7陈静.基于代表帧的视频摘要方法在家庭视频中的应用[J].现代计算机,2006,12(6):82-84. 被引量：1
8杨风召.一种基于特征表的协同过滤算法[J].计算机工程与应用,2007,43(6):184-187.
9周顺先,林亚平,王耀南,易叶青.基于聚簇隐马尔可夫模型的文本信息抽取[J].系统仿真学报,2007,19(21):4926-4931. 被引量：2
10吴艳文,胡学钢.一种K-means算法的k值优化方案[J].巢湖学院学报,2007,9(6):21-24. 被引量：6

同被引文献1035

1田地,张西芝,刘小航.一种基于扩展的K-means聚类算法[J].河南教育学院学报（自然科学版）,2007,16(2):26-28. 被引量：3
2贺文强,苗果园,张永清,高志强.山西省小麦品质区划研究[J].山西师范大学学报（自然科学版）,2006,20(2):82-84. 被引量：9
3高凤荣,邢春晓,杜小勇,王珊.基于矩阵聚类的协作过滤算法[J].华中科技大学学报（自然科学版）,2005,33(z1):257-260. 被引量：3
4张海荣,朱信忠,赵建民,徐慧英.一种优化的基于用户聚类的过滤推荐策略[J].计算机系统应用,2008,17(11):95-97. 被引量：6
5张月琴,刘静.一种改进的聚类算法在入侵检测中的应用[J].太原理工大学学报,2008,39(S1):74-76. 被引量：2
6朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
7杨国鹏,余旭初,陈伟,刘伟.基于核Fisher判别分析的高光谱遥感影像分类[J].遥感学报,2008,12(4):579-585. 被引量：24
8江景涛,王延耀,杨然兵,梅树立.基于分裂Bregman算法的玉米种子品种识别(英文)[J].农业工程学报,2012,28(S2):248-252. 被引量：10
9张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
10霍丹群,张苗苗,侯长军,秦辉,尹猛猛,沈才洪,张宿义,卢中明,张良.基于主成分分析和判别分析的白酒品牌鉴别方法[J].农业工程学报,2011,27(S2):297-301. 被引量：32

引证文献139

1王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
2陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
3孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进[J].沈阳师范大学学报（自然科学版）,2009,27(4):448-450. 被引量：15
4刘金岭.基于语义的中文文本聚类最佳簇数研究[J].计算机工程与设计,2010,31(9):2034-2036.
5杨瑞龙,朱庆生,谢洪涛.快速混合Web文档聚类[J].计算机工程与应用,2010,46(22):12-15. 被引量：3
6王春艳,程霜梅,杨鑫.基于聚簇样本约减的K-近邻神经网络分类器[J].情报科学,2010,28(10):1547-1549.
7姚跃华,史秀岭.一种优化初始中心的K-means粗糙聚类算法[J].计算机工程与应用,2010,46(34):126-128. 被引量：14
8苏喻,郑诚,封军.文本聚类中基于密度聚类算法的研究与改进[J].微型机与应用,2011,30(1):1-3. 被引量：2
9崔春生,吴祈宗,王莹.用于推荐系统聚类分析的用户兴趣度研究[J].计算机工程与应用,2011,47(7):226-228. 被引量：15
10张燕平,张娟,何成刚,褚维翠,张利娜.基于佳点集与Leader方法的改进K-means聚类算法[J].计算机应用,2011,31(5):1359-1362. 被引量：3

二级引证文献1116

1周斌,苏鹏,高鹏.基于改进YOLOv3算法的挖掘机检测方法[J].数字制造科学,2022(2):141-145. 被引量：1
2金圣杰.融媒体环境下大学生心理危机管理研究[J].中外企业家,2020,0(15):168-168. 被引量：1
3杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：20
4卢文跃,刘彦斌.基于复杂网络的公共自行车调度区域划分方法研究[J].智能物联技术,2020,52(6):9-15.
5黄鹤,李潇磊,王珺,王会峰,茹锋.基于随机跳跃蝠鲼算法优化的电影信息数据聚类[J].南京大学学报（自然科学版）,2022,58(5):856-867.
6齐锡晶,刘乃畅,陈浩然.开发企业参建模式下保障性租赁住房的综合效益评价研究[J].建筑经济,2022,43(S01):753-758. 被引量：2
7宋志飞,彭金莲.海南农垦耕地类型的聚类分析[J].计算机应用研究,2020,37(S01):88-91. 被引量：1
8杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
9石媛.个性化推荐算法综述[J].智能计算机与应用,2020(8):110-112. 被引量：3
10陈莉霞.大数据背景下跨境电商平台供应商信用评估研究[J].大众投资指南,2021(1):34-35. 被引量：1

1钱雪忠,施培蓓,张明阳,汪中.基于均衡化函数的k均值优化算法[J].计算机工程,2008,34(14):60-62. 被引量：7
2姚跃华,史秀岭.一种优化初始中心的K-means粗糙聚类算法[J].计算机工程与应用,2010,46(34):126-128. 被引量：14
3王森,赵发勇,陈曙光.基于用户领域知识优化ID3算法的研究与应用[J].阜阳师范学院学报（自然科学版）,2016,33(2):65-69.
4徐枫,刘爱东,陈宏利.一种水下对空成像图像增强算法[J].光学与光电技术,2007,5(3):59-61. 被引量：4
5施培蓓,钱雪忠,汪中.基于均衡化函数的快速K-means算法[J].计算机工程与应用,2008,44(3):189-191. 被引量：1
6田地,王世卿.数据挖掘中基于密度和距离聚类算法设计[J].计算机技术与发展,2006,16(10):49-51. 被引量：5
7王玲,薄列峰,焦李成.密度敏感的谱聚类[J].电子学报,2007,35(8):1577-1581. 被引量：61
8孟海东,马娜娜,宋宇辰,徐贯东.基于密度函数加权的模糊C均值聚类算法研究[J].计算机工程与应用,2012,48(27):123-127. 被引量：11
9苏辉,葛洪伟,张欢庆,袁运浩.密度敏感的数据竞争聚类算法[J].计算机应用,2015,35(2):444-447. 被引量：2
10周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48

模式识别与人工智能

2009年第2期

浏览历史

内容加载中请稍等...

一种优化初始中心点的K-means算法被引量：139

参考文献13

二级参考文献45

共引文献152

同被引文献1035

引证文献139

二级引证文献1116

相关作者

相关机构

相关主题

浏览历史

一种优化初始中心点的K-means算法 被引量：139

参考文献13

二级参考文献45

共引文献152

同被引文献1035

引证文献139

二级引证文献1116

相关作者

相关机构

相关主题

浏览历史

一种优化初始中心点的K-means算法被引量：139