基于数据抽样的自动k-means聚类算法被引量：4

Automatic k-means clustering algorithm based on data sampling

下载PDF

导出

摘要为了解决传统k-means算法需要输入k值和在超大规模数据集进行聚类的问题,这里在前人研究基础上,首先在计算距离时引入信息熵,在超大规模数据集采用数据抽样,抽取最优样本数个样本进行聚类,在抽样数据聚类的基础上进行有效性指标的验证,并且获得算法所需要的k值,然后利用引入信息熵的距离公式再在超大数据集上进行聚类。实验表明,该算法解决了传统k-means算法输入k值的缺陷,通过数据抽样在不影响数据聚类质量的前题下自动获取超大数据集聚类的k值。 In order to solve the problems of the traditional k-means algorithm in which k values needs to be input and the the ultra-large-scale data set needs to be clustered,on the basis of previous studies,the information entropy is brought in when distance is calculated,and data sampling method is adopted,that is,the optimal samples are extracted from the ultra-large-scale data set to conduct sample clustering. Based on the sample data clustering,the validity indexes are verified and k value re-quired by the algorithm is obtained. The distance formula for information entropy is brought in to carry out clustering on the ultra-large data set. Experiments show that the algorithm can overcome the defects of traditional k-means algorithm for k value input, and can automatically obtain k values of ultra-large data clustering under the premise of not affecting the quality of the early da-ta clustering.

作者罗军锋洪丹丹

机构地区西安交通大学信息中心

出处《现代电子技术》 2014年第8期19-21,共3页 Modern Electronics Technique

关键词 K-MEANS算法信息熵最优样本抽取有效性指标 k-means algorithm information entropy optimal sample extraction validity index

分类号 TN911-34 [电子电信—通信与信息系统] TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1MACQUEEN James. Some methods for classification and analy- sis of multivariate observations [C]// Proceedings of 5-th Berke- ley Symposium on Mathematical Statistics and Probability. Cali- fornia, USA: [s.n.],1967: 281-297.
2GAO Xiao-shan, LI Jing, TAO Da-cheng. Fuzziness measure- ment of fuzzy sets and its application in cluster validity analy- sis [J]. International Journal of Fuzzy Systems, 2007, 9 (4) : 188-191.
3DUDOIT Sandrine, FRIDLYAND Jane. A prediction-based resampling method for estimating the number of clusters in a dataset [J]. Genome biology, 2002, 3(7) : 1-22.
4ROUSSEEUW P J. Silhouettes: a graphical aid to the interpre- tation and validation of cluster analysis [J]. Journal of computa- tional and applied mathematics, 1987, 20: 53-65.
5周世兵,徐振源,唐旭清.基于近邻传播算法的最佳聚类数确定方法比较研究[J].计算机科学,2011,38(2):225-228. 被引量：30
6KAPPA V, TIBSHIRANI R. Are clusters found in one dataset present in another dataset? [J]. Biostatistics, 2007, 8 (1) : 9- 31.
7周世兵,徐振源,唐旭清.K-means算法最佳聚类数确定方法[J].计算机应用,2010,30(8):1995-1998. 被引量：136
8杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
9唐波.改进的K-means聚类算法及应用[J].软件,2012,33(3):100-104. 被引量：9

二级参考文献32

1杨世兴.煤矿监测监控系统的现状与发展[J].安防科技（安全经理人）,2004(5):39-41. 被引量：32
2陈雷,王延章.熵权法对融合网络服务质量效率保障研究[J].计算机工程与应用,2005,41(23):1-3. 被引量：3
3CALINSKI R,HARABASZ J.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1 -27.
4DAVIES D L,BOULDIN D W.A cluster separation measure[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1979,1(2):224-227.
5DUDOIT S,FRIDLYAND J.A prediction-based resampling method for estimating the number of clusters in a dataset[J].Genome Biology,2002,3(7):1-21.
6DIMITRIADOU E,DOLNICAR S,WEINGESSEL A.An examination of indexes for determining the number of cluster in binary data sets[J].Psychometrika,2002,67(1):137-160.
7KAPP A V,TIBSHIRANI R.Are clusters found in one dataset present in another dataset?[J].Biostatistics,2007,8(1):9-31.
8ROUSSEEUW P J.Silhouettes:a graphical aid to the interpretation and validation of cluster analysis[J].Journal of Computational and Applied Mathematics,1987,20(1):53 -65.
9DEMB(E)L(E) D,KASTNER P.Fuzzy C-means method for clustering microarray data[J].Bioinformatics,2003,19(8):973-980.
10Frey B J,Dueck D.Clustering by Passing Messages Between Data Points[J].Science,2007,315(5814):972-976.

共引文献351

1段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
2刘文一,孙伟,朱良明,赵志博.舰载飞行器打击水面舰艇编队队形识别和目标选择方法[J].兵器装备工程学报,2020,41(2):85-89. 被引量：11
3刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
4楼佳,王小华.一种分裂式的k-means聚类算法[J].杭州电子科技大学学报（自然科学版）,2009,29(4):54-57. 被引量：1
5黄仁,冯阿瑞.基于Ncut的自适应图像分割方法[J].土木建筑与环境工程,2013,35(S2):107-110. 被引量：2
6韩丽苹,孟海东,李海荣.聚类算法在矿产资源与经济发展关系研究中的应用[J].煤炭技术,2015,34(5):290-292.
7李桃迎,陈燕.一种改进FCM的快速优化算法及其应用[J].大连海事大学学报,2006,32(4):23-27. 被引量：4
8郭海湘,诸克军,李玥,王得运.软计算与硬计算融合的中国石油需求预测[J].中国地质大学学报（社会科学版）,2007,7(6):24-28. 被引量：2
9孙薇,张省.基于半监督支持向量机的供电企业安全性评价[J].电气应用,2008,27(1):57-60. 被引量：1
10刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1

同被引文献63

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
3刘青,邓庆山.基于有效性测度的基因表达数据的模糊聚类分析[J].计算机工程与科学,2005,27(9):74-76. 被引量：5
4高小梅,冯云,冯兴杰.增量式K-Medoids聚类算法[J].计算机工程,2005,31(B07):181-183. 被引量：9
5徐新华,谢永红.增量聚类综述及增量DBSCAN聚类算法研究[J].华北航天工业学院学报,2006,16(2):15-17. 被引量：5
6张建文,徐琼,王强.基于MPI环境的并行程序设计[J].东华理工学院学报,2007,30(1):81-84. 被引量：10
7王洪春,彭宏.基于模糊C-均值的增量式聚类算法[J].微电子学与计算机,2007,24(6):156-157. 被引量：22
8袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
9胡彩平,秦小麟.一种改进的基于密度的抽样聚类算法[J].中国图象图形学报,2007,12(11):2031-2036. 被引量：4
10纪良浩.基于密度偏差抽样的聚类算法研究[J].重庆邮电大学学报（自然科学版）,2007,19(6):729-732. 被引量：2

引证文献4

1孙菲,张健沛,董野,任福栋,于涛,郭春平.基于标准偏移量的学生成绩K-means聚类分析算法研究[J].齐齐哈尔大学学报（自然科学版）,2015,31(2):57-64. 被引量：6
2韩红伟,苗加庆.基于WFCM算法在MRI图像分割中的应用[J].现代电子技术,2015,38(6):90-93. 被引量：1
3茆汉国.基于K-均值与AGNES聚类算法的校园网行为分析系统研究[J].现代电子技术,2016,39(23):116-120. 被引量：5
4何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9

二级引证文献21

1孙菲,张健沛,任福栋,姜永增,邓锟.聚类相关性职业能力培养体系构建与实施[J].高师理科学刊,2016,36(8):25-30.
2孙景峰,李秀丽,王彦波,欧阳晓松,时圣永,张欣荣,邹璐璐.基于K-means聚类分析与偏相关分析的高考质量评价体系构建与实施[J].高师理科学刊,2016,36(9):32-37. 被引量：1
3于宁宁.改进离散格子玻尔兹曼方法的图像去噪[J].液晶与显示,2017,32(4):294-301.
4孔杏.聚类分析在学生学习行为分析中的应用[J].西部素质教育,2018,4(18):179-181.
5张建伟.数字无线校园网络的规划[J].电子设计工程,2018,26(19):93-97. 被引量：3
6李春生,刘涛,于澍,张可佳.基于K-means算法的研究生入学成绩分析[J].计算机技术与发展,2019,29(2):162-165. 被引量：5
7郭鹏,蔡骋.基于聚类和关联算法的学生成绩挖掘与分析[J].计算机工程与应用,2019,55(17):169-179. 被引量：39
8姜赛达.基于层次聚类的数据分析方法在MOOCs中的应用[J].三门峡职业技术学院学报,2019,18(3):144-148. 被引量：2
9赵玉明,舒红平,魏培阳,刘魁.基于Spark的聚类算法优化与实现[J].现代电子技术,2020,43(8):52-55. 被引量：1
10张海华,李楠楠.基于大数据K-means聚类算法的在线学习行为路径的研究[J].电子设计工程,2020,28(12):17-20. 被引量：12

1周国辉.基于样本抽取的优化SMO算法研究[J].大众科技,2008,10(9):61-63.
2陈丽芳,王云,张奉.粗决策树动态规则提取算法研究及应用[J].计算机应用,2015,35(11):3222-3226. 被引量：3
3陈丽,陈根才.基于数据挖掘建立高校系科办学评估体系的合理性评价系统[J].浙江大学学报（理学版）,2001,28(3):263-268. 被引量：5
4苗永明,王红.一种不确定频繁闭项集挖掘算法[J].山东师范大学学报（自然科学版）,2016,31(1):43-47.
5罗鑫云,房燕飞,叶晓慧.一种测试性验证数据评估软件的设计研究[J].舰船电子工程,2014,34(1):108-111.
6乔梁.数据挖掘技术在气象服务中的应用研究[J].信息通信,2016,29(2):96-97. 被引量：3
7林滨.K-Means聚类的多种距离计算方法的文本实验比较[J].福建工程学院学报,2016,14(1):80-85. 被引量：6
8林波.宽带网络流量分析方法探讨[J].电子技术与软件工程,2014(7):22-22.
9邹峰.基于计算机网络的入侵检测与防御研究[J].煤炭技术,2011,30(1):92-94. 被引量：12
10陈自洁,夏成锋.基于模糊c-均值聚类的SVC迭代训练算法[J].仲恺农业工程学院学报,2011,24(1):39-43. 被引量：1

现代电子技术

2014年第8期

浏览历史

内容加载中请稍等...

基于数据抽样的自动k-means聚类算法被引量：4

参考文献9

二级参考文献32

共引文献351

同被引文献63

引证文献4

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于数据抽样的自动k-means聚类算法 被引量：4

参考文献9

二级参考文献32

共引文献351

同被引文献63

引证文献4

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于数据抽样的自动k-means聚类算法被引量：4