KBAC:一种基于K-means的自适应聚类被引量：6

KBAC:K-means Based Adaptive Clustering for Massive Dataset

下载PDF

导出

摘要 K-means聚类算法存在的主要不足之处之一在于需要用户指定聚类核数目,在一般应用场景下,用户无法给出合适的聚类核数目.另一方面,K-means聚类所具有的可并行化特点非常适合运用到云计算平台上以处理大规模数据样本的聚类任务.本文提出KBAC算法采用K-means算法作为预聚类过程并在云平台上进行实现和优化,能够自适应确定最佳聚类核数目并进行聚类.其核心思想是将样本空间聚类问题转换为图上社团发现问题.理论和实验证明,通过在云计算框架下实现K-means预聚类过程的并行化,KBAC算法能够高效地对大规模数据进行聚类,并获得高质量的聚类结果. One of the main drawbacks of K-means clustering algorithm is that the number of clusters should be specified by users.In most of the real application scenarios,it is impossible for the user to provide the number of clusters beforehand.On the other hand,its potential parallelizability provides a way to cluster massive dataset efficiently.In this paper,we proposed KBAC algorithm which adopted K-means algorithm as pre-clustering procedure to cluster massive data adaptively under MapReduce cloud framework.The main idea of the algorithm is to reduce the problem of clustering on vector space to community detection problem on graph.Theoretical and experimental results indicated that KBAC algorithm could enhance the clustering quality and efficiency under cloud.

作者徐晓旻肖仰华

机构地区复旦大学计算机科学技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2012年第10期2268-2272,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61003001 71071098)资助高等学校博士学科点专项科研基金项目(20100071120032)资助

关键词 K-MEANS MAPREDUCE 聚类社团发现 K-means MapReduce clustering community detection

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1普运伟,朱明,金炜东,胡来招.核聚类算法最佳聚类数的自适应确定方法[J].计算机工程,2007,33(4):11-13. 被引量：9
2胡彧,毕晋芝.遗传优化的K均值聚类算法[J].计算机系统应用,2010,19(6):52-55. 被引量：6
3袁礼海,李钊,宋建社.利用高斯混合模型实现概率密度函数逼近[J].无线电通信技术,2007,33(2):20-22. 被引量：16
4赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
5雷小锋,谢昆青,林帆,夏征义.一种基于K-Means局部最优性的高效聚类算法[J].软件学报,2008,19(7):1683-1692. 被引量：112
6江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
7雷小锋,何涛,李奎儒,谢昆青,丁世飞.面向结构稳定性的分裂-合并聚类算法[J].计算机科学,2010,37(11):217-222. 被引量：4
8周慧芳.自适应的k-means聚类算法SA-K-means[J].科技创新导报,2009,6(34):4-5. 被引量：3
9毛典辉.基于MapReduce的Canopy-Kmeans改进算法[J].计算机工程与应用,2012,48(27):22-26. 被引量：65

二级参考文献55

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
4潘伟,刁华宗,井元伟.一种改进的实数自适应遗传算法[J].控制与决策,2006,21(7):792-795. 被引量：53
5Murthy CA,Chowdhury N.In search of optimal clusters using genetic algorithms.Pattern Recognition Letter,1996,17(8):825-832.
6Sanghamitra Bandyopadhyay,Ujjwal Maulik.An evolutionary technique based on K-Means algorithm for optimal clustering.Information Sciences,2002,146(4):221-237.
7Han J W, Kamber M. Data mining: concepts and techniques [M]. San Francisco, US: Morgan Kaufmann, 2001.
8Buyya R, Yeo C S, Venugopal S. Market-oriented cloud computing: vision,hype, and reality for delivering IT services as computing utilities, Keynote Paper [C] // Proceedings of the 10th IEEE International Conference on High Performance Computing and Communications. Dalian, China, 2009 :25-27.
9Armbrust M, Fox A. Above the clouds: a Berkeley view of cloud computing[R]. USA: University of California at Berkeley, 2009.
10Erdogmus H. Cloud computing., does nirvana hide behind the nebula[J]. IEEE Software, 2009,26 (2) : 4-6.

共引文献333

1吕政阳,邓涛,张丽艳.一种基于机器视觉的飞机钣金件跨粒度识别方法[J].仪器仪表学报,2020,41(2):195-204. 被引量：10
2禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
3管煜,李伟,杨贵东,娜塔莎·特索里维奇.FOPID控制器对广义VDP随机系统瞬态响应和可靠性的控制[J].动力学与控制学报,2023,21(10):34-42.
4许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
5王秀芳,王岩.优化K均值随机初始中点的改进算法[J].化工自动化及仪表,2012,39(10):1302-1304. 被引量：4
6桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
7张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
8王海,高岭,陈东棋,任杰.一种基于用户行为的嵌入式功耗优化方法[J].系统仿真学报,2015,27(2):320-326.
9原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
10刘皓,成玲.基于改进FKCM方法的针织纱质量评价[J].纺织学报,2009,30(1):37-41. 被引量：1

同被引文献74

1孙凯丽,邓沌华,李源,李妙,李洋.基于句内注意力机制多路CNN的汉语复句关系识别方法[J].中文信息学报,2020(6):9-17. 被引量：10
2刘宓庆.思维方式、表现法和翻译问题[J].现代外语,1993,16(1):12-15. 被引量：70
3吴泓辰,王新军,成勇,彭朝晖.基于协同过滤与划分聚类的改进推荐算法[J].计算机研究与发展,2011,48(S3):205-212. 被引量：20
4张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
5张海燕,丁峰,姜丽红.基于模糊聚类的协同过滤推荐方法[J].计算机仿真,2005,22(8):144-147. 被引量：25
6杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：187
7刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
8郎显宇,陆忠华,迟学斌.一种基于“基因表达谱”的并行聚类算法[J].计算机学报,2007,30(2):311-316. 被引量：11
9CALINSKI T,HARABASZ J.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1-27.
10DIMITRIADOU E,DOLNICAR S,WEINGESSEL A.An examination of indexes for determining the number of cluster in binary data sets[J].Psychometrika,2002,67(3):137-160.

引证文献6

1王勇,唐靖,饶勤菲,袁巢燕.高效率的K-means最佳聚类数确定算法[J].计算机应用,2014,34(5):1331-1335. 被引量：65
2张广蓉,陈庆奎,章刚,赵海燕,高丽萍,霍欢.基于MapReduce的并行化模糊划分算法[J].计算机应用,2014,34(11):3073-3077.
3袁周米琪,周坚华.自适应确定K-means算法的聚类数：以遥感图像聚类为例[J].华东师范大学学报（自然科学版）,2014(6):73-80. 被引量：3
4刘向东,刘奎,胡飞翔,王翠荣.基于MapReduce的并行聚类算法设计与实现[J].计算机应用与软件,2014,31(11):251-256. 被引量：10
5袁雨轩,李放,陈科淇,韩正.基于依存关系的自然语言可视化仿真系统[J].计算机技术与发展,2021,31(9):214-220.
6赵华茗,余丽,周强.基于均值漂移算法的文本聚类数目优化研究[J].数据分析与知识发现,2019,3(9):27-35. 被引量：11

二级引证文献88

1张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
2张杰,卓灵,朱韵攸.一种K-means聚类算法的改进与应用[J].电子技术应用,2015,41(1):125-128. 被引量：20
3郭伟光.基于改进K-medoids算法的社会化标签聚类研究[J].赤峰学院学报（自然科学版）,2014,30(24):17-19.
4张自豪,马方立,裴峥.K-均值聚类与SVM结合的地空通信干扰识别方法[J].济南大学学报（自然科学版）,2015,29(6):420-424. 被引量：3
5郑慧,李冰,陈冬林,刘平峰.基于位置簇的移动生活服务个性化推荐技术[J].计算机应用,2015,35(4):1148-1153. 被引量：5
6吴晓璇,倪志伟,倪丽萍.云计算环境下基于分形的聚类融合算法研究[J].计算机工程与应用,2015,51(14):1-6. 被引量：4
7丛颖,刘其成,张伟.一种基于Apriori的微博推荐并行算法[J].计算机应用与软件,2015,32(8):229-233. 被引量：2
8任旭瑞,周坚华.输入特征向量的自适应优化——以遥感图像K-均值聚类为例[J].遥感信息,2016,31(2):6-12. 被引量：2
9贾瑞玉,宋建林.基于聚类中心优化的k-means最佳聚类数确定方法[J].微电子学与计算机,2016,33(5):62-66. 被引量：27
10杨世瀚,韦丽娟.基于大数据技术的大学生热点问题分析与预测[J].信息系统工程,2016,29(5):105-107. 被引量：1

1唐守利.基于RBAC的粒度访问控制模型研究[J].信息系统工程,2010,23(9):133-133. 被引量：3
2罗红梅,郑曦.WEB系统的RBAC权限模型的研究与设计[J].致富时代（下半月）,2011(12):150-150.
3李宁.用户权限控制在SSMBSS中的设计与实现[J].电脑知识与技术,2008,3(9):1552-1553.
4雷建云.信息系统安全访问控制的实现[J].电脑知识与技术,2011,7(12):8818-8819. 被引量：1
5刘茗.一种基于数据挖掘的入侵检测方法研究与实现[J].淮海工学院学报（自然科学版）,2010,19(3):16-20.
6关心,王新.基于数据挖掘的入侵检测系统研究[J].信息技术,2007,31(10):100-103. 被引量：2
7关心,王新.基于k-means改进算法的入侵检测系统的研究[J].计算机系统应用,2007,16(9):82-84. 被引量：2
8司炜,曾广周.利用细化RBAC模型实现大型信息系统的安全访问控制[J].电脑知识与技术,2006,1(2):40-41.
9周金华,肖勇.利用RBAC实现各个管理域间的安全互访[J].现代计算机,2005,11(9):24-26.
10陈亚平,吴陈.FCM聚类算法与改进层次聚类算法的结合[J].科学技术与工程,2009,9(17):5008-5011. 被引量：1

小型微型计算机系统

2012年第10期

浏览历史

内容加载中请稍等...

KBAC:一种基于K-means的自适应聚类被引量：6

参考文献9

二级参考文献55

共引文献333

同被引文献74

引证文献6

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

KBAC:一种基于K-means的自适应聚类 被引量：6

参考文献9

二级参考文献55

共引文献333

同被引文献74

引证文献6

二级引证文献88

相关作者

相关机构

相关主题

浏览历史

KBAC:一种基于K-means的自适应聚类被引量：6