云环境下基于数据流的k-means聚类算法被引量：12

Algorithm for k-means Based on Data Stream in Cloud Computing

下载PDF

导出

摘要 k-means算法是一种最常用的基于划分的聚类算法。传统的集中式k-means算法已不能适应当前呈爆炸式增长的数据规模,设计分布式k-means算法成为了目前亟需解决的问题。现有分布式k-means算法基于MapReduce计算框架且没有考虑初始聚类中心的影响。由于每个MapReduce任务均需要读写分布式文件系统,导致MapReduce不能有效表达多个任务之间的依赖关系,因此提出了一种基于数据流的计算框架,该框架建立在MapReduce之上,将数据处理过程按照数据流图建模。在该框架的基础上,提出了一种高效的k-means算法,它采用基于多次采样的初始聚类中心选取方法来实现负载均衡及减少迭代次数。实验结果表明,该算法的可扩展性较好,且效率比现有算法高。 k-means algorithm is one of the most commonly used clustering algorithm. Now data scale is exploding, and traditional centralized algorithm can not meet the requirements, so it is an urgent problem to design distributed k-means clustering algorithm currently. Existing distributed k-means algorithms are based on MapReduce framework and don＇t consider the clustering center. Since each MapReduce job reads and writes data from distributed file system, it is ineffi- cient to express dependencies between jobs. Then this paper proposed a framework based on data stream. Based on Ma- pReduce framework, this framework models according to the data flow diagram. And it proposed an efficient k-means al- gorithm on the framework. It uses an improved algorithm based on sampling to confirm clustering center for load ba- lance and reducing iterations. Experimental results demonstrate that the algorithm can efficiently resolve the large scale k-means cluster.

作者王飞秦小麟刘亮沈尧

机构地区南京航空航天大学计算机科学与技术学院

出处《计算机科学》 CSCD 北大核心 2015年第11期235-239,265,共6页 Computer Science

基金国家自然科学基金项目(61373015 61300052) 国家教育部高等学校博士学科点专项科研基金资助项目(20103218110017) 江苏高校优势学科建设工程资助项目(PAPD) 中央高校基本科研业务费专项项目(NP2013307) 云计算-南航-大数据处理引擎技术研究项目资助

关键词 K-MEANS MAPREDUCE 计算框架数据流 k-means, MapReduce, Framework, Data stream

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献18

1Han Jia-wei, Kamber M. Data mining concepts and techniques,second edition[M]. Elsevier (Singapore) Pte Ltd,2006:251-263.
2Kriegel H P,Kroger P, Zimek A, Clustering high-dimensionaldata: A survey on subspace clustering.pattern-based clustering,and correlation clustering[J]. ACM Transactions on KnowledgeDiscovery from Data (TKDD) .2009,3(1) : 1.
3Forgy E. Cluster analysis of multivariate data: Efficiency vs. In-terpretability of classifications [J]. Biometrics, 1965,21(3):768.
4Malewicz G,Austern M H,Bik A J C, et al. Pregel: a system forlarge-scale graph processing [C] // Proceedings of the 2010ACM SIGMOD International Conference on Management of Da-ta. ACM,2010:135-146.
5Wang J, Su X. An improved K-Means clustering algorithm[C]//2011 IEEE 3rd International Conference on CommunicationSoftware and Networks (ICCSN). IEEE,2011:44-46.
6Kumar N S, Rao K N,Govardhan A,et al. Undersampled K-means approach for handling imbalanced distributed data[J].Progress in Artificial Intelligence,2014,3(1) : 1-10.
7Dean J, Ghemawat S. MapReduce: simplified data processing onlarge clusters [J]. Communications of the ACM, 2008,51(1):107-113.
8Apache. Hadoop[EB/OL], (2014-4-10)[2014-4-22]. http://ha-doop. apache, org/.
9Ordonez C. Omiecinski E. Efficient disk-based K-means cluste-ring for relational databases [J]. IEEE Transactions on Know-ledge and Data Engineering,2004,16(8) :909-921.
10Pelleg D, Moore A W. X-means: Extending K-means with Effi-cient Estimation of the Number of Clusters [C] // ICML. 2000:727-734.

二级参考文献31

1潘锐,朱大铭,马绍汉,肖进杰.k-Median近似计算复杂度与局部搜索近似算法分析[J].软件学报,2005,16(3):392-399. 被引量：8
2[11]J Peng,Y Xia.A new theoretical framework for k-means-type clustering.McMaster University,Advanced Optimization Laboratory,Tech Rep:ADVOL2004/06,2004
3[12]J Peng,Y Xia.A cutting algorithm for the minimum-sum-of-squared error clustering.SIAM Int'lConf on Data Mining,Newport Beach,CA,2005
4[1]M Inaba,N Kaoth,H Imai.Application of weighted Voronoi diagrams and randomization to variance-based k-clustering(extended abstract).In:Proc of the 10th Annual Symp on Computational Geometry.New York:ACM Press,1994.332-339
5[2]V Arya,et al.Local search heurictics for k-median and facility location problems.STOC'2001,Hersonissons,Crete,Greece,2001
6[4]T Kanungo,D M Mount,N Netanyahu,et al.A local search approximation algorithm for k-means clustering.Computational Geometry,2004,28:89-112
7[5]J Matousek.On approximate geometric k-clustering.Discrete and Computational Geometry,2004,24:61-84
8[6]M Song,S Rajasekaran.Fast k-means algorithms with constant approximation.The 16th Annual Int'lSymp on Algorithms and Computation,Sanya,Hainan,2005
9[7]A Kumar,Y Sabharwal,S Sen.A sample linear time (1+ε) algorithm for k-means clustering in any dimensions.In:Proc of the 45th FOCS.Piscataway,NJ:IEEE Press,2004.454-462
10[8]R Ostrovsky,Y Rabani,L J Schulman.The effectiveness of lloyd-type metohds for the k-means problem.The 47th Annual IEEE Symp on the Foundations of Computer Science FOCS'06,Berkeley,CA,2006

共引文献124

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
3桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：21
4张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
5原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
6徐君,黄亚楼,李飞.K-Means聚类中序列模式和批量模式的比较研究[J].计算机科学,2004,31(6):156-158. 被引量：5
7陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
8李伟,黄颖.文本聚类算法的比较[J].科技情报开发与经济,2006,16(22):234-236. 被引量：4
9龚静,李英杰.文本聚类算法的分析与比较[J].湖南环境生物职业技术学院学报,2006,12(3):283-286. 被引量：2
10赵锋,薛惠锋,王伟.基于复合形遗传算法的K-means优化聚类方法[J].航空计算技术,2006,36(5):59-61. 被引量：2

同被引文献90

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3陈兴蜀,吴小松,王文贤,王海舟.基于特征关联度的K-means初始聚类中心优化算法[J].四川大学学报（工程科学版）,2015,47(1):13-19. 被引量：29
4伊卫国,卫金茂,王名扬.挖掘有效的关联规则[J].计算机工程与科学,2005,27(7):91-94. 被引量：9
5葛伟平,汪卫,周皓峰,施伯乐.基于隐私保护的分类挖掘[J].计算机研究与发展,2006,43(1):39-45. 被引量：20
6吕宗磊,王建东.一种基于多维空间超球体的快速聚类算法[J].南京航空航天大学学报,2006,38(6):706-711. 被引量：7
7Dean J, Ghemawat S. MapReduce: Simplified Data Pro- cessing on Large Clusters [ J ] . Communications of the Acm, 2008, 51(1) :107-113.
8Hartigan J A, Wong M A. A K-means clustering algo- rithm. [ J]. Applied Statistics, 2013, 28 ( 1 ) : 100-108.
9项前,杨建国,程隆棣.基于支持向量机的纱线质量预测[J].纺织学报,2008,29(4):43-46. 被引量：16
10刘文,罗守山,杨义先,辛阳,肖倩.安全两方圆计算协议[J].北京邮电大学学报,2009,32(3):32-35. 被引量：10

引证文献12

1卢胜宇,王静宇,张晓琳,高俊峰.基于Hadoop平台的K-means聚类算法优化研究[J].内蒙古科技大学学报,2016,35(3):264-268. 被引量：6
2唐向红,易向华,陆见光,元宁,刘国凯.融合云加端的制造产品在线质量预测研究[J].组合机床与自动化加工技术,2017(5):64-68. 被引量：1
3苏鹏冲,袁得嵛,马丁.基于隐私保护的大数据挖掘技术研究[J].现代计算机（中旬刊）,2017(7):26-29. 被引量：2
4刘姗姗.一种改进的多维度加权聚类算法[J].科技通报,2017,33(12):153-157. 被引量：1
5张淑芬,董岩岩,陈学斌.基于云计算平台Hadoop的HKM聚类算法设计研究[J].应用科学学报,2018,36(3):524-534. 被引量：9
6徐健锐,詹永照.基于Spark的改进K-means快速聚类算法[J].江苏大学学报（自然科学版）,2018,39(3):316-323. 被引量：16
7王加婷.分层实时计算的大数据挖掘技术研究[J].无锡职业技术学院学报,2020,19(3):42-45.
8杨琳,寇勇刚,白钊,刘皓晨.基于改进RFM模型对民航客户的细分研究[J].数学的实践与认识,2021,51(1):33-39. 被引量：11
9吕丁.基于K-means聚类算法的学生表现数据分析及预测建模研究[J].微型电脑应用,2021,37(5):148-150. 被引量：5
10姚柳成,邹智宏.基于数据降维与聚类的车联网数据分析应用[J].汽车实用技术,2022,47(4):24-28. 被引量：3

二级引证文献58

1王鸿玺,李飞,林志文,罗义钊,梁海涛,胡建新.基于IK-means的用电行为研究[J].国外电子测量技术,2020,39(1):54-58. 被引量：5
2孟佳伟,孙红.基于Hadoop平台的K-means算法优化综述[J].软件导刊,2017,16(6):208-211. 被引量：7
3唐燕,刘仁权,王苹.基于Hadoop的高校大数据平台的设计与实现[J].信息技术,2017,41(12):105-109. 被引量：30
4张博.基于隐私保护的数据挖掘分析[J].信息通信,2018,31(11):171-174. 被引量：2
5汪一百.基于Hadoop云计算平台的聚类K-means算法的研究与实现[J].信息与电脑,2017,29(11):92-94. 被引量：2
6郭卫霞,薛涛,李婷.基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析[J].西安工程大学学报,2018,32(6):705-712. 被引量：11
7全海金,何映思.基于大数据的改进模糊K-means算法[J].重庆理工大学学报（自然科学）,2018,32(12):145-148. 被引量：8
8何玉林,黄哲学.大规模数据集聚类算法的研究进展[J].深圳大学学报（理工版）,2019,36(1):4-17. 被引量：9
9董刚,余伟,玄光哲.高级持续性威胁中攻击特征的分析与检测[J].吉林大学学报（理学版）,2019,57(2):339-344. 被引量：11
10于璐,何祥,刘嘉勇.基于时空语义挖掘的城市功能区识别研究[J].四川大学学报（自然科学版）,2019,56(2):246-252. 被引量：11

1李欢,刘锋,朱二周.基于改进K-means算法的海量数据分析技术研究[J].微电子学与计算机,2016,33(5):52-57. 被引量：9
2周岚.提升小画幅传感器画质的方法与思路[J].中外企业家,2015(12X):101-102.
3黄韬,刘胜辉,谭艳娜.基于k-means聚类算法的研究[J].计算机技术与发展,2011,21(7):54-57. 被引量：87
4毛嘉莉.基于K-means的文本聚类算法[J].计算机系统应用,2009,18(10):85-87. 被引量：9
5刘其涛.一种提高CCD空间分辨力的方法研究[J].传感器与微系统,2006,25(2):36-37.
6党长青,宋风娟,朱全印,马凯.PC在高速数据采集卡设计中的应用[J].微计算机信息,2008,24(13):109-110.
7王新,刘永山,朱代春,刘新,张小潮.三维点云配准算法的研究[J].燕山大学学报,2016,40(6):524-531. 被引量：4
8王守觉,徐健,王宪保,覃鸿.基于仿生模式识别的多镜头人脸身份确认系统研究[J].电子学报,2003,31(1):1-3. 被引量：38
9王怀彬,刘凯,王鹏涛.特定应用环境下的入侵检测架构[J].天津大学学报,2006,39(B06):375-378.
10缪小亮,周政春,万旺根.三维场景动态模糊阴影算法实现[J].上海大学学报（自然科学版）,2007,13(2):138-141. 被引量：2

计算机科学

2015年第11期

浏览历史

内容加载中请稍等...

云环境下基于数据流的k-means聚类算法被引量：12

参考文献18

二级参考文献31

共引文献124

同被引文献90

引证文献12

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

云环境下基于数据流的k-means聚类算法 被引量：12

参考文献18

二级参考文献31

共引文献124

同被引文献90

引证文献12

二级引证文献58

相关作者

相关机构

相关主题

浏览历史

云环境下基于数据流的k-means聚类算法被引量：12