分布式k-means聚类算法的改进被引量：3

Optimization of k-means clustering algorithm in hadoop distributed computing framework

下载PDF

导出

摘要经典的分布式k-means聚类算法随机选取初始聚类中心,进行多次的迭代,容易使得聚类效率低,网络通信量大,而且聚类结果不稳定。针对这些问题,提出一种改进的分布式k-means聚类算法。该算法通过划分数据集,计算属性最密集的k个数据块作为聚类中心,以确保聚类中心的代表性,进而减少算法的迭代计算次数,提高聚类效率。通过在Hadoop分布式平台上进行实验,结果表明改进算法能减少迭代次数和收敛时间。 Classic distributed k-means clustering algorithm randomly selects the initial clustering centers.With many times iterations, it is easy to make low clustering efficiency, heavy network traf-fic, and the unstable clustering results.To solve these problems, an improved distributed k-means clustering algorithm is put forward.The algorithm selects the initial clustering centers by partitioning the data set, and calculating k classification blocks of most intensive attribute, to ensure the cluste-ring centers＆#39;representative, and then it reduces the number of iterations and improves the efficiency of clustering.Through the experiments on the Hadoop distributed platform, the results show that the improved algorithm can reduce the number of iteration and convergence time.

作者宋玲戚云枫齐东阳

机构地区广西大学计算机与电子信息学院

出处《广西大学学报（自然科学版）》 CAS 北大核心 2014年第5期1060-1065,共6页 Journal of Guangxi University（Natural Science Edition）

基金广西自然科学基金资助项目(2013GXNSFAA253003)

关键词 K-MEANS聚类分布式算法 MapReduce计算模型聚类中心 k-means clustering distributed algorithm MapReduce model clustering center

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
2李静滨,杨柳,陈宁江.基于MapReduce的改进K-Medoids并行算法[J].广西大学学报（自然科学版）,2014,39(2):341-345. 被引量：5
3张锦杏,缪裕青,邱良佩,文益民.基于云计算平台的聚类算法研究进展[J].桂林电子科技大学学报,2013,33(1):23-28. 被引量：3
4皇甫大鹏,陈平,王兴建.基于一种改进的K-means算法的校园网用户行为分析研究[J].广西大学学报（自然科学版）,2011,36(A01):69-72. 被引量：9
5XU Yun-feng, ZHANG Yan, MA Rui. k-means algorithm based on cloud computing[ C]//Computational Intelligence and Design(ISCID) ,2012 Fifth International Symposium on( Volume: 2). Piscataway, USA : IEEE, 2012 : 363-365.
6ZHAO Wei-zhong, MA Hui-fang, HE Qing. Parallel k-means clustering based on MapReduce [ J ]. Lecture Notes in Com- puter Science,2009,5931 : 674-679.
7LI Hai-gnang, WU Gong-qing, HU Xue-gang, et al. k-means clustering with bagging and mapreduce [ C ]//System Sci- ences ( HICSS), 2011 4th Hawail International Conference. Piscataway, USA : IEEE, 2001 : 1-8.
8NEHA A, KIRII A. A mid-point based k-mean clustering algorithm for Data mining[ J]. International Journal on Comput- er Science and Engineering (IJCSE) , 2012,4 (6) : 1174-1180.
9张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
10韩最蛟.基于数据密集性的自适应K均值初始化方法[J].计算机应用与软件,2014,31(2):182-187. 被引量：19

二级参考文献74

1程光,龚俭,丁伟.网络测量及行为学研究综述[J].计算机工程与应用,2004,40(27):1-8. 被引量：14
2袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
3缪红保,李卫.基于数据挖掘的用户安全行为分析[J].计算机应用研究,2005,22(2):105-107. 被引量：11
4李洁,高新波,焦李成.一种基于修正划分模糊度的聚类有效性函数[J].系统工程与电子技术,2005,27(4):723-726. 被引量：8
5张惟皎,刘春煌,李芳玉.聚类质量的评价方法[J].计算机工程,2005,31(20):10-12. 被引量：60
6杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
7李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
8普运伟,金炜东,朱明,胡来招.核模糊C均值算法的聚类有效性研究[J].计算机科学,2007,34(2):207-210. 被引量：28
9袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
10Han J W, Kamber M. Data mining: concepts and techniques [M]. San Francisco, US: Morgan Kaufmann, 2001.

共引文献1338

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10何睿,余娜,李淼,张峻巍,王浩杰,赵玉茗.基于单细胞RNA测序数据的细胞类型聚类算法[J].智能计算机与应用,2020,10(7):104-108. 被引量：2

同被引文献23

1江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
2孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
3周鑫,张化祥.k-means算法的研究与改进[J].微计算机信息,2008,24(30):269-270. 被引量：7
4傅涛,孙亚民.基于PSO的k-means算法及其在网络入侵检测中的应用[J].计算机科学,2011,38(5):54-55. 被引量：34
5王千,王成,冯振元,叶金凤.K-means聚类算法研究综述[J].电子设计工程,2012,20(7):21-24. 被引量：306
6张景,沈吟东.基于定位数据的公交时间站点自动选择方法[J].交通运输系统工程与信息,2012,12(6):60-65. 被引量：5
7谢秀华,李陶深.一种基于改进PSO的K-means优化聚类算法[J].计算机技术与发展,2014,24(2):34-38. 被引量：27
8沈吟东,张仝辉,徐甲.基于K-means聚类算法的公交运营时段分析[J].交通运输系统工程与信息,2014,14(2):87-93. 被引量：18
9谢娟英,王艳娥.最小方差优化初始聚类中心的K-means算法[J].计算机工程,2014,40(8):205-211. 被引量：86
10成卫青,卢艳红.一种基于最大最小距离和SSE的自适应聚类算法[J].南京邮电大学学报（自然科学版）,2015,35(2):102-107. 被引量：45

引证文献3

1栗国保,韩青菊.一种改进K-means聚类算法的MapReduce并行化实现[J].数字技术与应用,2016,34(12):134-134. 被引量：2
2林龙,翁小雄,黎景壮.基于改进k-means的公交时刻表关键站点选择研究[J].广西大学学报（自然科学版）,2017,42(6):2074-2079. 被引量：3
3陶永辉,王勇.基于初始聚类中心选取的改进K-means算法[J].国外电子测量技术,2022,41(9):54-59. 被引量：10

二级引证文献15

1高毓泽,原浩娟,秦琨.基于粒子群聚类的干扰信号分选方法[J].无线电工程,2019,49(5):387-392. 被引量：4
2陈欢,冯川,于洁涵,赵骥,李莹.基于出行链的城市公交服务评价研究[J].价值工程,2019,38(27):98-100. 被引量：1
3陶晓玲,龚昱鸣,赵峰.基于类别划分的OSSEC报警数据聚合方法[J].计算机工程与设计,2020,41(4):908-914. 被引量：1
4吴琼,李永飞,李铭洋.异常数据实时检测方法研究综述[J].现代计算机,2022,28(16):9-15. 被引量：5
5尹苇杰,杨莉军,谷云楼,梅之藩.基于聚类分析方法分析古代玻璃的成分以鉴别其所属类型[J].北京印刷学院学报,2023,31(6):64-67.
6陶永辉,王勇.基于改进的K-means风电机异常数据检测[J].国外电子测量技术,2023,42(4):141-148. 被引量：5
7汤青慧,魏祥先,吴明月.基于在线评论的集中式长租公寓租客需求研究:以魔方公寓为例[J].工程管理学报,2023,37(3):148-153.
8王高峰,张广林,何振亚.基于任务效能的倾转旋翼机能力需求指标优化方法[J].航空科学技术,2023,34(9):70-79.
9吴绍华,赵耀,张妍君.基于KMeans的铁路电务设备布放辅助设计软件研究[J].铁路计算机应用,2024,33(1):15-20.
10黄俊萍.基于改进K-means数据聚类算法的网络入侵检测[J].成都工业学院学报,2024,27(2):58-62.

1袁永康.分布式算法机器人变形关键[J].国外科技动态,2004(10):24-24.
2贾俊芳,张日权.基于分布式的大数据集聚类分析[J].计算机工程与应用,2008,44(28):133-135. 被引量：5
3金志权,周晓方,顾铁成.分布式算法通信性能分析模型[J].计算机工程与应用,1990,26(10):98-102.
4常会友,康乃真.一种分布式计算机模拟系统的研究[J].计算机研究与发展,1994,31(10):55-60. 被引量：1
5唐策善,梁维发.二分图最大匹配问题的分布式算法[J].计算机工程与应用,1990,26(10):48-53.
6陈明洁.分布式频繁项集挖掘算法[J].计算机应用与软件,2015,32(10):63-66. 被引量：4
7梁维发,唐策善.拓扑排序的分布式算法[J].计算机研究与发展,1991,28(9):42-45. 被引量：1
8王英龙,张平玉.以太网网络通信量的估计[J].山东电子,1998(1):17-18. 被引量：1
9王伟.WIN 2000的入侵检测系统实例分析[J].湖北气象,2006(3):35-37.
10谢会娟,佘为,钟声.基于ASP.NET实现随机选取考题的研究[J].信息技术,2010,34(9):66-68. 被引量：1

广西大学学报（自然科学版）

2014年第5期

浏览历史

内容加载中请稍等...

分布式k-means聚类算法的改进被引量：3

参考文献14

二级参考文献74

共引文献1338

同被引文献23

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

分布式k-means聚类算法的改进 被引量：3

参考文献14

二级参考文献74

共引文献1338

同被引文献23

引证文献3

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

分布式k-means聚类算法的改进被引量：3