基于Hadoop的二分K均值改进算法

Improved Bisecting Kmeans Algorithm Based on Hadoop

下载PDF

导出

摘要传统的二分K均值算法在二分过程中采用随机选择的方式选择聚类质心,为了选择到理想的质心,需要重复选择多次,这种方式的时间代价比较大。为此,本文提出采用极大距离点作为质心的方式,有效的降低了时间复杂度,同时运用点抽样的方法避免离群点带来的影响。同时,考虑到随着时代的发展,我们面临的数据量会越来越大,本文提出了一种基于Hadoop分布式平台的并行二分K均值算法,实验表明,该并行算法能够获得较为理想的加速比。 The traditional Bisecting K-Means clustering algorithm adopts the random mode in selecting the initial centroid. Multiple repeated selections are needed in order to select the ideal centroid, which is extremely time consuming. For this reason,the paper proposes to select the two patterns with distance maximum as the initial cluster centroid,which effectively accelerates the clustering. We also adopt point sampling to avoid the influence of outliers.Considering the development of the times,the amount of data facing us will be larger and larger,so we propose a parallelism algorithm based on Hadoop. Experimental results show that the algorithm gets ideal speedup performance and efficiency.

作者王嘉旸万青云闫天伟

机构地区江西农业大学软件学院南昌大学信息工程学院

出处《科技广场》 2016年第9期4-8,共5页 Science Mosaic

基金国家自然基金项目"基于深度信息和显著计算的手势交互技术研究与应用"(编号:61363046) 立项作者:杨文姬

关键词二分K均值优化并行 HADOOP 加速比 Bisecting K-Means Optimization Parallelism Hadoop Speedup

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献4

1张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
2裘国永,张娇.基于二分K-均值的SVM决策树自适应分类方法[J].计算机应用研究,2012,29(10):3685-3687. 被引量：8
3胡伟.改进的层次K均值聚类算法[J].计算机工程与应用,2013,49(2):157-159. 被引量：63
4张春凯,王丽君.基于遗传算法的一种改进的K-均值聚类算法[J].计算机工程与应用,2012,48(26):144-147. 被引量：5

二级参考文献32

1李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
2贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
3谢崇宝,袁宏源,郭元裕.最优分类的模糊划分聚类改进方法[J].系统工程,1997,15(1):58-63. 被引量：12
4Savaresi S M, Boley D. On the Performance of Bisecting K-Means and PDDP[C]//Proc. of the 1st SIAM International Conference on Data Mining. Chicago, USA: [s. n.], 2001: 1-14.
5Steinbach M, Karypis G, Kumar V. A Comparison of Document Clustering Techniques[C]//Proc. of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, USA: [s. n.], 2000: 525-526.
6Liu Xiaozhang, Feng Guocan. Kernel Bisecting K-Means Clustering for SVM Training Sample Reduction[C]//Proc. of the 19th International Conference on Pattern Recognition. Tampa, USA: [s. n.], 2008: 1-4.
7Han Jiawei,Kamber M.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006
8Bandyopadhyay S, Maulik U.An evolutionary technique based on K-means algorithm for optimal clustering in RN[J].Information Sciences,2002,146:221-237.
9Larsen B, Aone C.A new cluster validity indexes for the fuzzy c-mean[C]//KDD-99, San Diego, California, 1999.
10Steinbach M, Karypis G, Kumar V, et al.Don' t worry be messy.Technical Report #00-034[R].2000.

共引文献90

1陈西江,安庆,班亚,王德欣,李坤,刘海鹏.融合高斯核及指数函数聚类的点云目标物提取[J].应用科学学报,2022,40(3):411-422.
2张娇,裘国永,张奇.基于二分K均值的SVM决策树的高维数据分类方法[J].赤峰学院学报（自然科学版）,2012,28(7):13-15. 被引量：1
3穆建晔,田碧洁.影响经济发展的文化因素及其扬弃[J].学术交流,2000(3):36-38.
4张宇,刘坡,杨敏华,龚建华,黄明详.基于GPU的二部图联合聚类并行算法研究[J].地理与地理信息科学,2013,29(4):99-103. 被引量：4
5谢璐,金志刚,王颖.基于视频稳像和视角变换的公交客流计数方法[J].计算机应用,2013,33(10):2926-2930. 被引量：6
6宋中山,周腾,周晶平.一种改进的蚁群聚类算法在客户细分中的应用[J].中南民族大学学报（自然科学版）,2013,32(3):77-81. 被引量：4
7韩最蛟.基于数据密集性的自适应K均值初始化方法[J].计算机应用与软件,2014,31(2):182-187. 被引量：19
8魏瑶,朱伟义,龚桃荣,郑浩.基于数据挖掘技术的用电异常分析系统设计[J].电力信息与通信技术,2014,12(5):70-73. 被引量：13
9沈国珍.依赖数据密度的K均值初始化调优[J].计算机工程与应用,2014,50(11):139-144. 被引量：4
10胡俊,滕少华,张巍,刘冬宁.支持向量机与哈夫曼树实现多分类的研究[J].广东工业大学学报,2014,31(2):36-42. 被引量：4

1谷瑞军,叶宾,须文波.基于谱聚类的两阶段颜色量化算法[J].中国图象图形学报,2007,12(10):1922-1925. 被引量：5
2张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
3张洁玲,白清源.一种高效的K-means聚类改进算法[J].福州大学学报（自然科学版）,2014,42(4):537-542. 被引量：5
4刘广聪,黄婷婷,陈海南.改进的二分K均值聚类算法[J].计算机应用与软件,2015,32(2):261-263. 被引量：25
5祁亨年,杨建刚,方陆明.基于多类支持向量机的遥感图像分类及其半监督式改进策略[J].复旦学报（自然科学版）,2004,43(5):781-784. 被引量：14
6滕金芳,钟诚.基于聚类的敏感属性-多样性匿名化算法[J].计算机工程与设计,2010,31(20):4378-4381. 被引量：6
7曾志强,高济,朱顺痣.基于约简SVM的网络入侵检测模型[J].计算机工程,2009,35(17):132-134. 被引量：7
8汪万紫,裘国永,张兵权.基于线性判别分析和二分K均值的高维数据自适应聚类方法[J].郑州轻工业学院学报（自然科学版）,2011,26(2):106-110. 被引量：1
9张娇,裘国永,张奇.基于二分K均值的SVM决策树的高维数据分类方法[J].赤峰学院学报（自然科学版）,2012,28(7):13-15. 被引量：1
10闫丽颖,王欢,杨颖.模糊c均值聚类在wav格式音频检索中的研究[J].中国科技信息,2006(02A):15-15. 被引量：1

科技广场

2016年第9期

浏览历史

内容加载中请稍等...

基于Hadoop的二分K均值改进算法

参考文献4

二级参考文献32

共引文献90

相关作者

相关机构

相关主题

浏览历史