加速大数据聚类K-means算法的改进被引量：13

Improved accelerating large data K-means clustering algorithm

下载PDF

导出

摘要为有效处理大规模数据聚类的问题,提出一种先抽样再用最大最小距离进行K-means并行化聚类的方法。基于抽样的方法避免了聚类陷入局部解中,基于最大最小距离法使得初始聚类中心趋于最优化。大量实验结果表明,无论是在单机环境还是集群环境下,该方法受初始聚类中心的影响降低,提高了聚类的准确性,减少了聚类的迭代次数,降低了聚类的时间。 To deal with large-scale data clustering problems,a speeding K-means parallel clustering method was presented which randomly sampled first and then used max-min distance means to carry out K-means parallel clustering.Sampling based method avoids the problem of clustering in local solutions and max-min distance based method makes the initial clustering centers tend to be optimum.Results of a large number of experiments show that the proposed method is affected less by the initial clustering center and improves the precision of clustering in both stand-alone environment and cluster environment.It also reduces the num-ber of iterations of clustering and the clustering time.

作者韩岩李晓

机构地区中国科学院新疆理化技术研究所中国科学院大学计算机与控制学院

出处《计算机工程与设计》北大核心 2015年第5期1317-1320,共4页 Computer Engineering and Design

基金中国科学院西部之光人才培养计划基金项目(RCPT201205)

关键词 K-均值算法随机抽样最大最小距离法映射归约并行化 K-means algorithm random sampling max-min distance method MapReduce parallelization

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献10

1周爱武,崔丹丹,潘勇.一种优化初始聚类中心的K-means聚类算法[J].微型机与应用,2011,30(13):1-3. 被引量：15
2汪嘉,姜明富,李友国.一种基于改进的K-Means算法的聚类分析方法[J].农业网络信息,2009(10):120-122. 被引量：5
3黄韬,刘胜辉,谭艳娜.基于k-means聚类算法的研究[J].计算机技术与发展,2011,21(7):54-57. 被引量：87
4王秀华.一种并行的加速k-均值聚类方法[J].电脑知识与技术,2013,9(6X):4299-4302. 被引量：2
5Srirama SN,Jakovits P,Vainikko E.使用MapReduce解决云端的科学计算问题[J].下一代计算机系统,2012,39(11):184-192.
6韩家炜,坎伯.数据挖掘概念与技术[M].北京:机械工业出版社.2008.
7田森平,吴文亮.自动获取k-means聚类参数k值的算法[J].计算机工程与设计,2011,32(1):274-276. 被引量：18
8周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
9王秀华.基于随机抽样的加速K-均值聚类方法[J].计算机与现代化,2013(12):27-29. 被引量：7
10周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72

二级参考文献64

1刘婷,郭海湘,诸克军,高思维.一种改进的遗传k-means聚类算法[J].数学的实践与认识,2007,37(8):104-111. 被引量：22
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
3陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
4刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
5杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
6李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9
7袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
8HanJ KamberM.数据挖掘概念与技术[M].北京:机械工业出版社,2002..
9HANJ,KAMBERM.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2006.
10MacQueen J. Some methods for classification and analysis of multivariate observations [C]. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.Berkeley:University of California Press, 1967:281-297.

共引文献329

1赵翠翠,尹春华.K-means和SOM在商品评论中的情感词聚类对比[J].北京信息科技大学学报（自然科学版）,2020,35(1):23-26. 被引量：6
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
4徐克圣,王澜.一种自动获得k值的聚类算法[J].大连交通大学学报,2007,28(4):68-71. 被引量：3
5单世民,于红,张业嘉诚,刘馨月.基于最近共享邻居节点的K-means聚类算法[J].计算机工程与应用,2008,44(6):178-181. 被引量：2
6耿晴.基于SSPG的空间聚类初始种子选择方法[J].地理空间信息,2008,6(4):58-61. 被引量：1
7张琼,张莹,白清源,谢丽聪,谢伙生.基于Leader的K均值改进算法[J].福州大学学报（自然科学版）,2008,36(4):493-496. 被引量：3
8江涛,陈小莉,张玉芳,熊忠阳.基于聚类算法的KNN文本分类算法研究[J].计算机工程与应用,2009,45(7):153-155. 被引量：30
9王静,封洲燕.多通道神经元锋电位检测和分类的新方法[J].生物化学与生物物理进展,2009,36(5):641-647. 被引量：13
10雷宏,张著洪.受约束的两类数据分割算法及其应用[J].贵州大学学报（自然科学版）,2009,26(2):85-89.

同被引文献121

1张玲.基于Web数据库在线考试系统的设计研究探讨[J].自动化与仪器仪表,2016(5):120-121. 被引量：15
2宋加旺,徐正国.Copula-FITSGARCH模型及其在中国资本市场的应用研究[J].统计与决策,2007,23(2):124-127. 被引量：2
3史卫亚,郭跃飞,薛向阳.一种解决大规模数据集问题的核主成分分析算法[J].软件学报,2009,20(8):2153-2159. 被引量：20
4张士勤,徐传胜.不确定性集合理论及其研究进展[J].西北大学学报（自然科学版）,2009,39(4):696-700. 被引量：2
5邵秀丽,乜聚科,田振雷,侯乐彩.用户个性化推荐系统的设计与实现[J].计算机工程与设计,2009,30(20):4681-4685. 被引量：13
6戴权,王芳,倪安宁.认知过程中交通标志视认有效性影响因素分析[J].中国安全科学学报,2009,19(12):57-60. 被引量：16
7王大明.自顶向下视觉注意机制的进展[J].硅谷,2010,3(1):50-50. 被引量：1
8田森平,吴文亮.自动获取k-means聚类参数k值的算法[J].计算机工程与设计,2011,32(1):274-276. 被引量：18
9徐建民,王金花,马伟瑜.利用本体关联度改进的TF-IDF特征词提取方法[J].情报科学,2011,29(2):279-283. 被引量：29
10陈建超,胡桂武,杨志华,严桂夺.基于全局性确定聚类中心的文本聚类[J].计算机工程与应用,2011,47(10):147-150. 被引量：5

引证文献13

1谢川.基于混沌关联维特征提取的大数据聚类算法[J].计算机科学,2016,43(6):229-232. 被引量：6
2牛常勇,刘国枢.基于局部全局相似度的SVD的协同过滤算法[J].计算机工程与设计,2016,37(9):2497-2501. 被引量：6
3田诗宵,丁立新,郑金秋.基于密度峰值优化的K-means文本聚类算法[J].计算机工程与设计,2017,38(4):1019-1023. 被引量：26
4郭占元,林涛.面向大规模数据快速聚类K-means算法的研究[J].计算机应用与软件,2017,34(5):43-47. 被引量：17
5宋学伟,李东营,黄天仑.T型管液压成形加载路径自适应多目标优化[J].哈尔滨工业大学学报,2017,49(7):139-145. 被引量：4
6张清川,孙帆,王宇晨,李金良,王洁.物联网环境下Web数据库异常数据检测方法研究[J].计算机测量与控制,2017,25(9):170-173. 被引量：3
7杨扬,许厚泽,常军.一种基于属性值变化程度定权的聚类算法[J].测绘科学,2018,43(5):1-4. 被引量：2
8资和周.优先聚类和高斯混合模型树相融合的递增聚类研究[J].现代电子技术,2017,40(19):177-181. 被引量：2
9徐聪,全恩懋,梁华刚.多特征融合的交通标识视认性评测方法[J].重庆邮电大学学报（自然科学版）,2018,30(6):819-826. 被引量：1
10刘久彪.空间数据库反向最近邻聚类方法[J].吉林大学学报（理学版）,2019,57(2):387-392. 被引量：40

二级引证文献119

1李冉.基于语义图模型的跨语言网络信息检索方法研究[J].周口师范学院学报,2020(2):100-103. 被引量：3
2禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
3孙致信,龚敏珠,陈琳军,马骏,张志慈,华漱涯,曹晶.自体造血干细胞移植治疗难治性恶性淋巴瘤[J].上海医学,2000,23(5):282-285. 被引量：2
4张晓婷,李茵,唐晶磊.基于优化聚类算法的大数据分流系统设计仿真[J].计算机仿真,2018,35(12):204-207. 被引量：6
5鲍世方.基于Spark/GraphX图聚类算法的入室盗窃串并案研究[J].计算机应用与软件,2017,34(9):108-113.
6赵宏业.基于协同过滤算法的医院人力资源信息智能采集系统设计[J].电子设计工程,2017,25(21):34-37. 被引量：4
7石芳.中医临床数据中亚健康信息症状检测仿真[J].计算机仿真,2018,35(2):350-353. 被引量：4
8金淳,何世福.云环境下基于L-BFGS的协同过滤算法[J].计算机工程与设计,2018,39(3):752-757.
9邹臣嵩,杨宇.基于最大距离积与最小距离和协同K聚类算法[J].计算机应用与软件,2018,35(5):297-301. 被引量：15
10晋国卿,刘美佳.交叉型数据库中异常数据快速检测仿真[J].计算机仿真,2018,35(8):448-451. 被引量：1

1李莲,罗可,周博翔.基于粒计算的粗糙集聚类算法[J].计算机应用研究,2013,30(10):2916-2919. 被引量：9
2单凯晶,肖怀铁.初始聚类中心优化选取的核C-均值聚类算法[J].计算机仿真,2009,26(7):118-121. 被引量：14
3顾洪博,赵万平.基于MMD聚类算法及在高校成绩分析中的应用[J].河北工程大学学报（自然科学版）,2010,27(1):96-98. 被引量：7
4周涓,熊忠阳,张玉芳,任芳.基于最大最小距离法的多中心聚类算法[J].计算机应用,2006,26(6):1425-1427. 被引量：72
5徐克圣,王澜.一种自动获得k值的聚类算法[J].大连交通大学学报,2007,28(4):68-71. 被引量：3
6熊忠阳,陈若田,张玉芳.一种有效的K-means聚类中心初始化方法[J].计算机应用研究,2011,28(11):4188-4190. 被引量：86
7李莲,罗可,周博翔.一种改进人工蜂群的K-medoids聚类算法[J].计算机工程与应用,2013,49(16):146-150. 被引量：9
8孙玉强,李媛媛,陆勇.基于MapReduce的K-means聚类算法的优化[J].计算机测量与控制,2016,24(7):272-275. 被引量：5
9何臻,夏杰.一种自动获取k值的多中心聚类算法[J].电子世界,2012(4):60-61. 被引量：2
10陈敏,余晓平,左文英.K-means算法的分析及改进[J].佳木斯大学学报（自然科学版）,2015,33(6):872-876.

计算机工程与设计

2015年第5期

浏览历史

内容加载中请稍等...

加速大数据聚类K-means算法的改进被引量：13

参考文献10

二级参考文献64

共引文献329

同被引文献121

引证文献13

二级引证文献119

相关作者

相关机构

相关主题

浏览历史

加速大数据聚类K-means算法的改进 被引量：13

参考文献10

二级参考文献64

共引文献329

同被引文献121

引证文献13

二级引证文献119

相关作者

相关机构

相关主题

浏览历史

加速大数据聚类K-means算法的改进被引量：13