基于MapReduce的Canopy-Kmeans改进算法被引量：66

Improved Canopy-Kmeans algorithm based on MapReduce

下载PDF

导出

摘要针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。 In order to solve the problem that how to void random Canopy selection of Canopy-Kmeans algorithm, this paper introduces an improved algorithm based on the minimum and maximum principle and realizes processing massive data based on MapReduce framework. Meanwhile, the algorithm is carried out in massive Internet news ag- gregation. The experiments show that the strategy of Canopy selection based on the minimum and maximum princi- ple has higher classification accuracy and noise immunity compared to random strategy.

作者毛典辉

机构地区北京工商大学计算机与信息工程学院

出处《计算机工程与应用》 CSCD 2012年第27期22-26,68,共6页 Computer Engineering and Applications

基金国家自然科学基金(No.2009ZX05038-001) 北京市属高等学校科学技术与研究生教育创新工程建设项目(No.PXM2012_014213_000037)

关键词 Canopy-Kmeans算法 MAPREDUCE 分布式聚类 Canopy-Kmeans MapReduce distributed aggregation

分类号 TP393.03 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Han Jiawei,Kamber M.Data mining:concepts and tech- niques[M].San Francisco:Morgan Kaufmann Publishers, 2000.
2李榴,唐九阳,葛斌,肖卫东,汤大权.k-DmeansWM:一种基于P2P网络的分布式聚类算法[J].计算机科学,2010,37(1):39-41. 被引量：6
3Januzaj E, Kriegel H P, Pfeifle M.DBDC : Density-Based Distributed Clustering[C]//Proceedings of 9th International Conference on Extending Database Technology(EDBT). Oakland: IEEE Computer Press, 2004 : 88-105.
4Samatova N F, Ostrouchov G.RACHET : an efficient cov- er-based merging of clustering hierarchies from distribut- ed datasets[J].Distributed and Parallel Databases,2002, 11 (2) : 157-180.
5Johoson E, KarguPta H.Collective, hierarchical clustering from distributed, heterogeneous data[C]//Lecture Notes in Computer Science.Berlin: Springer, 2000 : 221-244.
6Kargupta H.Sclable, distributed data mining using an agent based architecture[C]//Proceedings of 3rd Interna- tional Conference on Knowledge Discovery and Data Mining.Oakland .. AAAI Press, 1997 .. 211-214.
7刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
8岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：8
9Hearst M A.Texttiling: segmenting text into multi-para- graph subtopic passages[J].Computational Linguistics, 1997,23(1) :33-64.
10Dean J, Ghemawat S.MapReduce-simplified data process- ing on large clusters[C]//Proceedings of the 6th Inter- national Conference on Operation Systems Design & Im- plementation(OSDI), Berkeley, CA, USA, 2004 : 137-150.

二级参考文献33

1郑苗苗,吉根林.DK-Means——分布式聚类算法K-Dmeans的改进[J].计算机研究与发展,2007,44(z2):84-88. 被引量：9
2刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
3刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
4Hatzivassiloglou V, Klavans J L, Holcombe M L, et al.Simfinder: A flexible clustering tool for surmnarization. In: Proceedings of the NAACI, 2001 Workshop on Automatic Surrunarization, Pittsburgh, PA, 2001, 41-49 .
5Jain A K,Dubes R C. Algorithms for clustering data. Englewood Cliffs NJ, USA: Prentice Hall, 1988.
6Sneath P H, Sokal R R. Numerical Taxonomy. London, UK:Freeman. 1973.
7King B. Step-wise clustering procedures. Journal of the Amercian Statistical Association , 1967, 69(8) :86-101.
8Guha S, Rastogi R, Shim K. CURE: An efficient clustering algorithm for large databases. Information Systems, 2001, 26( 1 ) : 35-58.
9Guha S, Rastogi R, Shim K. ROCK: a robust clustering algorithm for categorical attributes. In : Proceedings of the 15th International Cotfference on Data Engineering. Sydney: IEEE Computer Society Press, 1999. 512-521.
10Karypis G, Han E H, Kumar V. Chameleon: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer, 1999, 32(8) :68-75.

共引文献33

1孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
2吉雍慧.数字图书馆中的检索结果聚类和关联推荐研究[J].现代图书情报技术,2008(2):69-75. 被引量：13
3刘茵,李弼程,郭映月.一种基于聚类算法的主旨句提取方法[J].情报学报,2008,27(1):49-55. 被引量：1
4王曰芬,徐丹丹,李飞.专利信息内容挖掘及其试验研究[J].现代图书情报技术,2008(12):59-65. 被引量：8
5岑咏华,王晓蓉,吉雍慧.一种基于改进K-means的文档聚类算法的实现研究[J].现代图书情报技术,2008(12):73-79. 被引量：8
6李树青.CtoC电子商务站点中的Web个性化推荐技术[J].图书情报工作,2009,53(8):134-137. 被引量：2
7郑军,王巍,杨武,杨永田.基于类间距离参数估计的文本聚类评价方法[J].计算机工程,2009,35(9):37-39. 被引量：6
8刘铭,王晓龙,刘远超.基于语义的高维数据聚类技术[J].电子学报,2009,37(5):925-929. 被引量：6
9刘铭,王晓龙,刘远超.一种大规模高维数据快速聚类算法[J].自动化学报,2009,35(7):859-866. 被引量：18
10王信波,俞立,张贵军.聚类算法分析及在GIS中心选址中的仿真研究[J].计算机仿真,2009,26(9):256-260. 被引量：7

同被引文献505

1郑苗苗,吉根林.DK-Means——分布式聚类算法K-Dmeans的改进[J].计算机研究与发展,2007,44(z2):84-88. 被引量：9
2何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
3潘芳,仲伟俊,胡彬,徐敬海.突发事件网络舆情的管控机制及效率测评[J].情报杂志,2012,31(5):40-45. 被引量：13
4钱鑫,张龙波,田爱奎,邓齐志,汪金苗.一种面向数据密集型计算环境的聚类算法[J].济南大学学报（自然科学版）,2013,27(1):11-15. 被引量：3
5周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
6张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
7江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
8闫伟,张浩,陆剑峰,张辉.加权聚类分析在设备运行监控中的应用[J].计算机工程与应用,2004,40(26):31-32. 被引量：3
9李德毅,孟海军,史雪梅.隶属云和隶属云发生器[J].计算机研究与发展,1995,32(6):15-20. 被引量：1261
10邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2307. 被引量：52

引证文献66

1徐晓旻,肖仰华.KBAC:一种基于K-means的自适应聚类[J].小型微型计算机系统,2012,33(10):2268-2272. 被引量：6
2海沫,张书云,马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究,2013,30(9):2561-2564. 被引量：13
3杨劲锋,刘涛,陈启冠,阙华坤,肖勇.基于海量计量数据的电力客户在线分群研究[J].华东电力,2013,41(8):1581-1585. 被引量：4
4戴涛,杨洲,方勇,景旭.基于CUDA的k-means文档聚类算法并行优化[J].计算机工程与设计,2013,34(11):4032-4036. 被引量：2
5余晓山,吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用,2014,34(6):1595-1599. 被引量：5
6黄蔚,李戴维.基于MapReduce的网络舆情分析系统的设计与实现[J].信息技术,2014,38(7):149-153. 被引量：2
7郎福通,王鹏.基于MapReduce的网格化优化CURE算法的实现[J].成都信息工程学院学报,2014,29(6):603-608.
8武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
9孙天昊,黎安能,李明,朱庆生.基于Hadoop分布式改进聚类协同过滤推荐算法研究[J].计算机工程与应用,2015,51(15):124-128. 被引量：21
10曾蔚.一种基于K-均值的用户行为聚类算法[J].绵阳师范学院学报,2015,34(8):94-98. 被引量：1

二级引证文献443

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2樊鹏.云计算背景下大数据挖掘平台的构建策略[J].中国新通信,2020,0(2):46-46. 被引量：1
3吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：4
4杨晓雁,申澳.关于互联网大数据处理研究的分析[J].计算机产品与流通,2020,0(6):126-126.
5邹武星,郑昱含,胡亮,曹华清,史鑫宇.基于Delta Lake架构的个性化自助游行程推荐系统[J].网络安全技术与应用,2020,0(3):48-49.
6杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：13
7王涵,张倩旭,王兆宇,袁帅.大数据技术在配变负载优化中的应用[J].科技经济导刊,2019(34):85-85.
8佐磊,胡小敏,何怡刚,孙洪凯,李兵.小样本数据处理的加速寿命预测方法[J].电子测量与仪器学报,2020,32(11):26-32. 被引量：8
9王玉.Spark大数据处理平台的构建及应用[J].大众标准化,2019,0(18):28-29. 被引量：2
10袁雅琳.分布式风力发电并网对电力系统的影响和应对策略[J].光源与照明,2023(4):201-203. 被引量：1

1卢胜宇,王静宇,张晓琳,高俊峰.基于Hadoop平台的K-means聚类算法优化研究[J].内蒙古科技大学学报,2016,35(3):264-268. 被引量：6
2刘宏志,朱方方.基于云模型的信息工程监理服务质量评价的研究[J].电子技术应用,2013,39(10):133-135. 被引量：13
3张少刚.遗传算法在计算机仿真技术中的应用[J].自动化与仪器仪表,2009(6):57-58. 被引量：3
4赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
5刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
6刘宝龙,苏金.双MapReduce改进的Canopy-Kmeans算法[J].西安工业大学学报,2016,36(9):730-737. 被引量：6
7杨本臣,王翠琴.P2P中基于云模型和灰色系统理论的信任机制研究[J].计算机应用研究,2016,33(1):276-280. 被引量：3
8冯能山,林志华,熊金志,祝建军.一种k-means聚类的改进算法与实现[J].软件导刊,2012,11(3):66-70. 被引量：1
9吴哲夫,张彤,肖鹰.基于Spark平台的K-means聚类算法改进及并行化实现[J].互联网天地,2016(1):44-50. 被引量：11
10张萍,吴光敏.8051单片机的I^2C接口并行扩展[J].现代电子技术,2004,27(5):54-56. 被引量：1

计算机工程与应用

2012年第27期

浏览历史

内容加载中请稍等...

基于MapReduce的Canopy-Kmeans改进算法被引量：66

参考文献11

二级参考文献33

共引文献33

同被引文献505

引证文献66

二级引证文献443

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的Canopy-Kmeans改进算法 被引量：66

参考文献11

二级参考文献33

共引文献33

同被引文献505

引证文献66

二级引证文献443

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的Canopy-Kmeans改进算法被引量：66