分布式K-means聚类算法研究与实现被引量：13

Research and Implementation of Distributed K-means Clustering Algorithm

下载PDF

导出

摘要随着互联网数据的指数级增长,传统的聚类算法面临许多新的问题和挑战。本文深入研究了基于Hadoop的分布式K-means聚类算法,给出了算法的设计方法和实现策略。在5个不同大小的数据集上的实验表明,与传统的K-means聚类算法相比,本文设计的算法具有较好的性能,可有效地应用于海量数据的分析和挖掘。 With the exponential growth of Internet data, the traditional clustering algorithms are confronted with many new problems and challenges. In this paper, we study the distributed K-means clustering algorithm based on Hadoop, and give the design method and implementation strategy. On 5 different data sets, experiment results show that compared with the traditional K-means clustering algorithm, the algorithm has better performance and can be effectively applied to the analysis and mining of massive data.

作者李斌李蓉周蕾

机构地区国网宁夏电力公司信息通信公司

出处《软件》 2018年第1期35-38,共4页 Software

基金群众性科技创新(5229XT16000J)

关键词分布式计算 K-MEANS 聚类 CANOPY Distributed computing K-means Cluster Canopy

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献9

1吕婉琪,钟诚,唐印浒,陈志朕.Hadoop分布式架构下大数据集的并行挖掘[J].计算机技术与发展,2014,24(1):22-25. 被引量：21
2余永红,向晓军,高阳,商琳,杨育彬.面向服务的云数据挖掘引擎的研究[J].计算机科学与探索,2012,6(1):46-57. 被引量：21
3王书梦,吴晓松.大数据环境下基于MapReduce的网络舆情热点发现[J].软件,2015,36(7):108-113. 被引量：15
4李冠辰.一个基于hadoop的并行社交网络挖掘系统[J].软件,2013,34(12):127-131. 被引量：10
5杜淑颖.基于大型数据集的聚类算法研究[J].软件,2016,37(1):132-135. 被引量：17
6杨婷婷,王雪梅.基于百度地图的改进的K-means算法研究[J].软件,2016,37(1):76-80. 被引量：5
7陈磊磊.不同距离测度的K-Means文本聚类研究[J].软件,2015,36(1):56-61. 被引量：39
8陈慧,龙飞,段智云.一种基于小波零树编码和K-mean聚类的图像压缩的实现[J].软件,2016,37(2):33-34. 被引量：7
9郑金志,郑金敏,汪玉琳.基于优化初始聚类中心的改进WFCM图像分割算法[J].软件,2015,36(4):136-142. 被引量：13

二级参考文献111

1张晔,魏然,谷延锋,严萌.基于小波变换的光谱异常特征分析及提取技术研究[J].新型工业化,2013,2(1):38-45. 被引量：7
2刘绍鹏,侯澍旻.一种基于分割的聚类算法用于振动信号解调(英文)[J].新型工业化,2013,2(10):8-15. 被引量：6
3胡晓敏.无线传感器网络Agent数据分流策略[J].新型工业化,2013,2(4):103-112. 被引量：18
4臧朝平,马双超.利用测试模态数据识别结构有限元模型误差源的一种新方法[J].新型工业化,2013,2(8):1-9. 被引量：7
5颜龙杰.基于近邻评分预测的协同过滤推荐算法[J].软件,2013,34(8):63-66. 被引量：14
6杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：190
7Ian Foster.Globus Toolkit Version 4： Software for Service-Oriented Systems[J].Journal of Computer Science & Technology,2006,21(4):513-520. 被引量：44
8吴青,翟建设,赵旭赟.基于层次聚类的分层可扩展性编码算法的优化[J].计算机应用与软件,2007,24(2):45-46. 被引量：4
9孙士保,秦克云.改进的k-平均聚类算法研究[J].计算机工程,2007,33(13):200-201. 被引量：50
10Park B, Kargupta H. Distributed data mining: algorithms, systems, and applications[M]//Ye N. The Handbook of Data Mining. Mahwah, NJ: Lawrence Erlbaum Associates, 2002: 341-358.

共引文献131

1陈豫,曾铮,王三梅.科技信息工作中大数据技术的应用和发展[J].情报学进展,2014(1):81-122. 被引量：2
2李晓辉.基于云计算的数据挖掘应用探析[J].长春大学学报,2012,22(12):1472-1475. 被引量：10
3丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,19(1):53-56. 被引量：76
4马青霞,王智钢,李广水.基于RESTFUL的面向服务数据挖掘原型系统的设计与实现[J].计算机应用与软件,2014,31(2):41-43. 被引量：4
5赵芳.基于云计算的数据挖掘技术分析[J].无线互联科技,2014,11(2):24-24.
6杜明,郝国生.云环境下多源数据资源发现机制的构建研究[J].江苏建筑职业技术学院学报,2014,14(2):37-40.
7李扬威,焦朋朋,杜林.城市智能停车管理系统研究[J].交通信息与安全,2014,32(4):160-164. 被引量：38
8赵薇,刘杰,叶丹.基于组件的大数据分析服务平台[J].计算机科学,2014,41(9):75-79. 被引量：7
9陈若飞,姜文红.Hadoop作业调度本地性的研究与优化[J].软件,2015,36(2):64-68. 被引量：5
10王铁刚.社交媒体数据的获取分析[J].软件,2015,36(2):86-91. 被引量：8

同被引文献114

1冷迪.基于区块链的动态数据同态加密保护方法[J].计算机产品与流通,2020,0(4):147-147. 被引量：2
2彭银香,何小东,朱志勇.基于免疫算法的多维关联规则挖掘方法[J].微计算机信息,2007,23(3):171-173. 被引量：4
3樊康旗,贾建援.经典分子动力学模拟的主要技术[J].微纳电子技术,2005,42(3):133-138. 被引量：30
4魏育辉,潘洁.图书流通数据的关联挖掘量化分析方法[J].现代情报,2005,25(11):108-110. 被引量：30
5龚薇,肖辉,曾海泉.基于变化点的时间序列近似表示[J].计算机工程与应用,2006,42(10):169-171. 被引量：6
6沈正维,李秋菊.支持向量机与神经网络的关系研究[J].生物数学学报,2006,21(2):204-208. 被引量：8
7张凯,郭铌,王润元,司建华,王小平.西北荒漠草甸植被光谱反射特征研究[J].地球科学进展,2006,21(10):1063-1069. 被引量：27
8温嵘生,邱春兰.基于OPAC信息库图书借阅数据关联挖掘分析与应用[J].情报杂志,2007,26(7):61-63. 被引量：9
9杨一鸣,潘嵘,潘嘉林,杨强,李磊.时间序列分类问题的算法比较[J].计算机学报,2007,30(8):1259-1266. 被引量：40
10赵卫军.数据挖掘技术在高校图书馆中的应用[J].图书馆论坛,2007,27(4):126-128. 被引量：24

引证文献13

1杜佳颖,段隆振,段文影,卜秋瑾.基于Spark的改进K-means算法的并行实现[J].计算机应用研究,2020,37(2):434-436. 被引量：12
2柴黎,王杰娟.空间维护技术试验评估方法研究[J].软件,2018,39(9):79-85.
3赵珂,彭清畅,姜喜民,刘光俊.基于流计算的高铁牵引变电器多工况机理模型研究[J].软件,2018,39(9):133-138.
4蔡健玲,朱大明,陈璐.基于TM和MODIS的滇中云南松反射光谱特征分析[J].软件,2018,39(11):120-125. 被引量：1
5冉冬梅,严加勇,崔崤峣,于振坤.基于改进DRLSE模型的甲状腺3D超声图像自动分割[J].软件,2019,40(4):61-66. 被引量：1
6孙龙杰,俞凯君.基于物联网的图书馆用户行为大数据分析模型探究[J].软件,2019,40(6):113-118. 被引量：4
7王梦遥,王晓晔,洪睿琪,柴晓瑞.基于改进BIRCH聚类算法的评价对象挖掘[J].软件,2019,40(11):9-12. 被引量：2
8付中玉,孙康,梁栋,徐震.水溶液中颗粒输送器的分子动力学模拟[J].软件,2019,40(12):28-32.
9梁栋,付中玉,孙康,徐震.水溶液中超高速纳米齿轮的分子动力学模拟[J].软件,2019,40(12):61-65. 被引量：1
10杨国萍,刘本永.基于目标轮廓增强的GrabCut图像分割方法[J].软件,2020,41(2):28-32. 被引量：6

二级引证文献29

1谢悦,林建国,芦静.浓度对流扩散方程并行计算与MATLAB高效实现方法[J].计算机应用研究,2020,37(S01):143-146. 被引量：1
2李守仁,贾偌.图书馆管理信息系统中数据挖掘技术的应用研究[J].产业科技创新,2019,1(5):82-83. 被引量：2
3曹万林,张永山,庞国新,王绍英,卢立炜.沿高变刚度设支撑高层大开间异型柱框架抗震性能试验研究[J].地震工程与工程振动,2000,20(2):68-75. 被引量：4
4徐建国,韩琮师.改进K-means算法在高校舆情中的应用[J].软件导刊,2019,18(7):142-144. 被引量：4
5王春阳,张宇,金丽漫,李茂忠,陈骥,喻刚.红外连续变焦镜头的结构设计与热分析[J].软件,2020,41(4):178-182. 被引量：2
6侯佳正,张绍阳,陈博远.基于Microsoft HPC的Magic迭代计算软件的并行化[J].应用科技,2020,47(3):100-105. 被引量：1
7张小陆.基于大数据的电力移动物联网信息安全终端架构分析[J].电子设计工程,2020,28(23):153-157. 被引量：14
8潘惠苹.基于大数据和人工智能的用户行为分析[J].现代计算机,2021,27(2):47-50. 被引量：2
9余俊旸,张芬,潘回归,郭清海.湖北烟草商业企业物流分类对标管理研究[J].现代商贸工业,2021,42(14):107-109. 被引量：1
10李杨,井敏,武吉伟,刘立强.分子动力学模拟及其在微晶玻璃中的应用综述[J].山东建筑大学学报,2021,36(2):82-87. 被引量：3

1澳大利亚娱乐公司扩展RFID信息亭[J].中国自动识别技术,2017,0(6):29-29.
2张鹏,廖涛.基于改进K-means算法的时间和地点识别[J].电脑知识与技术,2017,13(12X):182-184. 被引量：1
3工信部批复新增6条国际互联网数据专用通道[J].金融科技时代,2018,26(1):87-87.
4李虹含,廉婧.你的互联网隐私要不要被暴光？“信联”要出生了[J].科技与金融,2018,0(1):70-72.
5谭建康.互联网数据中心机房防雷接地解决方案研究[J].科技经济导刊,2017(24):103-104.
6工信部批准没立济南国际互联网数据专用通道[J].电子世界,2018,0(3):4-4.
7新一代互联网数据中心建设启动[J].中国物流与采购,2018,0(2):10-10.
8中国联通、国投、中国电信、万国数据合作开展新一代互联网数据中心建设[J].电信网技术,2018(1):80-80.
9徐高峰,赵渺希.上海中心城区公共服务设施社会需求匹配研究[J].城市与区域规划研究,2017,9(4):199-212. 被引量：2

软件

2018年第1期

浏览历史

内容加载中请稍等...

分布式K-means聚类算法研究与实现被引量：13

参考文献9

二级参考文献111

共引文献131

同被引文献114

引证文献13

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

分布式K-means聚类算法研究与实现 被引量：13

参考文献9

二级参考文献111

共引文献131

同被引文献114

引证文献13

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

分布式K-means聚类算法研究与实现被引量：13