基于云计算平台Hadoop的HKM聚类算法设计研究被引量：9

HKM Clustering Algorithm Design and Research Based on Hadoop Platform

下载PDF

导出

摘要为有效解决传统K-means聚类算法在处理大规模数据集时面临的扩展性问题,提出了一种Hadoop K-means聚类算法.该算法首先根据样本密度剔除数据集中孤立点或者噪声点的影响,再利用最大化最小距离思想选取K个初始中心,使初始聚簇中心点最优化,最后用Hadoop云计算平台的Map Reduce编程模型实现算法的并行化.实验结果表明,该算法不仅在聚类结果上具有较高的准确率和稳定性,而且能够很好地解决传统聚类算法在处理大规模数据时所面临的扩展性问题. In order to solve the problem of traditional K-means clustering algorithm in dealing with large-scale data set, a Hadoop K-means （HKM） clustering algorithm is proposed.Firstly, based on the of sample density, the algorithm excludes the effect of data set point or noise. Secondly the optimization of the initial cluster centers is carried out by selecting K initial centers guided by the thought of maximizing the minimum distance. In the end, the MapReduce programming model of Hadoop cloud computing platform is used to realize the parallelization of the algorithm. Experimental results show that the proposed algorithm not only has high accuracy and stability in clustering results, but also can solve the problems of scalability encountered by traditional clustering algorithms in dealing with large scale data.

作者张淑芬董岩岩陈学斌 ZHANG Shu-fen;DONG Yan-yan;Chen Xue-bin(College of Science, North China University of Science and Technology, Tangshan 063009, HebeiProvince, China;Hebei Key Laboratory of Data Science ＆ Application, Tangshan 063009, Hebei Province, China)

机构地区华北理工大学理学院河北省数据科学与应用重点实验室

出处《应用科学学报》 CAS CSCD 北大核心 2018年第3期524-534,共11页 Journal of Applied Sciences

关键词 K-MEANS算法样本密度最大化最小距离 HADOOP平台并行化计算 K-means algorithm sample density maximum minimum distance Hadoop platform parallel computing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献22

1杨志,罗可.一种改进的基于粒子群的聚类算法[J].计算机应用研究,2014,31(9):2597-2599. 被引量：14
2韩伟,张学庆,陈旸.基于MapReduce的图像分类方法[J].计算机应用,2014,34(6):1600-1603. 被引量：8
3柳静,郭红山.云计算中K-means聚类中心优化求解方法[J].科技通报,2015,31(10):100-102. 被引量：6
4周炜奔,石跃祥.基于密度的K-means聚类中心选取的优化算法[J].计算机应用研究,2012,29(5):1726-1728. 被引量：48
5罗军锋,锁志海.一种基于密度的k-means聚类算法[J].微电子学与计算机,2014,31(10):28-31. 被引量：12
6周润物,李智勇,陈少淼,陈京,李仁发.面向大数据处理的并行优化抽样聚类K-means算法[J].计算机应用,2016,36(2):311-315. 被引量：45
7张杰,卓灵,朱韵攸.一种K-means聚类算法的改进与应用[J].电子技术应用,2015,41(1):125-128. 被引量：20
8马汉达,郝晓宇,马仁庆.基于Hadoop的并行PSO-kmeans算法实现Web日志挖掘[J].计算机科学,2015,42(S1):470-473. 被引量：13
9张玉芳,毛嘉莉,熊忠阳.一种改进的K-means算法[J].计算机应用,2003,23(8):31-33. 被引量：72
10周婷,张君瑛,罗成.基于Hadoop的K-means聚类算法的实现[J].计算机技术与发展,2013,23(7):18-21. 被引量：24

二级参考文献236

1朱颢东,钟勇,赵向辉.一种优化初始中心点的K-Means文本聚类算法[J].郑州大学学报（理学版）,2009,41(2):29-32. 被引量：13
2王守强,朱大铭,韩爱丽.基于初始点选取的k-means聚类近似常数算法[J].计算机研究与发展,2007,44(z2):69-74. 被引量：3
3江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
4袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：47
5刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
6刘泉凤,陆蓓,王小华.文本挖掘中聚类算法的比较研究[J].计算机时代,2005(6):7-8. 被引量：8
7刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
8陈贵敏,贾建援,韩琪.粒子群优化算法的惯性权值递减策略研究[J].西安交通大学学报,2006,40(1):53-56. 被引量：307
9杨善林,李永森,胡笑旋,潘若愚.K-MEANS算法中的K值优化问题研究[J].系统工程理论与实践,2006,26(2):97-101. 被引量：188
10钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32

共引文献497

1陈丽娜,司海平,曹永生.多维农业数据交互式协同可视化系统设计与应用[J].商丘师范学院学报,2023,39(3):12-15. 被引量：2
2赵大伟,肖周芳.一种改进的基于密度和样本数量的K-means算法[J].科技信息,2008(28):170-172. 被引量：1
3黎新伍.医学图像体分割的特征聚类算法[J].清华大学学报（自然科学版）,2008,48(S2):1790-1793. 被引量：1
4许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
5张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
6原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
7张新娟.一种基于改进粒子群算法的图像分类方法研究[J].自动化与仪器仪表,2016(7):163-164. 被引量：1
8李丽珊,朱文兴.基于簇中心动态迁移的一个聚类算法[J].福建农林大学学报（自然科学版）,2004,33(4):508-511.
9江华,王翰虎,陈梅.一种基于K-means聚类分组的P2P超结点模型[J].计算机应用与软件,2005,22(10):67-68. 被引量：1
10李业丽,秦臻.一种改进的k-means算法[J].北京印刷学院学报,2007,15(2):63-65. 被引量：9

同被引文献105

1李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
2周鲜成.图像分割方法及其应用研究综述[J].信息技术,2007,31(12):11-14. 被引量：19
3刘锁兰,王江涛,王建国,杨静宇.一种新的基于图论聚类的分割算法[J].计算机科学,2008,35(9):245-247. 被引量：12
4李光,王朝英,侯志强.基于K均值聚类与区域合并的彩色图像分割算法[J].计算机应用,2010,30(2):354-358. 被引量：35
5吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：161
6陈光平,王文鹏,黄俊.一种改进初始聚类中心选择的K-means算法[J].小型微型计算机系统,2012,33(6):1320-1323. 被引量：39
7辛大欣,屈伟.基于Hadoop的云计算算法研究[J].电子设计工程,2013,21(3):33-35. 被引量：4
8冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49(14):182-185. 被引量：49
9赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
10陈辉.一种基于位图计算并行挖掘大数据频繁模式算法[J].小型微型计算机系统,2014,35(7):1599-1603. 被引量：5

引证文献9

1王建仁,马鑫,段刚龙.改进的K-means聚类k值选择算法[J].计算机工程与应用,2019,55(8):27-33. 被引量：101
2汪晶,邹学玉,喻维明,孙咏.分布式MVC-Kmeans算法设计与实现[J].长江大学学报（自然科学版）,2019,16(6):113-119. 被引量：3
3县小平,马国俊.基于随机游走算法的中文文档信息处理模型[J].青海科技,2019,26(3):45-48.
4白茹.基于云计算和Hadoop的网络舆情监控系统设计[J].电子设计工程,2019,27(16):141-144. 被引量：9
5牛志梅.云计算Hadoop平台中基于遗传算法的高校师资培训资源管理[J].现代电子技术,2019,42(21):120-124. 被引量：1
6余寒,刘汉湖,曾敏,陈军.Regional Merge K-means图像分割算法及其质量评价[J].河南科学,2020,38(3):370-375. 被引量：2
7臧艳辉,席运江,赵雪章.基于MapReduce的分治k均值聚类方法[J].计算机工程与设计,2020,41(5):1345-1351. 被引量：6
8顾东虎.Hadoop云平台下基于P-WAP的大数据聚类挖掘算法[J].长春师范大学学报,2020,39(10):29-35. 被引量：3
9张璐.云计算平台的医院后勤信息管理系统设计[J].电子设计工程,2021,29(12):19-22. 被引量：5

二级引证文献129

1冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：9
2刘甜甜,齐述华.DBSCAN算法在城市科教文化设施集群识别中的应用研究——以贵阳市中心城区为例[J].创新科技,2019,19(2):18-24.
3陈延超,方明,陆秋云,欧阳丹.基于最小二乘支持向量机的输电线路耐张塔比例调整系数[J].广西电力,2019,42(3):20-23. 被引量：1
4王立友,郑海鹏.基于Hadoop的K-Means算法的设计与实现[J].绥化学院学报,2019,39(11):154-157. 被引量：1
5李若熙,赵一秾,曹语含,陈小静,张学东.自适应聚类激光标定图像提取算法的研究[J].辽宁科技大学学报,2019,42(4):294-300.
6王海燕,崔文超,许佩迪,李闯.一种局部概率引导的优化K-means++算法[J].吉林大学学报（理学版）,2019,57(6):1431-1436. 被引量：7
7韩耀廷,赵一鸣,谢炯,陈晓宇,杨浒昀.突发事件下电力企业网络舆情发现云平台研究[J].电力信息与通信技术,2019,17(11):70-75.
8杨俊闯,赵超.K-Means聚类算法研究综述[J].计算机工程与应用,2019,55(23):7-14. 被引量：269
9巫朝星.基于孤立森林模型的企业用水异常检测研究[J].企业科技与发展,2019,0(11):61-62. 被引量：3
10李鹏飞.基于K-means聚类算法的高校图书馆用户分类及价值评价[J].电子元器件与信息技术,2019,3(9):73-76. 被引量：7

1尹铁源,张瑞琴.基于MapReduce网页文本并行化计算的研究[J].信息通信,2018,31(4):32-34.
2刘炳含,付忠广,王鹏凯,王永智,高学伟.大数据挖据技术在燃煤电站机组能耗分析中的应用研究[J].中国电机工程学报,2018,38(12):3578-3587. 被引量：22
3刘洋.云计算的系统架构及技术探析[J].新一代（理论版）,2018,0(12):182-182.
4何文杰,何伟超,孙权森.压缩感知重构算法的并行化及GPU加速[J].山东大学学报（工学版）,2018,48(3):110-114. 被引量：1
5秦杰仪,曾志,孙蕾,邓昭宇.基于Hadoop的大数据平台架设探讨[J].现代工业经济和信息化,2018,8(5):47-49. 被引量：2
6马振磊,丁昕苗,柳婵娟,李亚庆.基于距离阈值聚类的关键帧提取方法[J].鲁东大学学报（自然科学版）,2018,34(2):128-135. 被引量：2
7曾瑛,李星南,刘新展.电力通信大数据并行化聚类算法研究[J].电子技术应用,2018,44(5):1-4. 被引量：13
8刘炳含,付忠广,王永智,王鹏凯,高学伟.基于并行计算的大数据挖掘技术及其在电站锅炉性能优化中的应用[J].动力工程学报,2018,38(6):431-439. 被引量：25
9Cong WANG,Chen GUO,Yu LIU,You HE.Group tracking algorithm for split maneuvering based on complex domain topological descriptions[J].Chinese Journal of Aeronautics,2018,31(1):126-136. 被引量：1
10余宏,洪如霞,史文津.基于大数据的企业主题网络舆情分析系统模型研究[J].现代计算机,2018,24(9):71-75. 被引量：5

应用科学学报

2018年第3期

浏览历史

内容加载中请稍等...

基于云计算平台Hadoop的HKM聚类算法设计研究被引量：9

参考文献22

二级参考文献236

共引文献497

同被引文献105

引证文献9

二级引证文献129

相关作者

相关机构

相关主题

浏览历史

基于云计算平台Hadoop的HKM聚类算法设计研究 被引量：9

参考文献22

二级参考文献236

共引文献497

同被引文献105

引证文献9

二级引证文献129

相关作者

相关机构

相关主题

浏览历史

基于云计算平台Hadoop的HKM聚类算法设计研究被引量：9