一种Hadoop平台下的树形聚类算法被引量：1

Arborescence Clustering Algorithm Based on Hadoop Platform

下载PDF

导出

摘要针对现有算法在大数据背景下聚类效果差,以及由于迭代等原因导致处理性能低等问题,提出一种在Hadoop平台高效并行的聚类算法PAClustering.先提出一种基于权重的方法,将整体数据按分布划分成若干数据块,并针对每个数据块将紧凑的数据抽象成一个向量,形成微团,最后通过树形合并进行聚类,在提高聚类准确度的同时有效避免了传统算法在聚类过程中的迭代运算.在不同大小数据集上的实验表明,PAClustering算法不仅具有较高的聚类准确度和稳定性,同时具有良好的处理性能. As the existed algorithms have poor clustering effect under the background of big data, and their processing performance is poor because of the iteration, this paper proposes a kind of efficient parallel clustering algorithm on Hadoop platform. According to the distribution, we firstly propose a weight-based idea to partition the dataset into a number of data blocks, then divide each data block into many groups in which the compact data will be gathered as a vector. Finally arborescence merge is applied to clustering. The new algorithm improves the clustering accuracy and avoids the iterative operation in clustering process. Experimental on different size of datasets show that this algorithm not only has higher accuracy and stability of clustering, also has good processing perform- alice.

作者张波徐蔚鸿陈沅涛朱玲

机构地区长沙理工大学计算机与通信工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2016年第8期1770-1774,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金青年项目(61402053)资助湖南省科技计划项目(2014SK3080)资助湖南省教育厅优秀青年项目(14B005)资助

关键词大数据 HADOOP 并行聚类微团树形合并 big data Hadoop parallel clustering micro-cluster arborescence merge

分类号 TP399 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(4):327-336. 被引量：327
2张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
3黄炜,刘坤.面向信息特征模式识别的核方法研究综述[J].现代情报,2014,34(3):168-176. 被引量：7
4缪裕青,张锦杏,刘少兵,文益民,明媚.一种基于Hadoop平台的新聚类算法[J].计算机科学,2014,41(4):269-272. 被引量：6

二级参考文献119

1王自强,段爱玲,张德贤.基于支持向量数据描述的高效异常数据检测算法[J].吉林大学学报（工学版）,2009,39(2):499-503. 被引量：3
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3李盼池,许少华.支持向量机在模式识别中的核函数特性分析[J].计算机工程与设计,2005,26(2):302-304. 被引量：98
4吴今培.基于核函数的主成分分析及应用[J].系统工程,2005,23(2):117-120. 被引量：28
5王国胜.核函数的性质及其构造方法[J].计算机科学,2006,33(6):172-174. 被引量：52
6周林峰,丁永生.基于遗传算法的Mercer核聚类方法[J].模式识别与人工智能,2006,19(3):307-311. 被引量：4
7张家凡,黄之初,王小明.基于支持向量异常检测算法的新故障检测[J].武汉理工大学学报,2006,28(12):109-112. 被引量：1
8赵晓翠,王来生.基于投影寻踪和支持向量机的模式识别方法[J].计算机应用研究,2007,24(2):86-88. 被引量：10
9邓乃杨田英杰.数据挖掘中的新方法-支持向量机[M].北京:科学出版社,2004..
10杜京义,候媛彬.基于核方法的故障诊断理论及方法的研究[M].北京:北京大学出版社,2010:55-110.

共引文献361

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2冯秋燕,朱学芳.基于科学计量的信息技术融合分析[J].情报科学,2020,0(2):142-150. 被引量：4
3陈欣宇.基于大数据背景的机器学习算法研究[J].计算机产品与流通,2020,0(3):85-85. 被引量：1
4张毅,田浩.XGBoost在量化选股中的应用研究[J].金融管理研究,2020(2):122-132.
5朱赫夫.论证型式:司法人工智能的希冀[J].法大研究生,2021(1):83-101.
6李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
7宋东翔,马伽洛伦,王怡然,袁铭举.基于云原生和区块链的高校智能人事系统的研究[J].新一代信息技术,2022,5(6):67-70.
8王刚.大数据在硝酸生产中的应用[J].自动化与仪器仪表,2016(7):242-244. 被引量：1
9莫春柳.CAI的实践和再认识[J].电化教育研究,2000,21(9):47-48. 被引量：1
10谢雪莲,李兰友.基于云计算的并行K-means聚类算法研究[J].计算机测量与控制,2014,22(5):1510-1512. 被引量：21

同被引文献10

1张斌,庄池杰,胡军,陈水明,张明明,王科,曾嵘.结合降维技术的电力负荷曲线集成聚类算法[J].中国电机工程学报,2015,35(15):3741-3749. 被引量：136
2杨煜,赵成贵.基于Hadoop MapReduce并行近似谱聚类算法研究与实现[J].计算机应用与软件,2015,32(8):17-21. 被引量：4
3赵国生,牛贞贞,刘永光,孙超亮.基于自适应模糊C均值聚类算法的电力负荷特性分类[J].郑州大学学报（工学版）,2015,36(6):56-60. 被引量：14
4赵文清,龚亚强.基于Kernel K-means的负荷曲线聚类[J].电力自动化设备,2016,36(6):203-207. 被引量：30
5彭勃,张逸,熊军,董树锋,李永杰.结合负荷形态指标的电力负荷曲线两步聚类算法[J].电力建设,2016,37(6):96-102. 被引量：9
6王琳璘,谢忠局,陈永权,王琦.机器学习聚类组合算法及其应用[J].山东农业大学学报（自然科学版）,2018,49(3):463-466. 被引量：9
7徐涛,黄莉,李敏蕾,朱明杰.基于多维细粒度行为数据的居民用户画像方法研究[J].电力需求侧管理,2019,21(3):47-52. 被引量：38
8李婧,徐胜蓝,万灿,卢奕城,王素英.基于自适应k-means++算法的电力负荷特性分析[J].南方电网技术,2019,13(2):13-19. 被引量：23
9刘念祖,耿琦,王国民,张凯,李文建,周黎鸣.非线性季节型电力负荷曲线集成聚类算法研究[J].科技通报,2019,35(6):193-196. 被引量：1
10潘明明,田世明,魏娜,赵嵩正,王莉芳,吴磊.基于数据划分的工业电力负荷曲线聚类研究[J].电气自动化,2019,41(4):24-26. 被引量：5

引证文献1

1原野,田园.基于DTW层次聚类算法的电力负荷数据特征研究[J].自动化仪表,2020,41(12):96-101. 被引量：9

二级引证文献9

1陈志,胡健民.电力负荷聚类建模及特性分析[J].光源与照明,2021(4):82-83. 被引量：1
2徐胜,刘志诚,涂鑫涛,周轩阳,费敏锐,张堃.基于手势识别的手部康复智能评估算法研究[J].自动化仪表,2021,42(12):23-27. 被引量：3
3余少锋,佘俊,钟建栩,廖崇阳.融合机器学习的云监控数据分析仿真[J].自动化仪表,2022,43(3):75-78. 被引量：4
4白东壮,田世明,邹毅豪,周颖,徐玉婷,韩凝晖,李永军.基于FDA的居民用户空调用电行为分类分析方法[J].智慧电力,2022,50(3):44-49. 被引量：10
5王新刚,赵舫,朱文君.基于综合能源计量数据的区域用能特性分析[J].中国电力,2022,55(9):140-145. 被引量：1
6刘诗语,吴鸣,李睿哲.基于多维缩放和KICIC的电力负荷聚类[J].科学技术与工程,2023,23(3):1096-1103. 被引量：1
7杨嘉睿,俞楚天,叶少杰.基于数据驱动的客户侧需求响应资源精准唤醒[J].电力安全技术,2023,25(11):5-11.
8孙妍,张俊超,马占海,严嘉正.基于自适应分段云模型的电力异构数据聚类研究[J].自动化仪表,2024,45(2):69-73.
9吴鑫,杨永利,李晓君,曹帅,贺成铭,张皓男.谱聚类与注意力机制融合的电力负荷数据处理技术[J].电子设计工程,2024,32(20):93-97.

1阎仲璞,邵秀丽,张峰.并行聚类分析算法(英文)[J].南开大学学报（自然科学版）,2008,41(4):106-112.
2陈敏,郗玉平.一种新的并行聚类算法[J].中国电子商情（通信市场）,2009(6):173-176.
3陈敏,高学东,栾绍峻,郗玉平.基于密度的并行聚类算法[J].计算机工程,2010,36(11):8-10. 被引量：9
4孟海东,杨彦侃.并行聚类算法的设计与研究[J].计算机与现代化,2010(8):5-7. 被引量：2
5李青华,马春波.基于并行聚类算法的无监督异常检测研究[J].舰船电子工程,2012,32(1):79-82. 被引量：2
6赵中堂,李春雷.基于移动Agent的并行聚类算法模型[J].中原工学院学报,2005,16(1):40-43. 被引量：1
7郑洪英,倪霖,肖迪.大规模数据集聚类中的数据分区及应用研究[J].计算机应用研究,2007,24(2):203-205. 被引量：1
8牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22
9韦火旺,钟诚.基于并行聚类的物联网k-匿名算法[J].信息技术,2013,37(12):6-10. 被引量：2
10汪军,王传玉.基于协议分析的并行聚类入侵检测模型[J].安徽工程科技学院学报（自然科学版）,2009,24(4):28-31.

小型微型计算机系统

2016年第8期

浏览历史

内容加载中请稍等...

一种Hadoop平台下的树形聚类算法被引量：1

参考文献4

二级参考文献119

共引文献361

同被引文献10

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种Hadoop平台下的树形聚类算法 被引量：1

参考文献4

二级参考文献119

共引文献361

同被引文献10

引证文献1

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种Hadoop平台下的树形聚类算法被引量：1