基于Hadoop的仿射传播大数据聚类分析方法被引量：8

Affinity propagation clustering for big data based on Hadoop

下载PDF

导出

摘要仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/Hello World CN/Map Reduce APC上下载。 Affinity Propagation Clustering（APC）is a new clustering algorithm. APC has been applied in various fields recently. However, AP can＇t be applied for analyzing large-scale data sets. To overcome this limitation, an improved Affinity Propagation cluster analysis algorithm（Affinity Propagation Clustering for Big Data Based on Hadoop, APCH）is proposed in the Hadoop distributed computing framework. After redesigning algorithm flow based on Hadoop framework, APCH becomes parallelized cluster analysis method for large-scale data. Moreover, APCH can efficiently operate big dada, and directly determine the number of clusters. To verify the provided method, we experiment its performance on many data sets. The experimental results show that APCH provides good scalability and flexibility on big data analysis. In addition,APCH is open-source software and can be freely downloaded. APCH can be deployed on your Hadoop clusters, or Amazon Elastic Compute Cloud（Amazon EC2）, etc. All compiled execution binary package, user manual, including some test data sets can be downloaded from https：//github.com/Hello World CN/Map Reduce APC.

作者唐东明

机构地区西南交通大学信息化研究院

出处《计算机工程与应用》 CSCD 北大核心 2015年第4期29-34,共6页 Computer Engineering and Applications

基金国家自然科学基金(No.61100118 No.61003142 No.61373009) 中央高校基本科研业务费专项资金资助(No.2682014CX100)

关键词仿射传播聚类 MAP REDUCE HADOOP 键值存储大数据 affinity propagation clustering Map Reduce Hadoop key-value store big data

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072
2Jain A K,Murty M N,Flynn P J.Data clustering:a review[J].ACM Computing Surveys,1999,31(3):264-323.
3Frey B J,Dueck D.Clustering by passing messages between data points[J].Science,2007,315(5814):972-976.
4Xin-zheng XU,Shi-fei DING,Zhong-zhi SHI,Hong ZHU.Optimizing radial basis function neural network based on rough sets and affinity propagation clustering algorithm[J].Journal of Zhejiang University-Science C(Computers and Electronics),2012,13(2):131-138. 被引量：6
5Shang F H,Jiao L C,Shi J R,et al.Fast affinity propagation clustering:a multilevel approach[J].Pattern Recognition,2012,45(1):474-486.
6鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53
7Apache[EB/OL].Hadoop.http://hadoop.apache.org/.
8Dean J,Ghemawat S.Map Reduce:simplified data processing on large clusters[C]//OSDI'04:6th Symposium on Operating Systems Design and Implementation.San Francisco,California,USA:USENIX Association,2004:137-149.
9覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
10廖松博,何震瀛.HDCH:MapReduce平台上的音频数据聚类系统[J].计算机研究与发展,2011,48(S3):472-475. 被引量：3

二级参考文献100

1倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
2李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
3Jain A K, Murty M N, Flyrm P J.Data clustering: a review[J]. ACM Computing Surveys, 1999,31 (3) : 264-323.
4Frey B J,Dueck D.Clustering by passing messages between data points[J].Science, 2007,315 : 972-976.
5Dunia R, Qin S J.Subspace approach to multidimensional fault identification and reconstruction[J].AICHE Journal, 1998,44 (8) : 1813-1831.
6Howley T, Madden M G.The effect of principal component analysis on machine learning accuracy with high-dimensional spectral data[J].Knowledge-Based Systems, 2006,19(5 ) : 363-370.
7Kaufman L,Rousseeuw P J.Finding groups in data:an introduction to cluster analysis[M].Malden:John Wiley and Sons,1990.
8Dudoit S, Fridlyand J.A prediction-based resampling method for estimating the number of clusters in a dataset[J].Genome Biology,2002,3 (7) : 1-21.
9Zhou MQ, Zhang R, Zeng DD, Qian WN, Zhou AY. Join optimization in the MapReduce environment for column-wise data store. In: Fang YF, Huang ZX, eds. Proc. of the SKG. Ningbo: IEEE Computer Society, 2010.97-104. [doi: 10.1109/SKG.2010.18].
10Afrati FN, Ullman JD. Optimizing joins in a Map-Reduce environment. In: Manolescu I, Spaecapietra S, Teubner J, Kitsuregawa M, Leger A, Naumann F, Ailamaki A, Ozcan F, eds. Proc. of the EDBT. Lausanne: ACM Press, 2010. 99-110. [doi: 10.1145/ 1739041.1739056].

共引文献1515

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
3林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
4高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
5毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
6张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
7李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
8尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
9段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1
10郑智泉,杨楠.智能革命下数据驱动的智慧图书馆建设分析[J].智能计算机与应用,2020(8):183-185.

同被引文献77

1赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
2鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53
3李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1605
4刘城霞.基于MS关联规则数据挖掘模型的应用与探讨[J].计算机技术与发展,2013,23(1):25-28. 被引量：4
5张雪萍,龚康莉,赵广才.基于MapReduce的K-Medoids并行算法[J].计算机应用,2013,33(4):1023-1025. 被引量：33
6马雯雯,邓一贵.新的短文本特征权重计算方法[J].计算机应用,2013,33(8):2280-2282. 被引量：8
7高志春,陈冠玮,胡光波,张毅.倾斜因子K均值优化数据聚类及故障诊断研究[J].计算机与数字工程,2014,42(1):14-18. 被引量：37
8朱为盛,王鹏.基于Hadoop云计算平台的大规模图像检索方案[J].计算机应用,2014,34(3):695-699. 被引量：27
9栗磊,周云霞,张国强.一种基于可变滑动窗口的数据流分段聚类算法[J].科学技术与工程,2014,22(9):211-214. 被引量：4
10牛科,贾郭军.基于Hadoop云平台的并行谱聚类算法的设计与实现[J].山西师范大学学报（自然科学版）,2014,28(1):43-46. 被引量：1

引证文献8

1李晓峰.云平台中大数据并行聚类方法优化研究仿真[J].计算机仿真,2016,33(7):327-330. 被引量：8
2邓强,杨燕,王浩.一种改进的多视图聚类集成算法[J].计算机科学,2017,44(1):65-70. 被引量：8
3屈洁.虚拟环境下大数据智能并行聚类方法研究[J].计算机测量与控制,2017,25(6):257-260. 被引量：4
4费贤举,李虹,田国忠.基于特征加权理论的数据聚类算法[J].沈阳工业大学学报,2018,40(1):77-81. 被引量：40
5刘斌,何进荣,耿耀君,王最.并行机器学习算法基础体系前沿进展综述[J].计算机工程与应用,2017,53(11):31-38. 被引量：10
6李鹏飞,刘春宇,海军.云计算环境下关联性大数据实时流式可控聚类算法[J].科学技术与工程,2018,18(7):185-190. 被引量：13
7冯政军,朱琴.论物联网大数据聚类分析方法和技术[J].信息与电脑,2018,30(6):119-121. 被引量：1
8顾东虎.Hadoop云平台下基于P-WAP的大数据聚类挖掘算法[J].长春师范大学学报,2020,39(10):29-35. 被引量：3

二级引证文献87

1李默雷.运输车辆违规行为融合型识别技术方法研究[J].中国交通信息化,2024(S01):595-601.
2白永平,彭江红,王延卓.机器学习和数据挖掘在动物养殖行业中的应用研究进展[J].兽医导刊,2019(2):47-48.
3何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10
4郭荣传.关于医学数据库资源特征信息准确查询仿真[J].计算机仿真,2017,34(11):451-454. 被引量：1
5厉彦玲,赵庚星,常春艳,王卓然,王凌,郑佳荣.OLI与HSI影像融合的土壤盐分反演模型[J].农业工程学报,2017,33(21):173-180. 被引量：25
6孟维韬,马彦敏,朴春慧.云计算环境下动态数据聚集算法研究[J].计算机测量与控制,2018,26(1):177-180. 被引量：1
7王凯杰.一种基于MapReduce的改进人工蜂群算法[J].软件导刊,2018,17(2):71-73. 被引量：1
8敬思,许建飞.基于知识图谱的机器学习领域研究进展分析[J].江苏科技信息,2018,35(13):18-21. 被引量：1
9张佩瑞,杨燕,邢焕来,喻琇瑛.基于核K-means的增量多视图聚类算法[J].山东大学学报（工学版）,2018,48(3):48-53. 被引量：1
10魏霖静,宁璐璐,郭斌,侯振兴.大数据中基于熵加权的稀疏分数特征选择聚类算法[J].计算机应用研究,2018,35(8):2293-2294. 被引量：5

1宋慧,张延园,何娟娟.基于键值存储上中间件技术的研究[J].计算机与现代化,2013(1):77-80. 被引量：1
2雷琪,余慧萍,吴敏.主动半监督仿射传播聚类算法[J].模式识别与人工智能,2015,28(11):961-968. 被引量：2
3朱牧,孟凡荣,周勇.基于仿射传播的有向网络聚类算法[J].计算机应用研究,2013,30(7):1950-1952. 被引量：4
4史加荣,杨威,魏宗田.基于非负稀疏表示的人脸识别[J].计算机工程与设计,2012,33(5):2002-2006. 被引量：2
5张亮,杜子平,张俊,李杨.基于拉普拉斯特征映射的仿射传播聚类[J].计算机工程,2011,37(9):216-217. 被引量：1
6穆宝良,李晋.基于自适应仿射传播聚类的社团发现求解[J].软件工程师,2013(6):32-34. 被引量：1
7赵启升,李存华.仿射传播聚类算法和稀疏贝叶斯的网络流量预测模型[J].计算机应用研究,2015,32(11):3371-3374. 被引量：3
8范立衡,任祖杰.基于键值存储的元数据集群副本一致性研究[J].杭州电子科技大学学报（自然科学版）,2014,34(2):84-87.
9吴海华,李绍滋,林达真,柯逍,曹冬林.基于新型聚类算法IncreaseK-Means的Blog相似度分析[J].厦门大学学报（自然科学版）,2009,48(2):194-197. 被引量：2
10王平.基于AP聚类分析的学生成绩评价研究[J].微型电脑应用,2015,31(8):57-58. 被引量：3

计算机工程与应用

2015年第4期

浏览历史

内容加载中请稍等...

基于Hadoop的仿射传播大数据聚类分析方法被引量：8

参考文献16

二级参考文献100

共引文献1515

同被引文献77

引证文献8

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的仿射传播大数据聚类分析方法 被引量：8

参考文献16

二级参考文献100

共引文献1515

同被引文献77

引证文献8

二级引证文献87

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的仿射传播大数据聚类分析方法被引量：8