基于MapReduce的分布式近邻传播聚类算法被引量：53

Distributed Affinity Propagation Clustering Based on MapReduce

下载PDF

导出

摘要随着信息技术迅速发展,数据规模急剧增长,大规模数据处理非常具有挑战性.许多并行算法已被提出,如基于MapReduce的分布式K平均聚类算法、分布式谱聚类算法等.近邻传播(affinity propagation,AP)聚类能克服K平均聚类算法的局限性,但是处理海量数据性能不高.为有效实现海量数据聚类,提出基于MapReduce的分布式近邻传播聚类算法——DisAP.该算法先将数据点随机划分为规模相近的子集,并行地用AP聚类算法稀疏化各子集,然后融合各子集稀疏化后的数据再次进行AP聚类,由此产生的聚类代表作为所有数据点的聚类中心.在人工合成数据、人脸图像数据、IRIS数据以及大规模数据集上的实验表明:DisAP算法对数据规模有很好的适应性,在保持AP聚类效果的同时可有效缩减聚类时间. With the rapid development of computer technology, data grows explosively. There are challenges for the traditional machine learning algorithms to deal with the large scale data. Many parallel algorithms have been proposed to address the scalability problem, such as MapReduce-based K-means algorithm and parallel spectral clustering algorithm. Affinity propagation （AP） clustering algorithm is introduced to address some drawbacks of the traditional clustering methods such as K- means algorithm. However, its scalability and performance still need improving when dealing with large scale data. In this paper, we propose a distributed AP clustering algorithm based on MapReduce, named DisAP. At first, large scale data are partitioned into several smaller subsets randomly. Then each subset is sparsified in parallel by using AP clustering algorithm. The results are fused and then clustered again, which forms a set of high-quality exemplars. Finally, all data are assigned to exemplars in parallel. DisAP is implemented on a Hadoop cluster, and the experiments on synthetic datasets,human face image datasets, and IRIS dataset demonstrate that DisAP can achieve high performance on both scalability and accuracy.

作者鲁伟明杜晨阳魏宝刚沈春辉叶振超

机构地区浙江大学计算机科学与技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2012年第8期1762-1772,共11页 Journal of Computer Research and Development

基金国家自然科学基金项目(60673088) 国家自然科学基金重大研究计划重点基金项目(90920303) 中央高校基本科研业务费专项基金项目(KYJD09015) 中国博士后科学基金项目(20110491781)

关键词近邻传播聚类分布式计算 MAPREDUCE 数据划分聚类融合 affinity propagation cluster ensemble elustering distributed computing MapReduce data partition

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Ding-yin XIA Fei WU Xu-qing ZHAN Yue-ting ZHUANG.Local and global approaches of affinity propagation clustering for large scale data[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2008,9(10):1373-1381. 被引量：15
2倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15

二级参考文献20

1Han Jiawei, Micheline. Data Mining: Concepts and Techniques.San Francisco: Morgan Kaufmann Publishers, 2000.
2M. Ester, HP. Kriegel, J. Sander, et al. A density based algorithm of discovering clusters in large spatial databases with noise. In: E. Simoudis, Han Jiawei, U. M. Fayyad, eds. Proc.the 2nd Int'l Conf. Knowledge Discovery and Data Mining Portland. Menlo Park, CA: AAAI Press, 1996. 226～231.
3Tian Zhang, Raghu Ramakrishnan, Miron Livny. BIRCH: An efficient data clustering method for very large databases. In: Proc.ACM SIGMOD Int'l Conf. Management of Data. New York:ACM Press, 1996. 73～84.
4S. Guha, R. Rostogi, K. Shim. CURE: An efficient clustering algorithm for large databases. In: L. M. Haas, A. Tiwary, eds.Proc. the ACM SIGMOD Int'l Conf. Management of Data Seattle. New York: ACM Press, 1998. 73～84.
5W. Zhnn, et al. Muntz. STING: A statistical information grid approach to spatial data mining. In: Proc. 23rd VLDB Conf.,San Francisco: Morgan Kaufrnann, 1997. 186～195.
6S. Kantabutra, A. L. Couch. Parallel k-means clustering algorithm on Nows. NECTEC Technical Journal, 1999, 1 ( 1 ) :243～ 247.
7Manasi N. Joshi. Parallel k-means algorithm on distributed memory multiprocessors. http:∥www. cs. umn. edu/～mnjoshi/PKMeans. pdf, 2003.
8C. Pizzuti, D. Talia. P-Autoclass: Scalable parallel clustering for mining large data sets. IEEE Trans. Knowledge and Data Engineering, 2003, 15(6): 629～641.
9O. Egecioglu, H. Ferhatosmanoglu, U. Ogras. Dimensionality reduction and similarity computation by inner-product approximates. IEEE Trans. Knowledge and Data Engineering,2004, 16(6): 714～726.
10Maria Halkidi, Michalis Vazirgiannis. Clustering validity assessment: Finding the optimal partitioning of a data set. IEEE Int'l Conf. Data Mining, California, 2001.

共引文献28

1唐皓,刘希玉.引力流形上的空间聚类[J].科协论坛（下半月）,2009(10):96-98.
2常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
3陈晓云,王平,何春霞,冷明伟.基于三角不等式原理的TTSAS聚类加速算法[J].计算机工程,2006,32(17):97-99. 被引量：1
4刘峰,刘希玉,刘弘.流形上的空间密度聚类算法研究[J].中国海洋大学学报（自然科学版）,2007,37(4):681-684. 被引量：1
5吉根林,凌霄汉,杨明.一种基于集成学习的分布式聚类算法[J].东南大学学报（自然科学版）,2007,37(4):585-588. 被引量：1
6刘峰,刘希玉,张建萍.基于拓扑聚类的密度聚类算法研究[J].山东师范大学学报（自然科学版）,2007,22(3):30-33.
7刘希玉,张建萍.一种基于密度聚类的一般观点——拓扑聚类[J].计算机工程与应用,2007,43(26):164-168.
8倪巍伟,陈耿,孙志挥.一种基于数据垂直划分的分布式密度聚类算法[J].计算机研究与发展,2007,44(9):1612-1617. 被引量：8
9刘韬,蔡淑琴,曹丰文,崔志磊.基于距离浓度的K-均值聚类算法[J].华中科技大学学报（自然科学版）,2007,35(10):50-52. 被引量：7
10赵伟,李文辉,张姝.一种改进R-Link的空间数据检索算法[J].吉林大学学报（理学版）,2008,46(3):499-503. 被引量：1

同被引文献472

1肖宇,于剑.Gap statistic与K-means算法[J].计算机研究与发展,2007,44(z2):176-180. 被引量：7
2崔杰,李陶深,兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展,2012,49(S1):12-18. 被引量：141
3黄訸,易晓东,李姗姗,廖湘科.面向高性能计算机的海量数据处理平台实现与评测[J].计算机研究与发展,2012,49(S1):357-361. 被引量：13
4吴泓辰,王新军,成勇,彭朝晖.基于协同过滤与划分聚类的改进推荐算法[J].计算机研究与发展,2011,48(S3):205-212. 被引量：20
5廖松博,何震瀛.HDCH:MapReduce平台上的音频数据聚类系统[J].计算机研究与发展,2011,48(S3):472-475. 被引量：3
6江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
7张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
8吕爱平,朱良春.再论证候研究思路与方法[J].中国中医基础医学杂志,2004,10(8):1-2. 被引量：19
9郭蕾,王永炎,张俊龙,高思华,张志斌.关于证候因素的讨论[J].中国中西医结合杂志,2004,24(7):643-644. 被引量：37
10吴强.采用粗糙集中可辨识矩阵方法的概念格属性约简[J].计算机工程,2004,30(20):141-142. 被引量：6

引证文献53

1原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
2陈文强,林琛,陈珂,陈锦秀,邹权.基于GraphLab的分布式近邻传播聚类算法[J].山东大学学报（工学版）,2013,43(5):13-18.
3赵辉,杨树强,陈志坤,尹洪,金松昌.基于MapReduce模型的范围查询分析优化技术研究[J].计算机研究与发展,2014,51(3):606-617. 被引量：14
4顾荣,严金双,杨晓亮,袁春风,黄宜华.Hadoop MapReduce短作业执行性能优化[J].计算机研究与发展,2014,51(6):1270-1280. 被引量：28
5张素智,杨芮,陈小妮,李鹏辉.基于类内和类间距离的粗粒度并行AP聚类算法[J].华中师范大学学报（自然科学版）,2018,52(6):781-787. 被引量：1
6彭长生.基于Fisher判别的分布式K-Means聚类算法[J].江苏大学学报（自然科学版）,2014,35(4):422-427. 被引量：5
7姜麟,米允龙,王添.大数据下不完备信息系统近似空间的并行算法[J].计算机工程与应用,2014,50(15):101-106. 被引量：4
8蔡斌雷,任家东,朱世伟,郭芹.基于Hadoop MapReduce的分布式数据流聚类算法研究[J].信息工程大学学报,2014,15(4):472-478. 被引量：5
9冷泳林.基于MapReduce的分布式AP聚类算法[J].计算机与现代化,2014(10):104-107.
10张广蓉,陈庆奎,章刚,赵海燕,高丽萍,霍欢.基于MapReduce的并行化模糊划分算法[J].计算机应用,2014,34(11):3073-3077.

二级引证文献225

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：53
3段桂芹,邹臣嵩.基于K-medoids算法的学生成绩聚类研究[J].微型电脑应用,2020,0(2):64-66. 被引量：1
4王少锋,伍少成,刘涛,邓琨,黄兵.对Hadoop的用电信息大数据计算服务应用分析[J].自动化与仪器仪表,2016(4):221-222. 被引量：6
5齐娇娇.基于改进Apriori算法的运动员多属性训练数据挖掘模型构建及仿真[J].微型电脑应用,2018,34(12):137-139. 被引量：5
6何婕,赖敏.云计算平台中分布式Hadoop数据挖掘关键技术研究（英文）[J].机床与液压,2018,46(24):144-149. 被引量：10
7苏洋,刘晓军,唐勇,黄洋.游戏大数据平台研究与实践[J].电信科学,2014,30(10):21-26. 被引量：8
8张广蓉,陈庆奎,章刚,赵海燕,高丽萍,霍欢.基于MapReduce的并行化模糊划分算法[J].计算机应用,2014,34(11):3073-3077.
9米允龙,米春桥,刘文奇.海量数据挖掘过程相关技术研究进展[J].计算机科学与探索,2015,9(6):641-659. 被引量：36
10殷进勇,杨阳,徐振朋,姚小城,曾玮妮.计算存储融合:从高性能计算到大数据[J].指挥控制与仿真,2015,37(3):1-7. 被引量：3

1刘宝芬.基于密度的自适应K-平均聚类算法在Web日志挖掘中的应用[J].信息与电脑（理论版）,2015(4):10-11.
2何登旭,曲良东.一种新的混合聚类分析算法[J].计算机应用研究,2009,26(3):879-880. 被引量：7
3王平,任荣,付蔚,谭刚.基于Hibernate数据性能优化方法的研究[J].广东通信技术,2013,33(8):61-66.
4夏芳,陈虹,曹立强,沈卫超.利用位图索引加速大规模科学数据按需访问[J].计算机研究与发展,2011,48(S1):94-99. 被引量：4
5陈剑,龚发根.一种优化分布式文件系统的文件合并策略[J].计算机应用,2011,31(A02):161-163. 被引量：6
6黄晓斌,万建伟,张燕.一种基于模糊规则的分类方法[J].计算机工程与科学,2004,26(3):57-60. 被引量：1
7刘显贵,陈志新.基于核主元分析的支持向量机识别方法研究[J].微计算机信息,2006(09S):304-306. 被引量：6
8刘显贵,谢云敏,陈无畏.一种基于核主元分析的支持向量机识别方法[J].南昌大学学报（理科版）,2007,31(1):49-52. 被引量：4
9张燕,鲁汉榕.一种基于模糊C均值聚类的模糊规则提取方法[J].广西师范大学学报（自然科学版）,2003,21(1):129-132. 被引量：4
10殷晓明,顾幸生.一种基于改进型遗传算法的模糊聚类[J].华东理工大学学报（自然科学版）,2006,32(7):849-851. 被引量：8

计算机研究与发展

2012年第8期

浏览历史

内容加载中请稍等...

基于MapReduce的分布式近邻传播聚类算法被引量：53

参考文献2

二级参考文献20

共引文献28

同被引文献472

引证文献53

二级引证文献225

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的分布式近邻传播聚类算法 被引量：53

参考文献2

二级参考文献20

共引文献28

同被引文献472

引证文献53

二级引证文献225

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的分布式近邻传播聚类算法被引量：53