一种基于密度的分布式聚类方法被引量：13

Density-Based Distributed Clustering Method

下载PDF

导出

摘要聚类是数据挖掘领域中的一种重要的数据分析方法.它根据数据间的相似度,将无标注数据划分为若干聚簇.CSDP是一种基于密度的聚类算法,当数据量较大或数据维数较高时,聚类的效率相对较低.为了提高聚类算法的效率,提出了一种基于密度的分布式聚类方法 MRCSDP,利用MapReduce框架对实验数据进行聚类.该方法定义了独立计算单元和独立计算块的概念.首先,将数据拆分为若干数据块,构建独立计算单元和独立计算块,在集群中分配独立计算块的任务;然后进行分布式计算,得到数据块的局部密度,将局部密度合并得到全局密度,根据全局密度计算中心值,由全局密度和中心值得到每个数据块中候选聚簇中心;最后,从候选聚簇中心选举出最终的聚簇中心.MRCSDP在充分降低时间复杂度的基础上得到较好的聚类效果.实验结果表明,分布式环境下的聚类方法MRCSDP相对于CSDP更能快速、有效地处理大规模数据,并使各节点负载均衡. Clustering is an important method for data analysis in the field of data mining.The function of clustering is to divide unlabeled data divided into several groups according to the data similarity.CSDP is a density-based clustering method.When data size is Iarge or data dimensionality is high,the efficiency of clustering is relatively low.In order to improve the efficiency of clustering algorithm,this paper proposes a density-based distributed clustering method,called MRCSDP,which uses MapReduce to cluster text data.This method introduces the definition of independent calculation unit and independent calculation block.First,data are split into several data blocks which are used to construct independent calculation unit and independent calculation block.The task for each independent calculation block is assigned.Then the distributed calculation is conducted to obtain the local density of the data blocks.The local densities are combined to obtain the global density.The center value is calculated according to the global density.Based on the global density and the center value,the candidate cluster centers of each data block can be obtained.Finally,the global cluster centers are obtained by calculating the density of all candidate cluster centers.MRCSDP can achieve better clustering performance by reducing time complexity.Experimental results show that compared to CSDP,MRCSDP can process large scale data more effectively with loadbalancing on each computing nodes.

作者王岩彭涛韩佳育刘露 WANG Yan;PENG Tao;HAN Jia-Yu;LIU Lu(College of Computer Science and Technology, Jilin University, Changchun 130012, China;Key Laboratory of Symbol Computation and Knowledge Engineering （Jilin University）, Ministry of Education, Changehun 130012, China)

机构地区吉林大学计算机科学与技术学院符号计算与知识工程教育部重点实验室(吉林大学)

出处《软件学报》 EI CSCD 北大核心 2017年第11期2836-2850,共15页 Journal of Software

基金国家自然科学基金(60903098) 吉林省发改委产业技术研究与开发专项(2015Y055) 吉林省科技厅重点科技攻关项目(20150204040GX) 吉林大学研究生创新基金(2016183)~~

关键词聚类分布式计算 MAPREDUCE 独立计算单元独立计算块 MapReduce clustering distributed computing MapReduce independent calculation unit independent calculation block

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1鲁伟明,杜晨阳,魏宝刚,沈春辉,叶振超.基于MapReduce的分布式近邻传播聚类算法[J].计算机研究与发展,2012,49(8):1762-1772. 被引量：53
2陈宁,陈安,周龙骧.基于密度的增量式网格聚类算法(英文)[J].软件学报,2002,13(1):1-7. 被引量：44

二级参考文献7

1倪巍伟,陆介平,孙志挥.基于向量内积不等式的分布式k均值聚类算法[J].计算机研究与发展,2005,42(9):1493-1497. 被引量：15
2Ester. M. Kriegel, H.-P, Sander, J.et al. A density-based algorithm for discovering clusters in large spatial databases withnoise. In:Simoudis. E.. Han J., Fayyad, U.M., eds. Proceedings of the 2nd InternationalConference on Knowledge Discovery and Data Mining. Portland, Oregon: AAAI Press, 1996.226-231.
3Zhou. B. Cheung, D., Kao, B. A fast algorithm for density-based clustering. In:Zhong, N.. Zhou, L., eds. Methodologies for Knowledge Discovery and Data Mining, the 3rdPacific-Asia Conference. Berlin: Springer, 1999. 338～349.
4Agrawal. R.. Gehrke J., Gunopolos, D., Raghavan, P. Automatic subspace clusteringof high dimensional data for data mining application. In: Haas, L.M.. Tiwary, A., eds.Proceedings of the ACM SIGMOD International Conference on Management of Data.Seattle.Washington, USA: ACM Press, 1998.94～105.
5Schikuta. E. Grid clustering: an efficient hierarchical clustering method for verylarge data sets. In: Proceedings of the 13th International Conference on PatternRecognition. IEEE Computer Society Press, 1996. 101 ～105.
6Ester. M. Kriegel, H.-P. Sander, J. et. al. Incremental clustering for mining in adata warehousing environment. In: Gupta, A.,Shmueli. O., Widom. J., eds. Proceedings ofthe 24th International Conference on Very Large Data Bases. New York: Morgan KaufmannPublishers Inc.. 1998. 323-333.
7Ding-yin XIA Fei WU Xu-qing ZHAN Yue-ting ZHUANG.Local and global approaches of affinity propagation clustering for large scale data[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2008,9(10):1373-1381. 被引量：15

共引文献95

1梁敏君,倪志伟,倪丽萍,杨葛钟啸.基于网格与分形维数的聚类算法[J].计算机应用,2009,29(3):830-832. 被引量：4
2原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
3黄永平,邹力鹍.数据仓库中基于密度的批量增量聚类算法[J].计算机工程与应用,2004,40(29):206-208. 被引量：9
4苏守宝,郁书好.一种基于密度的增量式网格聚类算法[J].皖西学院学报,2004,20(5):91-94.
5许毕峰,冯少荣,薛永生,刘笑锋,翁伟.一种有效的增量聚类算法[J].计算机科学,2004,31(11):93-96.
6吴琪,左万利.一种基于距离的增量聚类算法[J].湖南工程学院学报（自然科学版）,2005,15(3):41-44. 被引量：3
7吴琪,左万利.一个粮食聚类分析系统的设计与实现[J].北京联合大学学报,2005,19(3):45-50.
8王劲波,翁伟,许华荣.数据挖掘中基于密度的聚类分析算法[J].统计与决策,2005,21(10X):139-141. 被引量：2
9吴琪,高滢,王晓涛,左万利.一种基于距离的增量聚类算法[J].解放军理工大学学报（自然科学版）,2005,6(6):537-540. 被引量：3
10赖建章,倪志伟,刘志伟.一种基于密度树的网格快速聚类算法的研究[J].计算机工程,2006,32(17):69-70. 被引量：4

同被引文献88

1尹进,胡祥培,郑毅,周子轩.社会化商务中基于经验及推荐的消费者感知信任模糊融合模型[J].中国管理科学,2020,0(1):122-133. 被引量：18
2张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
3金阳,左万利.一种基于动态近邻选择模型的聚类算法[J].计算机学报,2007,30(5):756-762. 被引量：18
4孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1060
5陈敏,高学东,栾绍峻,郗玉平.基于密度的并行聚类算法[J].计算机工程,2010,36(11):8-10. 被引量：9
6潘家财,邵哲平,姜青山.数据挖掘在海上交通特征分析中的应用研究[J].中国航海,2010,33(2):60-62. 被引量：49
7吴香华,牛生杰,吴诚鸥,秦伟良.马氏距离聚类分析中协方差矩阵估算的改进[J].数理统计与管理,2011,30(2):240-245. 被引量：27
8华锐.“古典概型”的魅力[J].调研世界,2012(7):64-64. 被引量：2
9李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1583
10杨国为,王守觉,卫成兵,曹文谊.基于同源的同类事物连通本性的模式分类神经网络模型[J].电子学报,2013,41(1):52-55. 被引量：6

引证文献13

1琚书存,程文杰,徐建鹏,徐祥,徐阳.基于密度峰和划分的快速聚类算法[J].计算机与现代化,2018(8):16-20. 被引量：3
2刘露,胡封晔,牛亮,彭涛.异质网络中基于节点影响力的相似度度量方法[J].电子学报,2019,47(9):1929-1936. 被引量：5
3蒋华,林森,王鑫,王慧娇.海洋数据下的密度自适应聚类算法[J].计算机工程与设计,2019,40(9):2523-2529. 被引量：4
4吴青,张昱,臧博研,祁宗仙.基于马氏距离的可能性熵聚类算法[J].计算机仿真,2019,36(12):240-243. 被引量：5
5方佳艳,刘峤.具有同步化特征选择的迭代紧凑非平行支持向量聚类算法[J].电子学报,2020,48(1):44-58. 被引量：7
6张鑫涛,马福民,曹杰,张腾飞.基于混合度量与类簇自适应调整的粗糙模糊K-means聚类算法[J].模式识别与人工智能,2019,32(12):1141-1150. 被引量：6
7刘海鸥,黄文娜,张源强,苏妍嫄.移动社交网络情境化推荐关键问题研究综述[J].小型微型计算机系统,2020,41(9):1812-1819. 被引量：5
8兰红,朱合隆.基于高阶差分和网格划分算法的DBSCAN参数自动选取算法[J].计算机应用研究,2020,37(11):3347-3352. 被引量：6
9周海,陈姚节,陈黎.船舶轨迹聚类分析与应用[J].计算机仿真,2020,37(10):113-118. 被引量：9
10柏锷湘,罗可,罗潇.结合自然和共享最近邻的密度峰值聚类算法[J].计算机科学与探索,2021,15(5):931-940. 被引量：7

二级引证文献63

1江城,饶尧,胡文博,许朝阳,万长瑛,丁胜.基于大数据的综合能源系统能效对标方法研究[J].环境工程,2023,41(S02):1078-1082.
2段桂芹,邹臣嵩,刘锋.基于优化初始聚类中心的K中心点算法[J].计算机与现代化,2019(4):1-5. 被引量：5
3张苏宁,王月娟,吴水明,景栋盛.基于Krylov子空间方法的网络入侵数据聚类[J].计算机与现代化,2019,0(10):121-126. 被引量：5
4张海燕,李根源,辜建锐,林开荣.基于机器学习的入侵检测技术研究与实现[J].电脑知识与技术,2020,16(10):215-217.
5方宗华,王文丰,董健华,章香,徐灯.基于埃尔米特插值法的DBSCAN算法研究[J].南昌工程学院学报,2020,39(4):80-84. 被引量：4
6王雄,董一鸿,潘剑飞,陈华辉,钱江波.基于编辑行为码的图概要技术[J].电子学报,2020,48(12):2434-2443.
7蒋庆朝,陈孟婕.基于改进广义回归神经网络的渔船流量预测[J].现代计算机,2020,26(33):25-29.
8王书献,孙永文,张胜茂,隋江华,朱文斌,杨胜龙,樊伟.基于卫星AIS远洋船位的热力图自动制图[J].渔业信息与战略,2021,36(1):45-53. 被引量：2
9汪宏海,吴樱.基于自表示的双图规格化特征选择聚类[J].井冈山大学学报（自然科学版）,2021,42(2):76-82.
10刘海鸥,姚苏梅,何旭涛,苏妍嫄.基于深度学习的在线健康社区抑郁症用户画像研究[J].小型微型计算机系统,2021,42(3):572-577. 被引量：8

1吴涛.巧用VBA解决单元格数据拆分整理难题[J].审计月刊,2017(11):31-32. 被引量：1
2李琪,钟将,李雪.基于启发策略的动态平衡图划分算法[J].计算机研究与发展,2017,54(12):2834-2840. 被引量：5
3李炜,贺丽娟.Mapreduce模型及支撑系统概述[J].电子测试,2017,28(9):77-78.
4唐福元,许倩,程绪铎.筒仓中稻谷的空隙率分布研究[J].中国粮油学报,2017,32(12):110-116. 被引量：7
5王晓华,杨清梅,杨涛.改进的Gabor变换和二维NMF融合的人脸识别[J].计算机工程与应用,2017,53(21):132-137. 被引量：3
6赵宝文,徐华.基于MapReduce的并行MRACO-PAM聚类算法[J].计算机工程与科学,2017,39(10):1801-1806. 被引量：4
7疲劳驾驶预警系统[J].发明与创新（高中生）,2017(12):60-60.
8常春,黄桂英.基于生物多样性的图书馆信息资源建设研究[J].图书馆理论与实践,2017,0(11):34-37. 被引量：2
9汤伟,王古月,李金.带校正的锅炉燃烧预测模型应用[J].广东电力,2017,30(11):22-27. 被引量：2
10郝美薇,戴华林,郝琨.基于密度的K-means算法在轨迹数据聚类中的优化[J].计算机应用,2017,37(10):2946-2951. 被引量：8

软件学报

2017年第11期

浏览历史

内容加载中请稍等...

一种基于密度的分布式聚类方法被引量：13

参考文献2

二级参考文献7

共引文献95

同被引文献88

引证文献13

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

一种基于密度的分布式聚类方法 被引量：13

参考文献2

二级参考文献7

共引文献95

同被引文献88

引证文献13

二级引证文献63

相关作者

相关机构

相关主题

浏览历史

一种基于密度的分布式聚类方法被引量：13