基于弹性分布数据集的海量空间数据密度聚类被引量：5

Density Based Clustering on Large Scale Spatial Data Using Resilient Distributed Dataset

下载PDF

导出

摘要为了快速挖掘大规模空间数据的聚集特性,在cluster_dp密度聚类算法基础上,提出了一种基于弹性分布数据集的并行密度聚类方法 PClusterdp.首先,设计一种能平衡工作负载弹性分布数据集分区方法,根据数据在空间的分布情况,自动划分网格并分配数据,使得网格内数据量相对均衡,达到平衡运算节点负载的目的;接着,提出一种适用于并行计算的局部密度定义,并改进聚类中心的计算方式,解决了原始算法需要通过绘制决策图判断聚类中心对象的缺陷;最后,通过网格内及网格间聚簇合并等优化策略,实现了大规模空间数据的快速聚类处理.实验结果表明,借助Spark数据处理平台编程实现算法,本方法可以有效实现大规模空间数据的快速聚类,与传统的密度聚类方法相比具有较高的精确度与更好的系统处理性能. This paper proposed a density based parallel clustering algorithm to mine the feature of large scale spatial data.The proposed PClusterdp algorithm is based on the cluster-dp algorithm.First,we in-troduced a data object count based RDD partition algorithm for balancing the working load of each compute node in computing cluster.Second,we redefined the local density for each data point to suit the parallel computing.Meanwhile,in order to get rid of original algorithm＇s decision graph,we proposed a method to automatically determine the center point for each cluster.Finally,we discussed the cluster merge strata-gem to combine the partially clustered data together to generate the final clustering result.We implemen-ted our Resilient Distributed Dataset （RDD）based algorithm on Spark.The experiment result shows that the proposed algorithm can cluster large scale spatial data effectively,and meanwhile,the method has bet-ter performance than the traditional density clustering methods and can achieve the rapid clustering of mas-sive spatial data.

作者李璐明蒋新华廖律超

机构地区中南大学信息科学与工程学院长沙理工大学特殊环境道路工程湖南省重点实验室福建工程学院福建省汽车电子与电驱动技术重点实验室

出处《湖南大学学报（自然科学版）》 EI CAS CSCD 北大核心 2015年第8期116-124,共9页 Journal of Hunan University:Natural Sciences

基金国家自然科学基金资助项目(61304199) 长沙理工大学特殊道路工程湖南省重点实验室开发基金资助项目~~

关键词空间数据聚类算法弹性分布式数据集 SPARK Spark spatial data clustering algorithm resilient distributed dataset Spark

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献25

1HAN J, KAMBER M, PEI J. Data mining concepts and techniques [M3. Third Edition. Singapore: Elsevier Pte Ltd, 2012.
2TVRDIK J, KIIV" I. Differential evolUtion with competing strategies applied to partitional clustering [J]. Swarm and Ev- olutionary Computation, 2012, 7269(4): 136--144.
3CARVALHO, A X Y, ALBUQUERQUE P, etal. Spatial hi- erarchical clustering [J]. Revista Brasileira de Biometria, 2009, 27(3): 411--442.
4SANDER J, ESTER M, HANS P, et al. Density-based clus- tering in spatial databases: The algorithm gdbscan and its ap- plications [J]. Data Mining and Knowledge Discovery, 1998, 2(2): 169--194.
5wANG S, CHEN Y. HASTA: A Hierarchical-grid clustering algorithm with data field [J]. International Journal of Data Warehousing and Mining, 2014, 10 (2): 39--54.
6BOUVEYRON C C, BRUNET-SAUMARD. Model based clustering of high-dimensional data a review [J]. Computa- tional Statistics Data Analysis, 2014, 71 (6): 52--78.
7KIRI W, CLAIRE1 C, SETH R, et al. Constrained k-means clustering with background knowledge [C]//Proceedings of the Eighteenth International Conference on Machine Learn- ing. USA, 2001: 577--584.
8PARK HAE-SANG, CH[HYUCK JUN. A simple and fast algorithm for K-medoids clustering [J]. Expert Systems with Applications, 2009, 36 (2).. 3336--3341.
9ARTHUR D, SERGEI V. k-means+ + : The advantages of careful seeding [C]//Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms. USA, 2007: 1027-- 1035.
10ZHANG Tian, RAGHU R, MIRON L. BIRCH: A new data clustering algorithm and its applications [J]. Data Mining and Knowledge Discovery, 1997, 1 (2) 141--182.

同被引文献29

1张振亚,程红梅,王进,王煦法.面向凝聚式层次聚类算法实现的矩阵存储数据结构研究[J].计算机科学,2006,33(1):14-17. 被引量：5
2刘远超,王晓龙,刘秉权,钟彬彬.信息检索中的聚类分析技术[J].电子与信息学报,2006,28(4):606-609. 被引量：9
3恽为民,席裕庚.遗传算法的全局收敛性和计算效率分析[J].控制理论与应用,1996,13(4):455-460. 被引量：113
4傅华忠,茅剑.基于DBSCAN聚类算法的Web文本挖掘[J].科技信息,2007(1):55-56. 被引量：5
5孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1074
6岳嵚,冯珊.粗粒度并行遗传算法的计算性能分析[J].武汉理工大学学报,2008,30(7):107-110. 被引量：13
7张忠林,曹志宇,李元韬.基于加权欧式距离的k_means算法研究[J].郑州大学学报（工学版）,2010,31(1):89-92. 被引量：35
8赵慧,刘希玉,崔海青.网格聚类算法[J].计算机技术与发展,2010,20(9):83-85. 被引量：29
9于亚飞,周爱武.一种改进的DBSCAN密度算法[J].计算机技术与发展,2011,21(2):30-33. 被引量：35
10牛新征,佘堃.面向大规模数据的快速并行聚类划分算法研究[J].计算机科学,2012,39(1):134-137. 被引量：22

引证文献5

1陈广胜,程逸群,景维鹏.基于KD树划分的云计算DBSCAN优化算法[J].计算机工程,2017,34(4):21-27. 被引量：7
2许智宏,赵嘉伟,董永峰,蒋新宇.基于Spark的并行遗传算法在旅行商问题中的应用[J].计算机应用研究,2017,34(7):2080-2083. 被引量：12
3张宏展,赵辉,于鹏.AI在大数据技术中的创新与应用[J].科技创新与应用,2024,14(21):16-19.
4刘卫华,史婷婷,许学添.基于Spark的层次聚类算法的研究与应用[J].计算机科学与应用,2020,10(5):824-831.
5史婷婷,刘卫华,刘双印,徐龙琴.DBSCAN优化算法在实验文本大数据分析中的应用研究[J].计算机科学与应用,2020,10(5):906-913. 被引量：1

二级引证文献20

1刘欣雨.基于弹幕的突发信息安全类事件舆情分析——以“滴滴平台下架”事件为例[J].情报工程,2022,8(4):85-109. 被引量：2
2张政,孙鹏,王立勇,苏清华.基于边缘卷积的交通锥筒点云数据分割方法[J].电子测量技术,2023,46(20):98-103.
3陈呈辉,陈曦,陆忠华,王彦棡,何洪林.一种分布式并行参数优化算法设计及其应用[J].科研信息化技术与应用,2016,7(5):13-20.
4张伟丰.求解TSP问题的Flexsim仿真方法研究[J].湖北汽车工业学院学报,2017,31(4):75-80. 被引量：2
5王中长.基于遗传算法的重型越野车悬架系统优化设计[J].滨州学院学报,2018,34(4):55-61. 被引量：1
6陈荣虎,何运杰.基于SPMD的粗粒度并行遗传算法在立体仓库路径优化中的应用[J].软件导刊,2018,17(12):108-112. 被引量：4
7单晓晨,曲海成,刘万军.基于多元数据的城市区域可达性评估模型[J].计算机应用研究,2019,36(4):1015-1021. 被引量：4
8王殿超.一种改进的遗传算法在TSP问题中的应用[J].辽宁工业大学学报（自然科学版）,2019,39(4):235-239. 被引量：8
9吴桐,樊志强,徐珞.基于并行遗传算法的军事运输路径优选[J].电子设计工程,2019,27(22):92-96. 被引量：1
10陈雪,胡玉平.改进压缩感知算法的WSN数据恢复方法[J].计算机工程与设计,2020,41(5):1219-1226. 被引量：6

1何海林,皮建勇.大数据处理平台比较与分析[J].微型机与应用,2015,34(11):7-9. 被引量：8
2王德文,孙志伟.一种基于内存计算的电力用户聚类分析方法[J].智能系统学报,2015,10(4):569-576. 被引量：7
3刘衍珩,李飞鹏,孙鑫,朱建启.基于信息传播的社交网络拓扑模型[J].通信学报,2013,34(4):1-9. 被引量：26
4杨君锐,杨莉.分布式全局最大频繁项集更新挖掘算法[J].华中科技大学学报（自然科学版）,2011,39(12):85-88. 被引量：2
5王韬,杨燕,滕飞,冯晨菲.基于RDDs的分布式聚类集成算法[J].小型微型计算机系统,2016,37(7):1434-1439. 被引量：2
6王诏远,王宏杰,邢焕来,李天瑞.基于Spark的蚁群优化算法[J].计算机应用,2015,35(10):2777-2780. 被引量：23
7王刚勇,周维民.K-means算法的改进及应用[J].微计算机信息,2012(10):431-432. 被引量：3
8魏立梅,谢维信.聚类分析中竞争学习的一种新算法[J].电子科学学刊,2000,22(1):13-18. 被引量：5
9王达山.商业银行大数据建设探讨[J].中国金融电脑,2016(3):83-87. 被引量：3
10曹博,倪建成,李淋淋,于苹苹,姚彬修.基于Spark的并行频繁模式挖掘算法[J].计算机工程与应用,2016,52(20):86-91. 被引量：13

湖南大学学报（自然科学版）

2015年第8期

浏览历史

内容加载中请稍等...

基于弹性分布数据集的海量空间数据密度聚类被引量：5

参考文献25

同被引文献29

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于弹性分布数据集的海量空间数据密度聚类 被引量：5

参考文献25

同被引文献29

引证文献5

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于弹性分布数据集的海量空间数据密度聚类被引量：5