云环境下并行DBSCAN聚类算法研究

Research on Parallel DBSCAN Clustering Algorithm in Cloud Environment

下载PDF

导出

摘要 DBSCAN算法是一种基于密度的快速聚类算法,虽然在处理大规模数据时可以发现其中的噪声数据,但聚类效率不高,输入/输出消耗大,聚类结果准确率低。本文在云计算平台Hadoop环境下,将MapReduce编程模型的高并行性引入该算法,设计出一种并行DBSCAN算法,提高传统DBSCAN算法的执行效率,通过对比实验结果证明了该算法聚类的准确性和时效性。 DBSCAN algorithm is a density-based fast clustering algorithm. Although the noise data can be found when dealing with large-scale data,the clustering efficiency is not high,the input/output consumption is large and the accuracy of clustering results is low. In this paper,the parallelism of the MapReduce programming model is introduced into the Hadoop environment,and a parallel DBSCAN algorithm is designed to improve the efficiency of the traditional DBSCAN algorithm. The accuracy of the algorithm is proved by comparing the experimental results and timeliness.

作者邓青杨宁

机构地区山西轻工职业技术学院山西云时代技术有限公司

出处《山西电子技术》 2017年第6期87-90,共4页 Shanxi Electronic Technology

关键词聚类分析云计算 DBSCAN HDFS MAPREDUCE clustering analysis cloud computing DBSCAN HDFS MapReduce

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1赵卫中,马慧芳,傅燕翔,史忠植.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].计算机科学,2011,38(10):166-168. 被引量：83
2谢雪莲,李兰友.基于云计算的并行K-means聚类算法研究[J].计算机测量与控制,2014,22(5):1510-1512. 被引量：21
3蔡颖琨,谢昆青,马修军.屏蔽了输入参数敏感性的DBSCAN改进算法[J].北京大学学报（自然科学版）,2004,40(3):480-486. 被引量：39

二级参考文献23

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
4Han J W, Kamber M. Data mining: concepts and techniques [M]. San Francisco, US: Morgan Kaufmann, 2001.
5Buyya R, Yeo C S, Venugopal S. Market-oriented cloud computing: vision,hype, and reality for delivering IT services as computing utilities, Keynote Paper [C] // Proceedings of the 10th IEEE International Conference on High Performance Computing and Communications. Dalian, China, 2009 :25-27.
6Armbrust M, Fox A. Above the clouds: a Berkeley view of cloud computing[R]. USA: University of California at Berkeley, 2009.
7Erdogmus H. Cloud computing., does nirvana hide behind the nebula[J]. IEEE Software, 2009,26 (2) : 4-6.
8Ghemawat S,Gobioff H, Leung S. The google file system[J].S ACM SIGOPS Operating Systems Review, 2003,37 (5) : 29-43.
9Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters [C] /// Proceedings of Operating Systems Design and Implementation. San Franciseo, CA, 2004 : 137-150.
10Xu X W, Jager J, Kriegel H P. A fast parallel clustering algorithm for large spatial databases[J]. Data Mining and Knowledge Discovery,1999,3(3) :263-290.

共引文献137

1禤世丽,刘建明.基于Hadoop平台的K-means聚类算法并行化改进研究[J].玉林师范学院学报,2020(3):90-96.
2许云峰,张妍,赵铁军.基于云计算的商业情报采集系统[J].河北科技大学学报,2012,33(2):161-165. 被引量：7
3张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
4原旭,陈志奎,赵亮,杨德礼.一种基于Hadoop的改进减法聚类算法[J].微电子学与计算机,2015,32(3):151-155. 被引量：1
5伊胜伟,刘旸,魏红芳.基于数据挖掘的入侵检测系统智能结构模型[J].计算机工程与设计,2005,26(9):2464-2466. 被引量：10
6徐晓华.高中阶段教育面临的形势与发展策略[J].教育科学论坛,2005(12):57-58.
7陈治平,王雷,李志成.基于密度梯度的聚类算法研究[J].计算机应用,2006,26(10):2389-2392. 被引量：4
8李秀芳,李志成.基于数据挖掘的聚类算法研究[J].计算技术与自动化,2006,25(3):41-45. 被引量：3
9李杰,贾瑞玉,张璐璐.一个改进的基于DBSCAN的空间聚类算法研究[J].计算机技术与发展,2007,17(1):114-116. 被引量：13
10陈宇.聚类算法研究[J].福建电脑,2007,23(7):27-29. 被引量：1

1黄明吉,张倩.基于Spark的并行DBSCAN算法的设计与实现[J].计算机科学,2017,44(B11):524-529. 被引量：3
2高旭,桂志鹏,隆玺,栗法,吴华意,秦昆.KDSG-DBSCAN:一种基于K-D Tree和Spark GraphX的高性能DBSCAN算法[J].地理与地理信息科学,2017,33(6):1-7. 被引量：9
3侯雄文.浅析DBSCAN算法中参数设置问题的研究[J].科教导刊（电子版）,2017,0(30):266-266. 被引量：4
4汤烨,陆卫忠,陈成,王磊.基于改进DBSCAN算法的智能照明控制系统[J].苏州科技大学学报（工程技术版）,2017,30(4):70-75. 被引量：4
5陈蓉,冯存前,王义哲,许丹.基于AP-DBSCAN聚类的弹道目标进动特征提取[J].弹箭与制导学报,2017,37(3):109-113.
6魏方圆,黄德才.基于区间数的多维不确定性数据UID-DBSCAN聚类算法[J].计算机科学,2017,44(B11):442-447. 被引量：3
7周润松.大数据产品与解决方案测评结果发布[J].软件和集成电路,2017(11):76-77.
8赵志鹏,张海超.基于Spark大数据平台的风功率预测模型研究[J].电力大数据,2017,20(12):1-3. 被引量：2
9胡晓东,高嘉伟.大数据下基于MapReduce的Dirichlet朴素贝叶斯文本分类算法[J].科技通报,2017,33(9):124-129.
10邱保志,唐雅敏.快速识别密度骨架的聚类算法[J].计算机应用,2017,37(12):3482-3486. 被引量：5

山西电子技术

2017年第6期

浏览历史

内容加载中请稍等...

云环境下并行DBSCAN聚类算法研究

参考文献3

二级参考文献23

共引文献137

相关作者

相关机构

相关主题

浏览历史