DBSCAN算法研究及并行化实现被引量：21

Research and parallelization of DBSCAN algorithm

下载PDF

导出

摘要 DBSCAN算法是一种基于密度的优秀算法,能够对任意形状的数据进行聚类,且能够识别噪声数据。为了减少人工对输入参数Eps和MinPts的干预,提出了一种新的计算Eps参数的方法;同时,为了解决传统单机DBSCAN算法在大数据环境下的性能问题,基于Spark框架实现了DBSCAN算法的并行化。通过实验表明,提出的DBSCAN改进算法具有很高的准确度和稳定性;并行实现的DBSCAN算法具有很好的并行性能,适合用于处理海量数据聚类。 DBSCAN algorithm is an excellent algorithm based on density. It can cluster arbitrary shape data and recognize noise data. In order to reduce the intervention of the input parameters neighborhood radius Eps and Minimum number of Points （MinPts）, a new meflaod of calculating the Eps parameters is proposed. At the same time, in order to solve the performance problem of the traditional single machine DBSCAN algorithm in large data environment, the parallelization of the DBSCAN algorithm is realized based on the Spark framework. The experimental results show that the proposed DBSCAN algorithm has high accuracy and stability, and the parallel implementation of the DBSCAN algorithm has good parallel performance and is suitable for processing mass data clustering.

作者宋董飞徐华 SONG Dongfei;XU Hua(School of Internet of Things Engineering,Jiangnan University,Wuxi,Jiangsu 214122,China)

机构地区江南大学物联网工程学院

出处《计算机工程与应用》 CSCD 北大核心 2018年第24期52-56,122,共6页 Computer Engineering and Applications

基金江苏省自然科学基金(No.BK20140165) 教育部-新华三集团"云数融合"基金(No.2017A13055)

关键词大数据 DBSCAN算法 APACHE SPARK 分布式计算 big data DBSCAN Apache Spark distributed computing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1彭茜,狄岚,杨文静.基于类间极大化的PCM聚类技术的图像分割方法[J].计算机工程与应用,2016,52(16):142-148. 被引量：1
2张玲玲,周全亮,唐广文,李兴森,石勇.基于领域知识和聚类的关联规则深层知识发现研究[J].中国管理科学,2015,23(2):154-161. 被引量：18

二级参考文献31

1邓赵红,王士同,吴锡生,胡德文.鲁棒的极大熵聚类算法RMEC及其例外点标识[J].中国工程科学,2004,6(9):38-45. 被引量：12
2林开颜,吴军辉,徐立鸿.彩色图像分割方法综述[J].中国图象图形学报（A辑）,2005,10(1):1-10. 被引量：322
3朱恒民,姬小利,王宁生.一种挖掘意外规则的方法[J].南京航空航天大学学报,2005,37(3):381-385. 被引量：1
4朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
5韦素云,吉根林,曲维光.关联规则的冗余删除与聚类[J].小型微型计算机系统,2006,27(1):110-113. 被引量：15
6赵银娣,张良培,李平湘.一种方向Gabor滤波纹理分割算法[J].中国图象图形学报,2006,11(4):504-510. 被引量：26
7马建庆,钟亦平,张世永.基于兴趣度的关联规则挖掘算法[J].计算机工程,2006,32(17):121-122. 被引量：20
8HandD MannilarH SmythP.数据挖掘原理[M].北京:机械工业出版社,2003..
9Kannan S R,Ramathilagam S,Devia R,et al.Strong fuzzyc-means in medical image data analysis[J].The Journal ofSystems and Software,2012(85):2425-2438.
10Chen W,Maryellen L G,Bick U.A fuzzy c-means(FCM)-based approach for computerized segmentation of breastlesions in dynamic contrast-enhanced MR images[J].AcademicRadiology,2006,13(1):63-72.

共引文献17

1王宁,刘海园,周雪珂.基于粗糙集的应急案例中概率规则挖掘方法[J].运筹与管理,2018,27(12):84-94. 被引量：2
2蒋勋,徐绪堪,唐明伟,苏新宁.适应突发事件演化的知识表示模型研究[J].情报理论与实践,2016,39(3):122-124. 被引量：12
3徐扬.知识管理在新产品开发中的挑战[J].科技管理研究,2016,36(8):142-145. 被引量：1
4翟丽丽,由扬,何晓燕,张树臣.基于领域知识的O2O电商知识网络构建研究[J].情报杂志,2016,35(10):153-159. 被引量：3
5黄俊杰,谭波,陈孝明,陈江平,阮羚,冯莞舒,熊宇.用Apriori关联规则挖掘算法发现湖北电网雷击灾害的时空分布规律[J].应用科学学报,2017,35(1):31-41. 被引量：8
6洪亮,李雪思,周莉娜.领域跨越:数据挖掘的应用和发展趋势[J].图书情报知识,2017,34(4):22-32. 被引量：18
7蒋勋,苏新宁,周鑫.适应情景演化的应急响应知识库协同框架体系构建[J].图书情报工作,2017,61(15):60-71. 被引量：13
8蒋勋,苏新宁,唐明伟,蔡玉婷.适应情景演化推演的应急决策知识库协同架构研究[J].情报理论与实践,2017,40(11):67-72. 被引量：9
9蒋勋,苏新宁,陈祖琴.多维视角下应急情报管理体系的知识库构建研究[J].情报学报,2017,36(10):1008-1022. 被引量：35
10田娟,朱定局,杨文翰.基于大数据平台的企业画像研究综述[J].计算机科学,2018,45(B11):58-62. 被引量：33

同被引文献213

1高大为,朱永生,张金奋,鄢博冉,何延康,闫柯.基于AIS数据的船舶航迹多维预测方法[J].中国航海,2021,44(3):56-63. 被引量：8
2张文杰,蒋烈辉.基于MapReduce并行化计算的大数据聚类算法[J].计算机应用研究,2020,37(1):53-56. 被引量：20
3邹同华,高云鹏,伊慧娟,徐长宝,夏睿,吴聪.基于Thompson tau-四分位和多点插值的风电功率异常数据处理[J].电力系统自动化,2020(15):156-165. 被引量：44
4闪淳昌,周玲,秦绪坤,沈华,宿洁.我国应急管理体系的现状、问题及解决路径[J].公共管理评论,2020,2(2):5-20. 被引量：79
5周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
6李斌,郭剑毅.聚类分析在客户关系管理中的研究与应用[J].计算机工程与设计,2005,26(2):540-542. 被引量：14
7周江华,胡云平.基于层次分析法的宁波港锚地选择方案[J].浙江海洋学院学报（自然科学版）,2004,23(4):315-319. 被引量：1
8黄舜,徐永海.基于偏最小二乘回归的系统谐波阻抗与谐波发射水平的评估方法[J].中国电机工程学报,2007,27(1):93-97. 被引量：98
9文畅平.埃尔米特插值函数在公路平面线形设计中的应用[J].测绘科学,2007,32(3):149-150. 被引量：2
10何晓峰,王钢,李海锋.电力系统粒子群优化模糊聚类算法及其应用[J].继电器,2007,35(22):40-44. 被引量：8

引证文献21

1金之榆,王毛毛,史会磊.基于DBSCAN和改进K-means聚类算法的电力负荷聚类研究[J].东北电力技术,2019,40(6):10-14. 被引量：10
2许青林,罗炜平,陈烈锋.一种自动确定密度峰值的聚类算法改进[J].软件导刊,2020,19(1):75-79. 被引量：1
3王勇,黄思奇,刘永,许茂增.基于K-means聚类方法的物流多配送中心选址优化研究[J].公路交通科技,2020,37(1):141-148. 被引量：25
4董鑫,夏文瀚,倪健,黄强,聂斌.受限玻尔兹曼机结合聚类的特异点挖掘方法[J].软件导刊,2020,19(2):136-139. 被引量：2
5方宗华,王文丰,董健华,章香,徐灯.基于埃尔米特插值法的DBSCAN算法研究[J].南昌工程学院学报,2020,39(4):80-84. 被引量：4
6张金金,张倩,马愿,李智.基于改进的随机森林和密度聚类的短期负荷频域预测方法[J].控制理论与应用,2020,37(10):2257-2265. 被引量：22
7胡健,徐锴滨,毛伊敏.基于加权网格和信息熵的并行密度聚类算法[J].计算机科学与探索,2020,14(12):2094-2107. 被引量：10
8韦善阳,黎静华,黄乾,雷永胜,朱梦姝.考虑多重因素耦合的广义负荷特征曲线的模式分析[J].电力系统自动化,2021,45(1):114-122. 被引量：11
9胡健,徐锴滨,毛伊敏.基于MapReduce和IFOA的并行密度聚类算法[J].计算机应用研究,2021,38(5):1336-1343. 被引量：3
10王诚,狄萱.孤立森林算法研究及并行化实现[J].计算机技术与发展,2021,31(6):13-18. 被引量：14

二级引证文献134

1陈昌川,全锐杨,张谦,夏佩敏,乔飞.基于轻量化智能的多机协同SLAM系统[J].仪器仪表学报,2022,43(12):188-198. 被引量：3
2谢怀宇,张伯阳,陈良捷.基于EWT-ELM算法的混凝土坝变形预测模型[J].水利科技,2021(3):69-71. 被引量：1
3聂辰辰,程峰,王成,王金亮,吴骏恩.地面激光雷达点云数据乔灌分离方法研究[J].测绘科学,2024,49(1):106-116.
4陈冶,景旭文,刘磊,李海鹏,康超,刘金锋.知识驱动的船舶分段建造车间在线调度方法[J].船舶工程,2023,45(7):156-161.
5张传部.影响啤酒中高级醇含量的主要因素及控制[J].酿酒科技,2000(3):58-59. 被引量：12
6吕楠,赵敬源.基于贝叶斯概率理论的物流园区选址优化研究[J].中国公路学报,2020,33(9):251-260. 被引量：10
7田园,原野.基于改进K-means算法的电力大数据系统研究[J].电子设计工程,2021,29(2):76-80. 被引量：3
8康磊,刘海砚,陈晓慧,张付兵,李元復.基于优化密度峰值聚类算法的城市公共设施热点分布研究[J].测绘与空间地理信息,2021,44(3):26-29. 被引量：2
9张镝,吕言成,张楠,魏景锋.自编码器在水质监测点位优化中的应用[J].计算机系统应用,2021,30(3):262-266. 被引量：2
10廖丽敏,荣章权,王洋.一种连通合并优化的k近邻密度峰值聚类改进算法[J].数字技术与应用,2021,39(2):118-122.

1刘燕.基于抽样和最大最小距离法的并行K-means聚类算法[J].智能计算机与应用,2018,8(6):37-39. 被引量：10
2李俊,童钊,王政.一种并行ACS-2-opt算法处理TSP问题的方法[J].计算机科学,2018,45(B11):138-142. 被引量：8

计算机工程与应用

2018年第24期

浏览历史

内容加载中请稍等...

DBSCAN算法研究及并行化实现被引量：21

参考文献2

二级参考文献31

共引文献17

同被引文献213

引证文献21

二级引证文献134

相关作者

相关机构

相关主题

浏览历史

DBSCAN算法研究及并行化实现 被引量：21

参考文献2

二级参考文献31

共引文献17

同被引文献213

引证文献21

二级引证文献134

相关作者

相关机构

相关主题

浏览历史

DBSCAN算法研究及并行化实现被引量：21