S-DBSCAN：一种基于DBSCAN发现高密度簇的算法被引量：5

S-DBSCAN： an algorithm for finding high density clusters based on DBSCAN

下载PDF

导出

摘要针对基于密度的带有噪声的空间聚类（DBSCAN）算法用于交互式数据挖掘时用户经常调整算法参数以发现感兴趣的知识以及数据集相对稳定的特点，提出了一种基于DBSCAN发现高密度簇的算法—S-DBSCAN算法，确定了需调整的算法参数——对象的邻域范围8（Eps）和满足核心对象条件的￡邻域内最小对象个数MinPts，阐述了参数8与MinPts的3种适合S-DBSCAN算法的变化情况，并给出了相应的证明，同时分析了算法的时间复杂度。在对真实和合成数据集的测试中，S-DBSCAN算法相比DBSCAN算法具有较好的效率。 Considering that when the algorithm based on density-based spatial clustering of applications with noise （DB- SCAN） is applied to interactive data mining, certain algorithm parameters are usually adjusted to find new knowl- edge, and the data set used in data mining is relatively stable, this paper presents an algorithm for finding high density clusters based on DBSCAN, called the S-DBSCAN algorithm, and determines the parameters needing to be adjusted, the e, neighborhood of an object, and the MinPts, minimal number of objects of e-neighborhood to form a core object. Then three different combinations of the variations of e-neighborhood and MinPts fit for the S-DB- SCAN algorithm are introduced, and the rightness is demonstrated and the time complexity is analyzed. The experi- ments on real and synthetic data were performed to verify the efficiency and the results show that the S-DBSCAN al- gorithm has a better efficiency than DBSCAN.

作者孙鹏韩承德曾涛

机构地区中国科学院研究生院中国科学院计算技术研究所天津师范大学计算机与信息工程学院

出处《高技术通讯》 CAS CSCD 北大核心 2012年第6期589-595,共7页 Chinese High Technology Letters

基金 863计划（2009AA122220,2009AA122226）资助项目

关键词基于密度的带有噪声的空间聚类(DBSCAN) S-DBSCAN 高密度簇聚类参数可变 density-based spatial clustering of applications with noise （ DBSCAN）, S-DBSCAN, high densityclusters, clustering, parameter changing

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献12

1Han J W, Kamber M. Data Mining: Concepts and Tech- niques. 2nd ed. San Francisco: Morgan Kaufmann, 2006. 383-384.
2Yasmina S M, Adriano M. Automatic classification of lo- cation contexts with decision trees. In : Proceedings of the Conference on Mobile and Ubiquitous Systems, Guima- raes, Portugal, 2006. 74-88.
3Zhou C Q, Frankowski D, Ludford P, et al. Discovering personally meaningful places: An interactive clustering approach. ACM Trans InfSyst, 2007, 25(3) : 12.
4Ester M, Kriegel H P. A density-based algorithm for dis- covering clusters in large spatial databases with noise. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, Porland, USA, 1996. 226-231.
5Wu F, Gardarin G. Gradual clustering algorithms. In: Proceedings of the 7th International Conference on Data- base Systems for Advanced Applications, Los Alamitos, USA, 2001. 48-55.
6Ester M, Kriegel H P, Sander J, et al. Incremental clus- tering for,mining in a data warehousing environment. In: Proceedings of the 24th International Conference on Very Large Data Bases, New York, USA, 1998. 323-333.
7Bose J H, Andrzejak A, Hogqvist M. Beyond online ag- gregation: parallel and incremental data mining with on- line Map-Reduce. In: Proceedings of the 2010 Workshop on Massive Data Analytics on the Cloud, Raleigh, USA, 2010. 1-6.
8Goyal N, Goyal P, Venkatramaiah K, et al. An efficient density based incremental clustering algorithm in data warehousing environment. In : Proceedings of 2009 Inter- national Conference on Computer Engineering and Appli- cations, Manila, Phillipines, 2009. 556-560.
9Li F, Liu S, Dou Z T, et al. An inheritable clustering al- gorithm suited for parameter changing. In: Proceedings of the 2004 International Conference on Machine Learning and Cybernetics, New York, USA, 2004. 1198-1203.
10Liu S, Feng X J, Feng X. An inheritable algorithm for repeated clustering. In: Proceedings of the International Conference on Computer Science and Software Engineer- ing, Wuhan, China, 2008. 340-343.

二级参考文献8

1Breunig M,Kriegel H P,Ng R T,et al.LOF:Identifying Density-based Local Outliers[A].In:Proc.ACM SIGMOD 2000 Int.Conf.On Management of Data[C],Dalles,TX,2000.
2Liu Q B,Deng Su,Lu C H,et al.Relative Density Based K-nearest Neighbors Clustering Algorithm[A].In:Proc.2003 Int.Conf.on Machine Learning and Cybernetics[C],Xi' an,China,2003,133-137.
3Tang J,Chen Z X,et al.A Robust Outlier Detection Scheme for Large Data Sets[EB/OL].In:http://www.cs.panam.edu/chen/papers.html.
4邵峰晶,于忠清.数据挖掘:原理与算法[M].北京:中国水利水电出版社,2004.
5Ester M,Kriegel H P,Sander J,et al.A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[A].In:Proc.2^nd Int.Conf.on Knowledge Discovery and Data Mining[C],Portland,OR,1996:226-231.
6Han J W,Kamber M,Fan M,et al.Data Ming:Conception and Technology[M].Beijin:Machine Press,2001.
7Ester M,Kriegel H P,Sander J,et al.Incremental Clustering for Mining in a Data Warehousing Environment[A].In:Gupta A,Shmueli O,Widom J,eds.,the 24th International Conference on Very Large Data Bases[C],New York,Morgan Kaufmann Publishers Inc.,1998:323-333.
8Ankerst M,Breunig M,Kriegel H P,et al.OPTICS:Ordering Points To Identify the Clustering Structure[A].In:Proc.ACM SIGMOD'99,Int.Conf.On Management of Data[C],Philadelphia,PA,1999.

共引文献12

1孟海东,王淑玲,郝永宽.动态增量聚类的设计与实现[J].计算机工程与应用,2009,45(24):130-132. 被引量：7
2孙扬,封孝生,周城,汤大权,肖卫东.一种面向混合数据集可视化的高效数据转换技术[J].国防科技大学学报,2010,32(3):82-88. 被引量：2
3孟海东,王淑玲,郝永宽.基于簇特征的增量聚类算法设计与实现[J].计算机工程与应用,2010,46(24):132-134. 被引量：9
4周翔翔,姚佩阳,王欣,谢必昌.基于图论的作战指挥决策群组划分算法[J].系统工程与电子技术,2011,33(3):575-580. 被引量：9
5洪亮亮,罗可.动态的粗糙增量聚类方法[J].计算机工程与应用,2011,47(24):106-110. 被引量：5
6郑宏亮,王建英.一种基于Mahalanobis距离的增量聚类算法[J].计算机应用与软件,2011,28(12):38-40. 被引量：4
7黄德才,李晓畅.基于相对密度的混合属性数据增量聚类算法[J].控制与决策,2013,28(6):815-822. 被引量：12
8赖锦辉,梁松.一种消除孤立点的微博热点话题发现方法[J].计算机应用与软件,2014,31(1):105-107. 被引量：9
9李光兴,尹冀川,唐俊.基于网格的多密度增量聚类算法[J].计算机与现代化,2014(11):90-93.
10申彦博,袁洁,纪淑娟,张纯金.加权三支决策增量软聚类算法及性能分析[J].软件导刊,2019,18(8):42-48.

同被引文献28

1李玥.机器学习的分类、聚类研究[J].电脑知识与技术,2020,0(4):161-162. 被引量：5
2贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228
3毛国君,段立娟,王石,等.数据挖掘原理与算法[M].北京:清华大学出版社,2007.
4冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报,2008,37(1):105-111. 被引量：89
5马晨明,黄德才,吴天虹,翁挺.基于QoS的网格资源聚类管理[J].浙江工业大学学报,2009,37(4):421-425. 被引量：2
6张霞,汪超.医学图像处理技术及发展趋势[J].中外医学研究,2010,8(7):22-23. 被引量：3
7周爱武,于亚飞.K-Means聚类算法的研究[J].计算机技术与发展,2011,21(2):62-65. 被引量：134
8周傲英,杨彬,金澈清,马强.基于位置的服务:架构与进展[J].计算机学报,2011,34(7):1155-1171. 被引量：171
9石民,张树生.基于特征邻接图的三维CAD模型检索算法[J].机械科学与技术,2012,31(4):583-587. 被引量：5
10毕方明,王为奎,陈龙.基于空间密度的群以噪声发现聚类算法研究[J].南京大学学报（自然科学版）,2012,48(4):491-498. 被引量：17

引证文献5

1谭征,祝晓凤.一种密度聚类的染色精子医学图像识别算法[J].烟台大学学报（自然科学与工程版）,2014,27(4):279-283. 被引量：1
2王忠民,韩娜,宋辉,纪中伟.基于改进DBSCAN的移动用户兴趣点提取方法[J].西安邮电大学学报,2015,20(6):102-105. 被引量：1
3潘晓英,赵倩,赵普.时空属性关系标签的频繁轨迹模式挖掘[J].计算机工程与应用,2019,55(10):83-89. 被引量：4
4张美玉,王洋洋,吴良武,秦绪佳.结合DBSCAN聚类与互信息的图像拼接算法[J].小型微型计算机系统,2020,41(4):825-829. 被引量：8
5李想,李原,张子飞,杨哲.基于密度聚类的网络性能故障大数据分析方法[J].电信科学,2020,36(9):51-58. 被引量：3

二级引证文献17

1黄淼,王刘涛,褚龙现,张海朝.飞行器降落图像智能优化识别建模研究[J].计算机仿真,2016,33(1):86-89. 被引量：2
2孙悦,宋瑞,邱果.基于乘客需求数据的定制商务班车站点选址方法[J].山东科学,2019,32(1):102-112. 被引量：6
3范媛,蔡敏.大数据背景下学生消费水平分析模型的建立[J].电脑知识与技术,2020,16(8):5-7. 被引量：6
4黄睿,尹诗斯,李胡升.基于频繁模式挖掘的制造型企业决策优化研究[J].东北财经大学学报,2020,21(4):79-89. 被引量：1
5吴禄慎,陈小杜.一种改进AKAZE特征和RANSAC的图像拼接算法[J].计算机工程,2021,47(1):246-254. 被引量：17
6高尚,董爽,孙文雪,张潇,高梓航,范迪.基于特征点聚类的立井井壁图像匹配算法[J].信息技术与信息化,2021(3):73-75.
7蔡天旺,付胜.基于改进的SIFT算法的红外图像配准[J].测控技术,2021,40(7):40-45. 被引量：7
8闫亚男,陈小松,范慧敏,王力平,方茹慧,王京红,褚涛.水电设备运行状态数据清洗方法研究[J].水电站机电技术,2021,44(10):14-16. 被引量：3
9左威健,胡立华,刘爱琴,张素兰,马瑞.基于动态拓展的特征匹配方法[J].计算机工程与设计,2022,43(3):778-785. 被引量：1
10潘文,张海民.基于深度学习的航拍图像自适应拼接方法[J].安阳工学院学报,2022,21(4):57-62. 被引量：1

1黎文阳.大数据处理模型Apache Spark研究[J].现代计算机（中旬刊）,2015(3):55-60. 被引量：34
2吕绍鑫.可视化驱动的交互式数据挖掘方法研究[J].信息与电脑,2016,28(11):136-137. 被引量：1
3汪加才,韩冰青,陈大峰.基于SOM的离群数据挖掘集成框架研究[J].计算机应用研究,2007,24(10):44-47.
4周辉,王黔英,袁芳,费颖.Rough集在企业数据挖掘中的应用[J].南昌大学学报（工科版）,2006,28(3):269-273.
5任东怀,胡俊.多维数据可视化技术综述[J].工程地质计算机应用,2006(4):4-9. 被引量：9
6马昱欣,曹震东,陈为.可视化驱动的交互式数据挖掘方法综述[J].计算机辅助设计与图形学学报,2016,28(1):1-8. 被引量：41
7张文,胡俊.基于平行坐标技术的关联规则可视化模型[J].北京交通大学学报,2006,30(2):93-96. 被引量：2
8雷红艳,邹汉斌.基于反向矩阵的最大频集的交互式挖掘算法[J].计算机与现代化,2005(3):1-4.
9汪加才,张金城,江效尧.一种有效的可视化孤立点发现与预测新途径[J].计算机科学,2007,34(6):200-203. 被引量：5
10陈莹,杨素锦.数据挖掘语言应用现状研究[J].煤炭技术,2011,30(6):203-204. 被引量：1

高技术通讯

2012年第6期

浏览历史

内容加载中请稍等...

S-DBSCAN：一种基于DBSCAN发现高密度簇的算法被引量：5

参考文献12

二级参考文献8

共引文献12

同被引文献28

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

S-DBSCAN：一种基于DBSCAN发现高密度簇的算法 被引量：5

参考文献12

二级参考文献8

共引文献12

同被引文献28

引证文献5

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

S-DBSCAN：一种基于DBSCAN发现高密度簇的算法被引量：5