VDBSCAN:变密度聚类算法被引量：21

VDBSCAN:varied density based clustering algorithm

下载PDF

导出

摘要传统的密度聚类算法不能识别并聚类多个不同密度的簇。对此提出了变密度聚类算法VDBSCAN,针对密度不稳定的数据集,可有效识别并同时聚类不同密度的簇,避免合并和遗漏。VDBSCAN算法的基本思想是:根据k-dist图和DK分析,对数据集中的不同密度层次自动选择一组Eps值,分别调用DBSCAN算法。不同的Eps值,能够找到不同密度的簇。4个二维数据集实验验证了VDB-SCAN算法的有效性,表明VDBSCAN算法可以有效地聚类密度不均匀的数据集,且参数Eps的自动选择方法也是有效的和健壮的。 Density clustering has been widely used with such advantages as：its clusters are easy to understand and it does not limit itself to shapes of clusters.But existing density-based algorithms have trouble in finding out all the meaningful clusters for datasets with varied densities.This paper introduces a new algorithm called VDBSCAN for the purpose of varied-density datasets analysis.The basic idea of VDBSCAN is that,before adopting traditional DBSCAN algorithm,k-dist plot and DK （Difference between k-dists of neighboring points） analysis are used to select several values of parameter Eps for different densities.With different values of Eps,it is possible to find out clusters with varied densities simultaneity.Finally,4 synthetic 2-dimension databases are used for demonstration,and experiments show that VDBSCAN is efficient in successfully clustering uneven datasets.

作者周董刘鹏

机构地区上海财经大学信息管理与工程学院

出处《计算机工程与应用》 CSCD 北大核心 2009年第11期137-141,153,共6页 Computer Engineering and Applications

关键词变密度聚类算法基于密度的聚类 DBSCAN 数据挖掘 Varied Density Based Clustering Algorithm（VDBSCAN） density-based clustering Density Based Spatial Clustering of Application with Nose（ DBSCAN ） data mining

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：225
4蔡颖琨,谢昆青,马修军.屏蔽了输入参数敏感性的DBSCAN改进算法[J].北京大学学报（自然科学版）,2004,40(3):480-486. 被引量：39
5Guan Ji hong 1, Zhou Shui geng 2, Bian Fu ling 3, He Yan xiang 1 1. School of Computer, Wuhan University, Wuhan 430072, China,2.State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072, China,3.College of Remote Sensin.Scaling up the DBSCAN Algorithm for Clustering Large Spatial Databases Based on Sampling Technique[J].Wuhan University Journal of Natural Sciences,2001,6(Z1):467-473. 被引量：9
6张枫,邱保志.基于网格的高效DBSCAN算法[J].计算机工程与应用,2007,43(17):167-169. 被引量：8
7宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
8周水庚,范晔,周傲英.基于数据取样的DBSCAN算法[J].小型微型计算机系统,2000,21(12):1270-1274. 被引量：27

二级参考文献70

1周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
2周水庚.DBSCAN算法的扩展技术.复旦大学计算机科学系技术报告[M].,1999,4..
3[1]Beachmann N,et al.The R*-tree:An Efficient and Robust Access Method for Points and Rectanggles[C].Proc.of ACM SIGMOD Int'l Conf.on Management of Data,Atlantic:ACM Press,1998.73-84.
4[2]Ester M,et al.A Densith-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise[C].Proc.of 2nd Int'l Conf.on Knowledge Discovering in Databases and Data Mining (KDD-96),Portland:AAA I Press,1996.
5[3]Guha S,Rastogi R,Shimk.CURE:An Efficient Clustering Algorithm for Large Databases[C].Proc.of the ACM SIGMOD Int'l Conf.on Morgan Kaufmann,1997.186-195.
6[4]Paul Stolorz,et al.Scalable High Performance Computing for Knowledge Discovery and Data Mining[M].Kluwer Academic Publishers,1997.
7[6]Paul Stolorz,Ron Musick.Scalable High Performance Computing for Knowledge Discovery and Data Mining[M].Kluwer Academic Publishers,1997.
8[8]T Zhang,R Ramakrishnan.Birch:An Efficent Data Clustering Method for Very Large Databases[C].Proceedings of the ACM SIGMOD Conference on Management of Data,Montreal,Canada,1996.
9[9]G Milligan.An Algorithm for Creating Artificial Test Clusters[J].Psychometrika,1985,50(1):123-127.
10[10]Paul Stolorz,Ron Musick.Scalable High Performance Computing for Knowledge Discovery and Data Mining[M].Kluwer Academic Publishers,1997.

共引文献431

1刘壮,张悦.统计学方法在生物信息学分析中的应用[J].医学信息学杂志,2020,41(6):20-23. 被引量：1
2孙伟鹏,吴锡生,孟斌.基于Spark并行的密度峰值聚类算法[J].计算机应用研究,2020,37(1):163-166. 被引量：2
3尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
4刘嘉嘉,杜习英.一种新的基于密度的自适应取样聚类算法[J].电脑知识与技术（过刊）,2007(2):478-480.
5汤周文,叶东毅.基于层次聚类的差异化属性约简算法[J].计算机应用,2009,29(2):419-420. 被引量：1
6李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
7杜秀亭,杨晨光.基于最短主干道距离的零售户聚类研究[J].内蒙古大学学报（自然科学版）,2012,43(3):306-312.
8甘克勤,丛超,张宝林,孙旭凯.基于划分的文本聚类算法在标准文献中的试验与对比研究[J].标准科学,2013(10):47-50. 被引量：5
9张海龙,王仁彪,聂俊,刘进忠.海量数据的网格启发信息密度聚类算法[J].吉林大学学报（工学版）,2011,41(S2):254-258. 被引量：2
10司建波,姚燕,郭蔚莹,杨芳.基于模糊聚类的Web用户聚类方法与实现[J].吉林大学学报（工学版）,2013,43(S1):485-488.

同被引文献155

1王鹏宇,王国宇,贾贞,曹晓晓,王泉斌,苏天赟.一种基于局部特征的层次聚类算法[J].中国海洋大学学报（自然科学版）,2019,49(S02):176-184. 被引量：6
2李新延,李德仁.DBSCAN空间聚类算法及其在城市规划中的应用[J].测绘科学,2005,30(3):51-53. 被引量：38
3陈治平,王雷,李志成.基于密度梯度的聚类算法研究[J].计算机应用,2006,26(10):2389-2392. 被引量：4
4李杰,贾瑞玉,张璐璐.一个改进的基于DBSCAN的空间聚类算法研究[J].计算机技术与发展,2007,17(1):114-116. 被引量：13
5刘青宝,邓苏,张维明.基于相对密度的聚类算法[J].计算机科学,2007,34(2):192-195. 被引量：13
6钱线,黄萱菁,吴立德.初始化K-means的谱方法[J].自动化学报,2007,33(4):342-346. 被引量：32
7任兴平,何忠龙,孟增辉.改进DBSCAN算法中参数Eps值的确定[J].现代电子技术,2007,30(11):120-121. 被引量：5
8Robert W. Nonlinear pricing[M]. New York: Oxford University Press, 1993: 28.
9Stephen J B, David S S. The theory of pubic utility pricing [M]. London: Carnbridge UniversityPress, 1986: 1-10.
10董琰,葛君伟.一种基于网格密度的自适应聚类分析算法[J].计算机应用研究,2007,24(8):56-57. 被引量：4

引证文献21

1张粒子,黄海涛,归三荣.我国居民阶梯电价分段电量制定方法研究[J].价格理论与实践,2010(3):26-27. 被引量：26
2黄海涛,张粒子,乔慧婷,杜宁.基于变密度聚类的居民阶梯分段电量制定方法[J].电网技术,2010,34(11):111-116. 被引量：26
3郑丹,王潜平.K-means初始聚类中心的选择算法[J].计算机应用,2012,32(8):2186-2188. 被引量：35
4周红芳,王鹏.DBSCAN算法中参数自适应确定方法的研究[J].西安理工大学学报,2012,28(3):289-292. 被引量：42
5胡博磊,谭建豪.基于累积平均密度的聚类方法[J].计算机工程与科学,2013,35(1):155-159. 被引量：1
6伏家云,靖常峰,杜明义.空间密度聚类模式挖掘方法DBSCAN研究回顾与进展[J].测绘科学,2018,43(12):50-57. 被引量：7
7许芳芳.一种结合蚁群聚类算法的DBSCAN算法[J].池州学院学报,2014,28(6):33-36. 被引量：2
8卜旭松,刘立波,石磊.基于PAM和簇阈值的改进K-Means聚类算法[J].湖北工程学院学报,2015,35(3):36-39. 被引量：2
9李宗林,罗可.DBSCAN算法中参数的自适应确定[J].计算机工程与应用,2016,52(3):70-73. 被引量：37
10赵硕,黄诗晴.阶梯电价结合分时电价的理论分析[J].东方企业文化,2011(2X):230-230. 被引量：2

二级引证文献208

1张怡霄,郭文普,康凯,姚云龙,王攀.基于聚类与网格搜索的TDOA/DOA联合定位方法[J].战术导弹技术,2020(1):105-112. 被引量：2
2杨捷,李沛霖,罗成臣,洪锋.基于数据挖掘的电网用户行为分析[J].云南大学学报（自然科学版）,2020,42(S02):38-43. 被引量：23
3冯建英,石岩,王博,穆维松.基于聚类分析的数据挖掘技术及其农业应用研究进展[J].农业机械学报,2022,53(S01):201-212. 被引量：11
4侯冀超,谢成心,孟凡兴,温秀梅.基于模糊聚类处理月亮型数据的研究与实现[J].河北建筑工程学院学报,2022,40(3):173-178.
5魏巍巍.空间数据挖掘的方法进展及其问题探究[J].产业与科技论坛,2020(8):35-36.
6仇景明,曲桦,赵季红.一种鲁棒网络流量分类及新类型发现算法[J].北京邮电大学学报,2020(2):40-45. 被引量：2
7周国亮,宋亚奇,王桂兰,朱永利.状态监测大数据存储及聚类划分研究[J].电工技术学报,2013,28(S2):337-344. 被引量：41
8黄海涛,张粒子,乔慧婷,杜宁.基于变密度聚类的居民阶梯分段电量制定方法[J].电网技术,2010,34(11):111-116. 被引量：26
9潘俊涛,彭建春,孙芊,周娟,文明.基于前景理论的发电商电量分配策略[J].电网技术,2011,35(4):170-175. 被引量：12
10周瑜瑛.关于我国居民用电阶梯价格的探讨[J].知识经济,2011(15):106-107. 被引量：4

1冯少荣,肖文俊.DBSCAN聚类算法的研究与改进[J].中国矿业大学学报,2008,37(1):105-111. 被引量：87
2许芳芳.一种基于密度的Web文本聚类算法[J].电脑知识与技术（过刊）,2015,21(3X):234-235 239. 被引量：1
3许芳芳.一种结合蚁群聚类算法的DBSCAN算法[J].池州学院学报,2014,28(6):33-36. 被引量：2
4谭学清,张磊,周通,罗琳.一种基于聚类密度的文本分类算法研究[J].图书馆学研究,2016(13):74-83.
5崔建双,刘晓婵,杨美华,李雯燕.基于元学习推荐的优化算法自动选择框架与实证分析[J].计算机应用,2017,37(4):1105-1110. 被引量：8
6李湘东,巴志超,黄莉.文本分类中基于类别数据分布特性的噪声处理方法[J].现代图书情报技术,2014(11):66-72. 被引量：2
7徐晨凯,高茂庭.改进的最小生成树自适应分层聚类算法[J].计算机工程与应用,2014,50(22):149-153. 被引量：7
8谭三,刘宁.基于阈值聚类和KNN分类的入侵检测[J].郑州大学学报（理学版）,2010,42(1):86-88. 被引量：2
9任兴平,何忠龙,孟增辉.改进DBSCAN算法中参数Eps值的确定[J].现代电子技术,2007,30(11):120-121. 被引量：5
10李长路,王劲林,郭志川,潘梁.两阶段密度意识子空间聚类模型[J].西安交通大学学报,2014,48(10):108-114.

计算机工程与应用

2009年第11期

浏览历史

内容加载中请稍等...

VDBSCAN:变密度聚类算法被引量：21

参考文献8

二级参考文献70

共引文献431

同被引文献155

引证文献21

二级引证文献208

相关作者

相关机构

相关主题

浏览历史

VDBSCAN:变密度聚类算法 被引量：21

参考文献8

二级参考文献70

共引文献431

同被引文献155

引证文献21

二级引证文献208

相关作者

相关机构

相关主题

浏览历史

VDBSCAN:变密度聚类算法被引量：21