k-LDCHD——高维空间k邻域局部密度聚类算法被引量：18

k-LDCHD—A Local Density Based k-Neighborhood Clustering Algorithm for High Dimensional Space

下载PDF

导出

摘要聚类是数据挖掘领域的一项重要课题,高维空间聚类以数据分布稀疏、噪声数据多、“差距趋零现象”而成为难点.在分析现有聚类算法不足的基础上,引入k邻域点集、k邻域半径等概念,提出一种高维空间单参数k邻域局部密度聚类算法kPCLDHD;为了提高算法的效率,进一步定义了参考距离等概念,并采用“双参考数据点”对数据集中的数据对象进行预处理,以减少扫描数据集的开销,提出kPCLDHD的优化算法kLDCHD.理论分析和实验结果表明,算法可以有效解决高维空间聚类问题,算法是有效可行的. Clustering is an important research in data mining Clustering in high dimensional space is especially difficult for the spatial distribution of the data, too much noise data points, and the phenomenon that the distance between the distances to the nearest and farthest neighbors of a data point goes to zero By analyzing limitations of the existing algorithms, definitions such as k-neighborhood set and k-radius are introduced A local density based k-neighborhood clustering algorithm k-PCLDHD is proposed to solve this problem To improve the algorithm's efficiency, the optimized algorithm k-LDCHD is proposed The definition of reference distance is applied to make a pretreatment to the data set, thus avoiding quite a lot of scans to the data set after using double reference points, and the effectiveness is improved greatly The theoretical analysis and experimental results indicate that the algorithm can solve the problem of clustering in high dimensional space It's effective and efficient

作者倪巍伟孙志挥陆介平

机构地区东南大学计算机科学与工程系

出处《计算机研究与发展》 EI CSCD 北大核心 2005年第5期784-791,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(70371015) 教育部高等学校博士学科点专项科研基金项目(20040286009)

关键词 k邻域半径双参考数据点参考半径高维空间 k-neighbor radius double reference point reference radius high dimensional space

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1周水庚,周傲英,曹晶.基于数据分区的DBSCAN算法[J].计算机研究与发展,2000,37(10):1153-1159. 被引量：97
2Zhang T, et al. Birch: An efficient data clustering method for very large databases. In: Proc. ACM SIGMOD Int'l Conf.Management of Data, Montreal. New York: ACM Press, 1996.73 ～ 84.
3Guha S, Rastogi R, Shin K. CURE: An efficient clustering algorithm for large databases. In: Proc. ACM SIGMOD Int'l Conf. Management of Data, Seattle. New York: ACM Press,1998. 73～84.
4Jiawei Han, Micheline. Data Mining: Concepts and Techniques.San Francisco: Morgan Kaufmann Publishers, 2000.
5C. Ordones, E. Omiecinski. Efficient disk-based K-means clustering for relational databases. IEEE Trans. Knowledge and Data Engineering, 2004, 16:909～921.
6C. Ordonez. Clustering binery data streams with K-means. ACM DKMD Workshop, San Diego, California, 2003.
7Ester M, et al. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Proc. the 2nd Int'l Conf. Knowledge Discovering in Databases and Data Mining(KDD 96). Menlo Park, CA: AAA I Press, 1996.
8Zhan W, et al. STING: A statistical information grid approach to spatial data mining. In: Proc. the 23rd VLDB Conf. Athens. San Francicso: Morgan Kaufmann, 1997. 186～ 195.
9K. Beyer, J. Goldstein, R. Ramakhrisnan, et al. Nearest neighbor' meaningful. In: Proc. the 7th Int'l Conf. Database Theory ( ICDT' 99), http://citeseer.ist.psu.edu/605885.html,1999.
10A. Hinneburg, C. C. Aggarwal, D. A. Keim. What is the neareast neighbor in high dimensional spaces. In: Proc. the 26th Int'l Conf. Very Large Data Bases, San Francisco, 2000.

二级参考文献5

1周水庚，复旦大学计算机科学系技术报告，1999年
2Zhan W，Proc of the 2 3 rd VL DB Conference，1997年，186页
3Chen M S，IEEE Trans Knowledge Data Engineering，1996年，8卷，6期，866页
4Zhang T，Proc ACM SIGMOD Int Conf on Management of Data，1996年，73页
5Ng R T，Proc 20th VL DB Conference，1994年，144页

共引文献96

1宗长富,文龙,何磊.基于欧几里得聚类算法的三维激光雷达障碍物检测技术[J].吉林大学学报（工学版）,2020,50(1):107-113. 被引量：23
2宋明,刘宗田.基于数据交叠分区的并行DBSCAN算法[J].计算机应用研究,2004,21(7):17-20. 被引量：9
3栾丽华,吉根林.一种基于四叉树的快速聚类算法[J].计算机应用,2005,25(5):1001-1003. 被引量：6
4尹松,周永权,李陶深.数据聚类方法的研究与分析[J].航空计算技术,2005,35(1):63-66. 被引量：16
5熊忠阳,孙思,张玉芳,王秀琼.一种基于划分的不同参数值的DBSCAN算法[J].计算机工程与设计,2005,26(9):2319-2321. 被引量：16
6伊胜伟,刘旸,魏红芳.基于数据挖掘的入侵检测系统智能结构模型[J].计算机工程与设计,2005,26(9):2464-2466. 被引量：10
7何中胜,刘宗田,庄燕滨.基于数据分区的并行DBSCAN算法[J].小型微型计算机系统,2006,27(1):114-116. 被引量：16
8清华同方RFID远距离车辆进出管理系统[J].金卡工程,2006,10(4):40-41.
9李伟,黄颖.文本聚类算法的比较[J].科技情报开发与经济,2006,16(22):234-236. 被引量：4
10张枫,邱保志.基于网格的高效DBSCAN算法[J].计算机工程与应用,2007,43(17):167-169. 被引量：8

同被引文献169

1陈梅,武玉强.模糊聚类分割在医学图像处理中的应用[J].厦门大学学报（自然科学版）,2001,40(z1):223-227. 被引量：1
2李丙春,耿国华,周明全,孙蕾.一个医学图像分类器的设计[J].计算机工程与应用,2004,40(17):230-232. 被引量：14
3周水庚,周傲英,金文,范晔,钱卫宁.FDBSCAN:一种快速 DBSCAN算法(英文)[J].软件学报,2000,11(6):735-744. 被引量：42
4张红梅,卞正中,郭佑民,叶敏.感兴趣区域高效提取算法(英文)[J].软件学报,2005,16(1):77-88. 被引量：14
5吕强,俞金寿.基于混合遗传算法的K-Means最优聚类算法[J].华东理工大学学报（自然科学版）,2005,31(2):219-222. 被引量：7
6刘高军,朱嬿.基于数据挖掘技术的建筑企业信用评价[J].中国矿业大学学报,2005,34(4):494-499. 被引量：21
7王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
8刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
9黄地龙.一种改进的Delaunay三角化算法研究[J].物探化探计算技术,2006,28(1):66-70. 被引量：8
10丁宏,赵观军.一种快速网络入侵检测的关联规则挖掘算法[J].计算机工程与应用,2006,42(11):153-156. 被引量：7

引证文献18

1陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
2薛万宇,谢从华,陆虎,袁林.基于密度聚类的医学图像分割及其局部特征提取[J].医疗设备信息,2006,21(10):88-90. 被引量：1
3倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的流数据高效密度聚类算法[J].小型微型计算机系统,2007,28(1):83-87. 被引量：8
4胡学钢,王东波,吴共庆.一种基于层次树的高效密度聚类算法[J].合肥工业大学学报（自然科学版）,2008,31(2):187-190. 被引量：4
5樊明辉,林甲祥.一种新的考虑空间实体约束的空间聚类算法[J].福建电脑,2008,24(9):69-71.
6倪巍伟,陈耿,吴英杰,孙志挥.一种基于局部密度的分布式聚类挖掘算法[J].软件学报,2008,19(9):2339-2348. 被引量：19
7倪巍伟,徐立臻,崇志宏,吴英杰,刘腾腾,孙志挥.基于邻域属性熵的隐私保护数据干扰方法[J].计算机研究与发展,2009,46(3):498-504. 被引量：16
8刘铭,王晓龙,刘远超.一种大规模高维数据快速聚类算法[J].自动化学报,2009,35(7):859-866. 被引量：18
9武佳薇,李雄飞,孙涛,李巍.邻域平衡密度聚类算法[J].计算机研究与发展,2010,47(6):1044-1052. 被引量：22
10党小超,郝占军,王筱娟.基于簇连接度聚类算法的入侵检测[J].计算机工程与应用,2010,46(21):82-85. 被引量：1

二级引证文献182

1於跃成,刘彩生,生佳根.分布式约束一致高斯混合模型[J].南京理工大学学报,2013,37(6):799-806. 被引量：3
2张勇,倪巍伟,崇志宏,胡新平.基于邻域相关性的面向聚类数据扰动方法[J].计算机研究与发展,2011,48(S3):79-85. 被引量：1
3吾守尔.斯拉木,李丰军,陶梅.IBORA:一种改进的有效的边界点检测[J].小型微型计算机系统,2008,29(10):1845-1848.
4印桂生,于翔,宁慧.基于粗约简的数据流增量聚类算法[J].西南交通大学学报,2009,44(5):637-642. 被引量：2
5吴磊,彭德中,彭磊,曾家智.结合Mercer核与SOM的动态免疫网络聚类算法[J].小型微型计算机系统,2010,31(2):333-337. 被引量：3
6崇志宏,倪巍伟,刘腾腾,张勇.一种面向聚类的隐私保护数据发布方法[J].计算机研究与发展,2010,47(12):2083-2089. 被引量：12
7杨鹤标,薛艳锋,冯进兰,沈项军,吴静丽.基于Fisher线性判别率的加权K-means聚类算法[J].计算机应用研究,2010,27(12):4439-4442. 被引量：5
8陈铭,吉根林.一种基于相似维的高维子空间聚类算法[J].南京师大学报（自然科学版）,2010,33(4):119-122. 被引量：3
9龚云,赵鹏,王守军.基于时间衰减和密度的任意簇数据流聚类[J].微型机与应用,2011,30(6):17-19.
10范会联,罗跃国,李献礼.一种带克隆选择的粒子群动态聚类算法[J].山东大学学报（工学版）,2011,41(2):12-17. 被引量：2

1颜晓龙,沈鸿.一种适用于高维数据流的子空间聚类方法[J].计算机应用,2007,27(7):1680-1684. 被引量：6
2王生生,刘大有,曹斌,刘杰.一种高维空间数据的子空间聚类算法[J].计算机应用,2005,25(11):2615-2617. 被引量：12
3左睿,罗大庸.无线传感器网络LEACH协议改进[J].中国科技博览,2009(7):53-54.
4张燕萍,姜青山.k-means型软子空间聚类算法[J].计算机科学与探索,2010,4(11):1019-1026. 被引量：1
5杨悦,张健沛,李忠伟.一种高维空间数据的模糊聚类算法[J].哈尔滨工程大学学报,2006,27(B07):485-488.
6魏凯,戴博,秦川,张大伟.基于关联成像及图像质量评价的距离测量方法[J].电子科技,2016,29(1):102-104.
7代晶,李春平.一种改进的子空间选择算法在聚类中的应用[J].计算机研究与发展,2007,44(z2):129-134.
8业宁,李威,梁作鹏,董逸生.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367. 被引量：20
9罗琪.基于DCFCM模糊聚类的入侵检测方法研究[J].科学技术与工程,2009,9(21):6409-6416.
10吴鹏,王青元,梁志成,吴杰.基于预测控制的列车精确停车算法[J].计算机应用,2013,33(12):3600-3603. 被引量：6

计算机研究与发展

2005年第5期

浏览历史

内容加载中请稍等...

k-LDCHD——高维空间k邻域局部密度聚类算法被引量：18

参考文献11

二级参考文献5

共引文献96

同被引文献169

引证文献18

二级引证文献182

相关作者

相关机构

相关主题

浏览历史

k-LDCHD——高维空间k邻域局部密度聚类算法 被引量：18

参考文献11

二级参考文献5

共引文献96

同被引文献169

引证文献18

二级引证文献182

相关作者

相关机构

相关主题

浏览历史

k-LDCHD——高维空间k邻域局部密度聚类算法被引量：18