一类数据空间网格化聚类算法的均值近似方法(英文) 被引量：15

A Mean Approximation Approach to a Class of Grid-Based Clustering Algorithms

下载PDF

导出

摘要随着聚类分析对象数据集规模的急剧增大,改进已有的算法以获得满意的效率受到越来越多的重视.讨论了一类采用数据空间网格划分的基于密度的聚类算法的均值近似方法.该方法过滤并释放位于稠密超方格中的数据项,并利用其重心点近似计算其对周围数据元素的影响因子.给出均值近似在聚类算法中的实现策略及其误差估计.均值近似方法在有效减少内存需求、大幅度降低计算复杂度的同时对聚类精确度影响甚微.实验结果验证了该方法能够取得令人满意的效果. In recent years, the explosively growing amount of data in numerous clustering tasks has attracted considerable interest in boosting the existing clustering algorithms to large datasets. In this paper, the mean approximation approach is discussed to improve a spectrum of partition-oriented density-based algorithms. This approach filters out the data objects in the crowded grids and approximates their influence to the rest by their gravity centers. Strategies on implementation issues as well as the error bound of the mean approximation are presented. Mean approximation leads to less memory usage and simplifies computational complexity with minor lose of the clustering accuracy. Results of exhaustive experiments reveal the promising performance of this approach.

作者李存华孙志挥

机构地区东南大学计算机科学与工程系

出处《软件学报》 EI CSCD 北大核心 2003年第7期1267-1274,共8页 Journal of Software

基金国家自然科学基金江苏省教育厅自然科学基金~~

关键词聚类网格基于密度的均值近似误差估计 clustering grid density-based mean approximation error evaluation

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Xu X, Ester M, Kriegel H, Sander J. A distribution-based clustering algorithm for mining in large spatial databases. In: Proceedings of the 14th International Conference on Data Engineering, ICDE'98. Orlando, FL, 1998. 324~331.
2Silverman B. Density Estimation for Statistics and Data Analysis. Chapman & Hall, 1986.72~113.
3Han J, Kamber M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2000.335~398.
4Berchtold S, Keim D, Kriegel HP. The X-tree: An index structure for high-dimensional data. In: Proceedings of the International Conference on Very Large Databases. Bombay, India, 1996.28~39.
5Hinneburg A, Keim DA. Optimal gird-clustering: Towards breaking the curse of dimensionality in high-dimensional clustering. In:Proceedings of the 25th International Conference on Very Large Databases. Edinburgh, Scotland, 1999. 506~517.
6Sheikholeslami G, Chatterjee S, Zhang A. Wave-Cluster: A multi-resolution clustering approach for very large spatial databases. In:Proceedings of the 24th International Conference on Very Large Databases. New York, 1998. 428~439.
7Aggrawal R, Gehrke J, Gunopulos D, Raghawan P. Automatic subspace clustering of high dimensional data for data mining applications. In: Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle, WA, 1998.94~ 105.
8Wang W, Yang J, Muntz R. STING: A statistical information grid approach to spatial data mining. In: Proceedings of the 23rd International Conference on Very Large Databases. Athens, Greece, 1997.186~ 195.
9Hinneburg A, Keim DA. An efficient approach to clustering in large multimedia databases with noise. In: Proceedings of the International Conference on Knowledge Discovery and Data Mining (KDD'98). New York, 1998.58~65.
10Xing EP, Karp RM. CLIFF: Clustering of high dimensional microarray data via iterative feature filtering using normalized cuts.BIOINFORMATICS, 2001,1(1):1~9.

同被引文献59

1谭勇,荣秋生.一个基于DBSCAN聚类算法的实现[J].计算机工程,2004,30(13):119-121. 被引量：7
2田启明,王丽珍,尹群.基于网格距离的聚类算法的设计、实现和应用[J].计算机应用,2005,25(2):294-296. 被引量：12
3陈梅兰.基于网格和密度聚类算法研究[J].计算机与现代化,2005(2):1-5. 被引量：9
4郭俊,樊彦国.一种改进的CURE聚类算法[J].内蒙古石油化工,2005,31(8):12-15. 被引量：4
5谢从华,宋余庆,朱玉全,王立军.基于网格化的医学图像不规则特征提取方法[J].计算机工程与应用,2005,41(28):52-54. 被引量：2
6王生生,刘大有,曹斌,刘杰.一种高维空间数据的子空间聚类算法[J].计算机应用,2005,25(11):2615-2617. 被引量：12
7王小玲,谢康林.Auto-expanded multi query examples technology in content-based image retrieval[J].Journal of Southeast University(English Edition),2005,21(3):287-292. 被引量：1
8朱倩,黄志军.一种改进的基于密度和网格的高维聚类算法[J].舰船电子工程,2005,25(5):55-56. 被引量：5
9徐海祥,朱光喜,张翔,田金文,彭复员.基于改进的一对一支持向量机方法的多目标图像分割[J].微电子学与计算机,2005,22(12):51-54. 被引量：4
10陈卓,孟庆春,魏振钢,任丽婕,窦金凤.一种基于网格和密度凝聚点的快速聚类算法[J].哈尔滨工业大学学报,2005,37(12):1654-1657. 被引量：14

引证文献15

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：64
2苏守宝,郁书好.一种基于密度的增量式网格聚类算法[J].皖西学院学报,2004,20(5):91-94.
3张莹,韩芳溪,柴乔林.基于频繁模式树的AOI聚类算法[J].计算机工程与应用,2004,40(35):178-179.
4王博,迟忠先,岳训.一种面向GIS系统的新型双层聚类方法[J].计算机工程,2006,32(7):84-85. 被引量：2
5倪巍伟,陈耿,陆介平,孙志挥.基于nested-loop的大数据集快速离群点检测算法[J].东南大学学报（自然科学版）,2006,36(3):463-466. 被引量：1
6张光建,黄贤英.基于最小聚类单元的聚类算法研究及其在CRM中的应用[J].计算机科学,2006,33(7):188-189. 被引量：11
7XIE Conghua,SONG Yuqing,CHANG Jinyi.A New Method of Semantic Feature Extraction for Medical Images Data[J].Wuhan University Journal of Natural Sciences,2006,11(5):1152-1156.
8单世民,邓贵仕,何英昊.一种基于网格和密度的微粒群混合聚类算法[J].计算机科学,2006,33(11):164-165. 被引量：3
9谢从华,陆虎,薛万宇,宋余庆.基于动态步长的医学图像聚类分割研究[J].微电子学与计算机,2007,24(4):66-68. 被引量：1
10李存华,纪兆辉,胡云.分箱核密度估计的误差及其修正[J].数据采集与处理,2009,24(2):212-217. 被引量：1

二级引证文献90

1迟文学,王劲峰,李新虎,廖一兰.出生缺陷的空间点格局分析[J].环境与健康杂志,2007,24(4):238-240. 被引量：22
2周智昊,刘斌,李之棠,周丽娟.一种改进的基于连接成功率的P2P识别方法[J].中国海洋大学学报（自然科学版）,2008,38(S1):199-202.
3杨志恒.基于Ward法的区域空间聚类分析[J].中国人口·资源与环境,2010,20(S1):382-386. 被引量：49
4崔贯勋,朱庆生.一种改进的基于密度的离群数据挖掘算法[J].计算机应用,2007,27(3):559-560. 被引量：8
5陈治平,胡宇舟,顾学道.聚类算法在电信客户细分中的应用研究[J].计算机应用,2007,27(10):2566-2569. 被引量：17
6王洪春,彭宏.一种基于熵的聚类算法[J].计算机科学,2007,34(11):178-179. 被引量：10
7朵春红,王翠茹.网格和密度的聚类算法在CRM中的应用[J].电子科技大学学报,2007,36(6):1289-1291. 被引量：3
8王荇,郑成增.聚类算法在证券公司CRM中的应用[J].常州工学院学报,2008,21(4):59-62. 被引量：2
9曹明华,曾建潮,介婧.基于网格生长树的微粒群聚类算法[J].计算机工程与应用,2008,44(32):143-147. 被引量：1
10黄贤英,张丽芳.基于粒子群优化的模糊聚类算法[J].重庆工学院学报（自然科学版）,2008,22(11):120-123. 被引量：14

1郑成勇.小波变换域均值调制的可读图像盲水印算法[J].计算机工程与应用,2006,42(32):55-58.
2卢克,吴建玉.基于多源数据融合的统计数据空间网格化模型研究[J].浙江水利水电专科学校学报,2011,23(3):55-58. 被引量：9
3吴非,毛宇光.一种基于k维树的模糊C均值聚类算法[J].计算机与现代化,2015(11):1-5. 被引量：2
4任小娟.基于元胞自动机的人员疏散模型设计与实验[J].计算机应用与软件,2013,30(7):309-314. 被引量：7
5吴道军.城市地下空间网格化管理信息系统的分析与设计[J].软件产业与工程,2012(6):32-35. 被引量：4
6王秀和.利用K均值算法改进后的蚁群优化算法对高光谱图像聚类研究[J].科技通报,2015,31(3):202-206. 被引量：5
7郭晨晨,朱红康.基于MapReduce和并行遗传算法的大数据聚类问题研究[J].鲁东大学学报（自然科学版）,2017,33(1):31-35.
8洪鹏,田威,梅东棋,曾远帆.空间网格化的机器人变参数精度补偿技术[J].机器人,2015,37(3):327-335. 被引量：24
9唐波.改进的K-means聚类算法及应用[J].软件,2012,33(3):100-104. 被引量：10
10吴艳文,胡学钢,王东波.基于特征加权的k-modes聚类应用[J].中国科技信息,2007(16):271-272.

软件学报

2003年第7期

浏览历史

内容加载中请稍等...

一类数据空间网格化聚类算法的均值近似方法(英文) 被引量：15

参考文献11

同被引文献59

引证文献15

二级引证文献90

相关作者

相关机构

相关主题

浏览历史