多代表点特征树与空间聚类算法被引量：5

Multi-representation Feature Tree and Spatial Clustering Algorithm

下载PDF

导出

摘要空间数据具有海量、复杂、连续、空间自相关、存在缺损与误差等的特点,要求空间聚类算法具有高效率,能处理各种复杂形状的簇,聚类结果与数据空间分布顺序无关,并且对离群点是健壮的等性能,已有的算法难以同时满足要求。本文提出了一个适合处理海量复杂空间数据的数据结构-多代表点特征树。基于多代表点特征树提出了适合挖掘海量复杂空间数据聚类算法CAMFT,该算法利用多代表点特征树对海量的数据进行压缩,结合随机采样的方法进一步增强算法处理海量数据的能力;同时,多代表点特征树能够保存复杂形状的聚类特征,适合处理复杂空间数据。实验表明了算法CAMFT能够快速处理带有离群点的复杂形状聚类的空间数据,结果与对象空间分布顺序无关,并且效率优于已有的同类聚类算法BIRCH与CURE。 Spatial data have the features of largeness, complexity, continuity, spatial autocorrelation, missing data and error in spatial database. These characters require that a good spatial clustering algorithm must be high efficient, and should be able to detect clusters of complicated shapes, and the dusters found should be independent of the order in which the points in the space are examined, and should be not be impacted by outliers. The existed algorithms can not work well, Clustering algorithm based on multi-representation feature tree named CAMFT is proposed, A new data structure is firstly proposed to condense data, which drew the strongpoint from BIRCH algorithm and CURE algorithm, and then the algorithm that included the idea of random sampling is proposed to enhance the ability to detect very large data, As well as, the multi-representation feature tree can keep clusters of complicated shapes, so it can be used to detect spatial clusters. Experimental results show the algorithm can identify clusters of complicated shapes efficiently in large spatial database that have many outliers, and outperform BIRCH algorithm and CURE algorithm in efficiency.

作者黄添强秦小麟王金栋

机构地区福建师范大学数学与计算机科学学院计算机科学系南京航空航天大学计算机科学与技术系南京南京航空航天大学计算机科学与技术系

出处《计算机科学》 CSCD 北大核心 2006年第12期189-195,共7页 Computer Science

基金国家自然科学基金(No.49971063) 国家高技术研究发展计划(863)(No.2001AA6330101-04) 航空科学基金项目(02F52033) 江苏省自然科学基金(No.BK2001045)。

关键词空间聚类空间数据多代表点特征树 Spatial clustering, Spatial data, Multi representation feature tree

分类号 TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献33

1Dunham MH. Data mining introductory and advanced topics. Upper ,Saddle River, N.J. : Prentice Hall/Pearson Education, 2003.221-243
2MacQueen J. Some methods for classification and analysis of multivariate observations. In: Proc. 5th Berkeley Symposium in Mathematics. Univ. of California, Berkeley, USA: Statistics and Probability, 1967
3Lauritzen SL. The EM algorithm for graphical association model with missing data. Computational Statistics and Data Analysis,1995, 19(2):191-201
4Kaufman L, Rousseeuw PJ. Finding Groups in Data: An Introduction to cluster Analysis. New York: John Wiley & Sons,1990
5Zhang T, Ramakrishnan R, Livny M. BIRCH, an efficient data clustering method for very large databases. In:Proceedings of the International Conference Management of Data (ACM-SIGMOD).Montreal, Canada, 1996. 103-114
6Guha S, Rastogi R, Shim k. CURE.. An Efficient Clustering Algorithm for Large Databases. In:Proc, 1998 ACM-SIGMOD Int.Conf, Management of Data (SIGMOD'98). Seattle , Washington, 1998. 73-84
7Guha S, Rastogi R, Shim k. Rock: A robust clustering algorithm for categorical attributes. In:Proc. 1999 Int. Conf. Data Engineering (ICDE'99). Sydney, Australia, 1999. 512-521
8Ester M, Kriegel H-P, Sander J, Xu X. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. In:Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining. Portland, OR, 1996. 226-231
9Ankerst M, Breunig M, Kriegel HP, Sander J. OPTICS: Ordering points to identify the clustering structure. In: Proc. 1999 ACM-SIGMOD Int. Conf. Management of Data (DIGMOD'99).Philadelphia, PA, 1999. 49-60
10Hinneburg A, Keim DA. An efficient approach to clustering in large multimedia databases with noise, In:Proc. 1998 Int. Conf.Knowledge Discovery and Data Mining (KDD'98). New York,1998

二级参考文献8

1Han JW, Kambr M. Data Mining Concepts and Techniques. Beijing: Higher Education Press, 2001. 145-176.
2Kaufan L, Rousseeuw PJ. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1990.
3Ester M, Kriegel HP, Sander J, Xu X. A density based algorithm for discovering clusters in large spatial databases with noise. In:Simoudis E, Han JW, Fayyad UM, eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland: AAAI Press, 1996. 226-231.
4Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. "73-84.
5Agrawal R, Gehrke J, Gunopolos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining application. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data.Seattle: ACM Press, 1998.94-105.
6Alexandros N, Yannis T,Yannis M. C^2P: clustering based on closest pairs. In: Apers PMG, Atzeni P, Ceri S, Paraboschi S,Ramamohanarao K, Snodgrass RT, eds. Proceedings of the 27th International Conference on Very Large Data Bases. Roma:Morgan Kaufmann Publishers, 2001. 331-340.
7Berchtold S, Bohm C, Kriegel H-P. The pyramid-technique: towards breaking the curse of dimensionality. In: Haas LM, Tiwary A,eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. 142- 153.
8Yu C, Ooi BC, Tan K-L, Jagadish HV. Indexing the distance: an efficient method to KNN processing. In: Apers PMG, Atzeni P,Ceri S, Paraboschi S, Ramamohanarao K, Snodgrass RT, eds. Proceedings of the 27th International Conference on Very Large Data Bases. Roma: Morgan Kaufmann Publishers, 2001. 421--430.

共引文献297

1吕佳,熊浩.一种新城市气温模式分类的聚类算法[J].数学的实践与认识,2007,37(8):55-60.
2梁久祯.核函数参数优化的聚类算法[J].仪器仪表学报,2005,26(z1):678-680. 被引量：2
3李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
4宋启祥,张明玉,张锏.基于核聚类的MRI和PET医学图像分割方法[J].宿州学院学报,2005,20(1):88-90. 被引量：1
5沈红斌,王士同,吴小俊.离群模糊核聚类算法[J].软件学报,2004,15(7):1021-1029. 被引量：37
6伍忠东,高新波,谢维信.基于核方法的模糊聚类算法[J].西安电子科技大学学报,2004,31(4):533-537. 被引量：75
7陈才扣,高林,高秀梅,杨静宇.基于聚类的核矩阵维度缩减[J].数据采集与处理,2004,19(3):250-253.
8赵姝,张燕平,张媛,陈传明.基于交叉覆盖算法的改进算法——核平移覆盖算法[J].微机发展,2004,14(11):1-3. 被引量：6
9薛永生,翁伟,文娟,王劲波,张宇.LSNCCP——一种基于最大不相含核心点集的聚类算法[J].计算机研究与发展,2004,41(11):1930-1935. 被引量：2
10郑岩,黄荣怀,战晓苏,周春光.基于遗传算法的动态模糊聚类[J].北京邮电大学学报,2005,28(1):75-78. 被引量：22

同被引文献42

1陈庆章,韩江洪,张维一,谈国泉,郎美亚.采用适应性遗传算法进行数据聚类的研究[J].南京大学学报（自然科学版）,2005,41(z1):749-754. 被引量：1
2张英朝,张维明,肖卫东,黄金才.信息网格中基于本体的信息共享全局视图构建方法研究[J].计算机研究与发展,2004,41(10):1856-1863. 被引量：9
3傅向华,冯博琴,马兆丰,何明.基于主题划分的有组织P2P搜索算法[J].西安交通大学学报,2005,39(12):1327-1330. 被引量：15
4刘小峰,刘云生,肖迎元.空间数据库中约束K最接近对查询[J].计算机科学,2006,33(5):156-158. 被引量：1
5Guha S, Rastogi R, Shim K. CURE: An Efficient Clustering Algorithm for Large Databases[C]//Proc. of ACM-SIGMOD Int'l Conf. on'Management of Data. Seattle, Washington, USA: [s. n.], 1998: 73-84.
6Zhang T, Ramakrishnan R, Livny M. BIRCH: An Efficient Data Clustering Method for Very Large Databases[C]//Proc. of the International Conference Management of Data. Montreal, Canada: [s. n.], 1996: 103-114.
7Gaede V, Gunther O. Multidimensional access methods. ACM Computer Survey, 1998, 20(6): 170-231.
8Yufei T, Dimilris P, Qiongmao S.Continuous Nearest Neighbor Search. Proceedings of the 28th VLDB Conference. Hong Kong, 2002:287-298
9Corral A, Manolopoulos Y, Theodoridis Y, Vassilakopoulos M. Algorithms for processing k-closest-pair queries in spatial databases.Dala & Knowledge Engineering, 2004, 49(2):67-104.
10Haibo H.,Dik Lun L. Range Nearest Neighbor Query. IEEE Transactions on Knowledge and Data Engineering,2006,18(1):78-91.

引证文献5

1马丽丽,黄宏斌,邓苏.基于朋友聚类的语义覆盖网构建方法研究[J].微电子学与计算机,2008,25(9):209-212.
2陈绍彬,叶飞跃,刘佰强,金涛.食品HACCP分类的BIRCH算法[J].计算机工程,2008,34(23):59-61. 被引量：3
3闫实,王学良.空间相似查询中MBR边界区域关系研究[J].计算机系统应用,2009,18(1):29-34. 被引量：1
4李晓翠,孟凡荣,周勇.一种基于代表点的快速聚类算法[J].南京大学学报（自然科学版）,2012,48(4):504-512. 被引量：4
5熊芳,黄宏斌,黄玉成,冯嵩,胡建中.一种基于语义相似度的信息资源语义聚类算法[J].计算机工程与科学,2012,34(11):175-179. 被引量：3

二级引证文献11

1徐涛,谢继文,杨国庆.一种基于层次聚类的机场噪声数据挖掘方法[J].南京航空航天大学学报,2013,45(5):715-721. 被引量：12
2李延龙,李太君,罗其朝.基于颜色空间特性的图像检索[J].海南大学学报（自然科学版）,2013,31(4):344-348. 被引量：1
3刘杰.一种基于自动特征权值的实体相似度计算方法[J].重庆科技学院学报（自然科学版）,2014,16(3):157-160. 被引量：2
4邢永峰.基于SOM和PSO的云计算异构资源聚类MPI并行算法[J].计算机测量与控制,2014,22(8):2523-2525. 被引量：2
5朱亚奇,邓维斌.一种基于不平衡数据的聚类抽样方法[J].南京大学学报（自然科学版）,2015,51(2):421-429. 被引量：5
6牟向伟,陈燕,曹妍.农产品冷链HACCP管理体系知识建模与推理[J].农业工程学报,2016,32(2):300-308. 被引量：21
7刘佳.计算机网络图显示及控制算法分析[J].长沙大学学报,2016,30(2):54-56. 被引量：6
8周鹿扬,程文杰,徐建鹏,徐祥.一种基于聚类中心的快速聚类算法[J].计算机科学,2016,43(S1):454-456 484. 被引量：3
9邢长征,张园.基于密度与网格的聚类算法的改进[J].计算机工程与应用,2016,52(22):81-85. 被引量：2
10王玉晗,罗邓三郎.聚类算法综述[J].科技资讯,2018,16(24):10-11. 被引量：4

1柳盛,吉根林.空间聚类技术研究综述[J].南京师范大学学报（工程技术版）,2010,10(2):57-62. 被引量：21
2履冰.一个都不能少!——WINDOWS系统缺损文件的补装方法[J].无线电,1999(11):25-25.
3马程.空间聚类研究[J].计算机技术与发展,2009,19(4):134-137. 被引量：7
4申锐.数据挖掘技术中聚类算法的探索与研究[J].山西科技,2009,24(2):90-91. 被引量：2
5齐仁勇,牟东.视频大数据技术助力智慧城市建设[J].科技风,2016(13):139-139.
6大江东去.不让照片库的体积无谓增大[J].电脑迷,2012(11):73-73.
7向程冠,熊世桓.一种基于特征树的Web碎片信息抽取算法[J].兰州理工大学学报,2014,40(1):104-107. 被引量：3
8李南,钟一文.多代表点的数据流分类算法[J].小型微型计算机系统,2015,36(7):1535-1539. 被引量：2
9唐华斌,王磊,孙增圻.基于随机采样的运动规划综述[J].控制与决策,2005,20(7):721-726. 被引量：9
10李校红,张秀芳.Hadoop在数据挖掘中的应用研究[J].新技术新工艺,2015(4):97-99.

计算机科学

2006年第12期

浏览历史

内容加载中请稍等...

多代表点特征树与空间聚类算法被引量：5

参考文献33

二级参考文献8

共引文献297

同被引文献42

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

多代表点特征树与空间聚类算法 被引量：5

参考文献33

二级参考文献8

共引文献297

同被引文献42

引证文献5

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

多代表点特征树与空间聚类算法被引量：5