不确定数据的高效聚类算法被引量：2

More Effcient Clustering Algorithm Over Uncertain Data

下载PDF

导出

摘要不确定数据聚类是数据挖掘领域中的一个重要的研究热点。本文介绍了不确定数据聚类的uk-means算法及其改进算法ck-means。由于ck-means算法必须计算每个簇到所有对象的质心的距离,因此当聚类的样本很大时,聚类效率依然不是很好。本文提出的kd-means算法只需要计算对象到部分质心的距离,因此可以很大程度地提高ck-means算法的效率。该方法是基于kd树索引而提出的改进策略,并用大量的实验来证明改进算法的有效性。 Clustering of uncertain data is an important research direction in the clustering research field. It has far-reaching applications in real life. An improved clustering algorithm kd-means is proposed by optimizing classical ck-means algorithm. The ck-means algorithm needs to calculate the distance of each cluster to the centroid of all objects,so when the sample is large,the clustering efficiency is not very good. The improved algorithm based on the kd-tree structure presented in the paper only needs to calcu- late part of the distances,which greatly improves the performance of the ck-means algorithm. Experiments demonstrate that the new algorithm is efficient.

作者李云飞王丽珍周丽华

机构地区云南大学信息学院

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2011年第2期161-166,共6页 Journal of Guangxi Normal University:Natural Science Edition

基金国家自然科学基金资助项目(61063008) 云南省教育厅研究基金资助项目(09Y0048) 云南大学科学研究基金资助项目(2009F29Q)

关键词 KD树 ck—means算法期望中心候选集剪枝 kd-tree ck-means algorithm expected centroid candidate set pruning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1HAN Jia-wei,KAMBER M. DataMining:coneepts and techniques[M]. San Francisco :Morgan Kaufmann Publishers, 2000.
2CHAU M,CHENG R,KAO B. Uncertain data mining:a new research direction[C]//Proceeding Workshop on the Sciences of the Artificial. Washington DC : IEEE Computer Society, 2005 : 199-204.
3NGAI W K,KAO B,CHUI C K ,et al. Efficient clustering of uncertain datal[C]//Proeeeding of the 6th IEEE Interna- tional Conference on Data Mining (ICDM 2006). Washington DC:IEEE Computer Society,2006..436-445.
4KRIEGEL H P,PFEIFLE M. Hierarchical density-based clustering of uncertain data [C]//Proceedings of the 5th IEEE International Conference on Data Mining (ICDM 2005). Washington DC: IEEE Computer Society, 2005: 689- 692.
5NG R T,HAN Jia-wei. Efficient and effective clustering methods for spatial data mining[C]//Proceedings of the VLDB Conference. Santiago .. Morgan Kaufmann, 1994 : 144-155.
6GUHA S,RASTOGI R,SHIM K. CURE :an efficient clustering algorithm for large databases [J]. Information Sys- tems, 2001,26 (1) : 35-58.
7ELKAN C. Using the triangle inequality to accelerate k-means [C]//Proceeding of the International Conference on Machine Learning 2003 (ICML 2003). Washington DC :IEEE Press, 2003 : 609-616.
8CHENG R,KALASHNIKOV D,PRABHAKAR S. Querying imprecise data in moving object environments[J]. IEEE Transactions on Knowledge and Data Engineering, 2004,16 (9) : 1112 - 1127.
9MICHAEl. C, REYNOLD C, BEN K,et al. Uncertain data mining : an example in clustering location data [C]//Pro- ceeding of the 10th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD 2006). Berlin: Springer Verlag, 2006 : 199-204.
10LEE S D,KAO B,CHENG R. Reducing uk-means to K-means[C]//The 1st Workshop on Data Mining of Uncertain Data (DUNE) ,in conjunction with ICDM. Trenton ,NJ :IEEE Press, 2007 : 483-488.

同被引文献5

1张海龙,王仁彪,聂俊,刘进忠.海量数据的网格启发信息密度聚类算法[J].吉林大学学报（工学版）,2011,41(S2):254-258. 被引量：2
2孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2384
3金萍,宗瑜,屈世超,胡燕,田园.面向不确定数据的近似骨架启发式聚类算法[J].南京大学学报（自然科学版）,2015,51(1):197-205. 被引量：12
4肖宇鹏,何云斌,万静,李松.基于模糊C-均值的空间不确定数据聚类[J].计算机工程,2015,41(10):47-52. 被引量：7
5曹振丽,孙瑞志,李勐.一种基于高斯混合模型的不确定数据流聚类方法[J].计算机研究与发展,2014,51(S2):102-109. 被引量：6

引证文献2

1迟荣华,程媛,朱素霞,黄少滨,陈德运.基于快速高斯变换的不确定数据聚类算法[J].通信学报,2017,38(3):101-111. 被引量：11
2李嘉菲,孙小玉.基于谱分解的不确定数据聚类方法[J].吉林大学学报（工学版）,2017,47(5):1604-1611. 被引量：2

二级引证文献12

1胡明,唐东凯,李芬田,王泽儒.不确定聚类中距离计算方法综述[J].长春工业大学学报,2017,38(5):477-483. 被引量：3
2罗彦福,钱晓东.基于局部密度的不确定数据聚类算法[J].数据分析与知识发现,2017,1(12):84-91. 被引量：2
3李立莉.大数据环境下图书碎片化信息精确整合仿真[J].计算机仿真,2018,35(9):413-416. 被引量：2
4吴翠先,何少元.基于区间数的不确定性数据聚类算法:UD-OPTICS[J].计算机工程与科学,2019,41(7):1303-1311. 被引量：3
5李沐春,贾宗维.基于约束满足的大数据聚类中心点确定仿真[J].计算机仿真,2019,36(9):410-413. 被引量：5
6何保荣.基于多目标决策的时间序列数据挖掘算法仿真[J].计算机仿真,2019,36(11):243-246. 被引量：11
7高永强.在线网络异构容错数据的同构漏洞挖掘仿真[J].计算机仿真,2020,37(3):377-380. 被引量：1
8刘颖,唐毓蔓.一种基于信用评估数据分布特征的GAσFCM算法[J].统计与决策,2020,36(2):34-38. 被引量：4
9程海军,廖志雄,王士斌.基于特征选择的混合属性数据聚类挖掘仿真[J].计算机仿真,2020,37(7):399-403. 被引量：1
10毕春光,逄锦秀,袁帅,皇可.关联数据信息深度摘取中的核心特征聚类仿真[J].计算机仿真,2020,37(9):312-316.

1刘玉峰,蒋挺.随机网络期望中心选址[J].东北重型机械学院学报,1989,13(4):10-15.
2郭志波,严云洋,杨静宇,赵春霞.一种自适应最大拒绝鉴别分析及其鉴别矢量集[J].模式识别与人工智能,2010,23(4):501-507.
3戴楠,李传荣,苏国中,姜小光.激光点云提取建筑物平面目标算法研究[J].微计算机信息,2010,26(7):205-207. 被引量：4
4李佳,段平,盛业华,吕海洋,张思阳.KD树索引策略下紧支撑径向基函数的点云建模[J].系统仿真学报,2016,28(9):2154-2158. 被引量：5

广西师范大学学报（自然科学版）

2011年第2期

浏览历史

内容加载中请稍等...

不确定数据的高效聚类算法被引量：2

参考文献10

同被引文献5

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

不确定数据的高效聚类算法 被引量：2

参考文献10

同被引文献5

引证文献2

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

不确定数据的高效聚类算法被引量：2