一种基于距离的聚类和孤立点检测算法被引量：2

A Clustering and Outlier Detection Algorithm Based on Distance

下载PDF

导出

摘要提出了一种基于距离的聚类和孤立点检测算法(DBCOD),根据距离阈值对数据点进行聚类,在聚类过程中记录每个数据点的密度,并根据密度阈值确定数据点是否为孤立点.实验结果表明,该算法不仅能够对数据集进行正确的聚类,可以发现任意形状的聚类,算法执行效率优于DBSCAN,具有对噪音数据、数据输入顺序不敏感等优点,同时还能有效地进行孤立点检测. A distance-based clustering and outlier detection algorithm（DBCOD）is proposed in this paper, it records the datum points by distance threshold, counts the density of every datum point in clustering, identifies outliers by density threshold, determinates valid cluster and outlier cluster by the number of datum points in it. As shown in the experimental results,the DBCOD algorithm can cluster the dataset properly,it can discover clusters of arbitrary shapes,its efficiency is higher than that of DBSCAN,it is independent of data input order, it is not sensitive to noise and outlier data; and it can find clusters and outliers accurately and validly.

作者尚俊平邱保志刘合兵

机构地区河南农业大学计算机科学与技术系郑州大学信息工程学院

出处《河南科学》 2007年第6期975-978,共4页 Henan Science

基金河南省自然科学基金项目(0111051200)

关键词聚类算法孤立点检测距离密度 clusteringalgorithms outlier detection distance density

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1HANJia-wei KamberMicheline 范明.数据挖掘:概念与技术[M].北京:机械工业出版社,2001..
2Likas A, Vlassis N, Verbeek J J. The global k-means algorithm[J]. Pattern Recognition, 2003,36:451-461.
3Martin Ester, Hans-Peter Kriegel,Jorg Sander, et al. A density-based algorithm for discovering clusters in large spatial databases with noise: KDD'96: Proceedings of 2nd international conference on knowledge discovery and data mining [C]. Portland, Oregon: AAAI Press, 1996:226-231.
4Knorr E M, Ng R T. Algorithms for mining distance-based outliers in large datasets.. Proceedings of the 24th VLDB conference [C]. New York, USA: Morgan Kaufmann, 1998:392-403.
5Chiu A L, Fu A W. Enhancements on local outliers detection.. Proceedings of the seventh international database engineering and application symposium [C]. Hong Kong: [s.n.], 2003.
6Breunig M M,Kriegel H-P, Ng R T, et al. LOF..Identifying density-based local outliers:Proceedings of ACM SIGMOD international Conference on management of data[C]. Dalles, Texas: ACM Press, 2000.
7Hsu Chihming, Chen Mingsyan. Subspace clustering of high dimensional spatial data with noise:Advanced in knowledge discovery and data mining: 8th Pacific-Alia Conference [C]. Berlin: Springer, 2004:31-40.

共引文献21

1郭嫄嫄,蔡之华.基于遗传算法的预测规则发现研究[J].计算机工程与设计,2004,25(10):1669-1672. 被引量：6
2易高翔,程耕国.数据挖掘在Web智能化中应用研究[J].计算机工程与设计,2005,26(1):58-60. 被引量：14
3温志贤,李小勇.基于支持向量机的网络流量异常检测[J].西北师范大学学报（自然科学版）,2005,41(3):27-31. 被引量：6
4王曙燕,耿国华,李丙春.决策树算法在医学图像数据挖掘中的应用[J].西北大学学报（自然科学版）,2005,35(3):262-265. 被引量：22
5张伟阳,刘明举.基于决策树的数据挖掘在电信CRM中应用研究[J].信息技术,2005,29(11):84-85. 被引量：1
6谷海彤.地区电力调度数据仓库建模与数据处理[J].电力自动化设备,2006,26(10):49-53. 被引量：2
7张成虎,岳鑫,乐晖.基于聚类方法的客户交易行为模式识别[J].计算机工程与应用,2007,43(10):195-198. 被引量：3
8赵晓峰,叶震.基于加权多随机决策树的入侵检测分类算法[J].计算机工程与应用,2007,43(18):135-137.
9张永,丁洪昌.连续属性离散化的MaxDiff方法[J].计算机工程与应用,2007,43(19):80-82. 被引量：4
10刘大中,赵建平.序规则挖掘系统的设计与实现[J].江西师范大学学报（自然科学版）,2008,32(2):175-178.

同被引文献12

1陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
2孙焕良,鲍玉斌,于戈,赵法信,王大玲.一种基于划分的孤立点检测算法[J].软件学报,2006,17(5):1009-1016. 被引量：16
3张长,邱保志.LDC-mine——基于局部偏差系数的孤立点挖掘算法[J].计算机应用,2007,27(1):95-97. 被引量：3
4罗敏,阴晓光,张焕国,王丽娜.基于孤立点检测的入侵检测方法研究[J].计算机工程与应用,2007,43(13):146-149. 被引量：7
5GUHA Sudipto. Cure: An efficient clustering algorithm for large databases[ C]// SIGMOD Conference, New York: ACM Press, 1998: 73-84.
6AGRAWAL Rakesh. Fast discovery of association rules[ C]// Advances in Knowledge Discovery and Data Mining. Menlo Park, CA, USA: American Association for Artificial Intelligence, 1996: 307-328.
7JOHANNA H, ROCKE D M. Outlier detection in the multiple cluster setting using the minimum covariance determinant estimator[J]. Computational Statistics & Data Analysis. 2004, 44 : 625-638.
8邵峰津,孙仁成,于忠清.基于单元的孤立点发现改进算法[C]//中国科协2003年学术年会论文集:上,2003:538.
9U S University of California, Irvine. E1 nino data [ DB ]. [2008-09-09] http://kdd.ics. uci. edu/databases/el_nino/el_nino. html. 30 June 1998
10Huh W.K., Falvo J.V., Gerke L.C., et a 1.Globalanalysis of Protein Localization in Budding Yeast.Nature ,2003,425 (6959) : 686-69.

引证文献2

1闫宗奎,石冰.基于网格模型的孤立点检测算法[J].山东大学学报（理学版）,2008,43(11):58-60.
2黄敢为.基于蛋白质相互作用网络的孤立点检测[J].现代计算机,2008,14(11):77-79.

1田银磊,王亚利.一种改进的聚类和孤立点检测算法[J].科学技术与工程,2010,10(22):5412-5416. 被引量：1
2孟海东,宋飞燕,宋宇辰.数据变换对聚类算法影响的实验分析[J].计算机与现代化,2008(1):21-23.
3谭勋,吐尔根·依布拉音,艾山·吾买尔,张韦煜.基于相似度计算的维吾尔语词聚类[J].新疆大学学报（自然科学版）,2012,29(1):104-107. 被引量：2
4韩毅,贾焰,刘春阳,周斌,韩伟红.一种基于相似性聚类的社会网络合作模式发现方法[J].计算机工程与科学,2012,34(6):146-152.
5王宗时.一种基于条件随机场(CRF)的运动轨迹填补方法[J].软件导刊,2016,15(2):12-14.
6朱俚治.决策系统在K-means算法中的应用[J].计算机与数字工程,2015,43(12):2120-2122. 被引量：3
7刘美玲.基于最大频繁项集的聚类算法[J].计算机工程,2009,35(17):43-45. 被引量：3
8尹娜,张琳.基于混合式聚类算法的离群点挖掘在异常检测中的应用研究[J].计算机科学,2017,44(5):116-119. 被引量：14
9高滢,刘大有,徐益.一种特征加权的聚类算法框架[J].计算机科学,2008,35(10):152-154. 被引量：6
10张天伍,李卫平.一种基于密度的引力聚类算法[J].河南科学,2008,26(11):1400-1404. 被引量：1

河南科学

2007年第6期

浏览历史

内容加载中请稍等...

一种基于距离的聚类和孤立点检测算法被引量：2

参考文献7

共引文献21

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于距离的聚类和孤立点检测算法 被引量：2

参考文献7

共引文献21

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于距离的聚类和孤立点检测算法被引量：2