基于粗约简和网格的离群点检测被引量：10

Outliers detecting based on rough reduction and grid

下载PDF

导出

摘要为解决现有高维海量数据离群点挖掘在时间与空间效率上的不足,提出了一种基于粗约简和网格的离群点检测算法RRGOD。算法在基于密度的离群点检测算法LOF的基础上,结合粗糙集理论特点,引入属性权值概念,淘汰属性权值低于重要度阈值的属性降低维度,从而减少了进行聚类的计算量。在网格聚类阶段,对传统的网格划分方法进行改进,引入属性维半径向量概念,提出了一种可变网格划分方法,根据数据集特点自适应地划分网格空间。在真实数据集和仿真数据集上进行了实验。结果表明,该算法在进行离群点检测时能在保持足够精确度的同时,检测效率有显著的改善。 In order to solve the existing insufficiency of mining outliers in time and space efficiency in high dimensional and massive data, this paper proposes a grid based on rough reduction and outlier detection algorithms RRGOD. Based on the density-based outlier detection algorithm LOF, it combines the characteristics of rough set theory, introduces the concept of the value of property rights, and reduces dimensions by eliminating the values of property right below the threshold,thereby reducing the amount of calculation clustering. In the grid clustering stage, the traditional meshing method is improved,introduces the concept of property dimensional radius vector, and a variable meshing method is presented. Meshing space is divided adaptively according to the characteristics of the data set. Experiment is done on real data sets and simulation data sets. The results show that during outlier detection the algorithm can maintain sufficient accuracy while a significant detecting efficiency is improved.

作者王敬华金鹏

机构地区华中师范大学计算机学院

出处《计算机工程与应用》 CSCD 北大核心 2015年第3期133-137,180,共6页 Computer Engineering and Applications

基金国家自然科学基金(No.61170017 No.61370108)

关键词数据挖掘离群点检测粗糙集网格属性权值 data mining outlier detecting rough set grid attribute weights

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1Hawkins D.Identification of outliers[M].[S.l.]:London Chapman and Hall,1980.
2Johnson T,Kwok I,Ng R.Fast computation of 2-dimensional depth contours[C]//Proc of the 4th Int'l Conf on Knowledge Discovery and Data Mining,1998:224-228.
3Barnett V,Lewis T.Outliers in statistical data[M].3rd ed.New York:John Wiley and Sons,1994.
4Breuig M M,Kriegel H,Ng R T,et al.LOF:identifying density-based local outliers[C]//Proceedings of 2000 ACM SIGMOD International Conference on Management of Data.New York:ACM Press,2000:93-104.
5Knorr E M,Ng R T.Algorithms for mining distance-based outliers in large datasets[C]//Proceedings of the 24th International Conference on Very Large Databases.New York:ACM Press,1998:392-403.
6Pawlak Z.Rough set[J].International Journal of Computer and Information Sciences,1982,11:341-356.
7Sheikholeslami G,Chatterjee S,Zhang A.Wave Cluster:a multi-resolution clustering approach for very large spatial databases[C]//Proceedings of the 24th VLDB Conference,New York,USA,1998:428-439.
8Ng R T,Han J.Efficient and effective clustering methods for spatial data mining[C]//Proc of the 20th VLDB Conference,Santiago,1994:144-155.
9Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining,Portland,1996:226-231.
10Hinneburg A,Keim D A.Optimal grid-clustering:towards breaking the curse of dimensionality in high-dimensional clustering[C]//Proceedings of the 25th VLDB Conference,1999:506-517.

二级参考文献7

1D Hawkins. Identification of Outliers. London: Chapman and Hall, 1980.
2T Johnson, I Kwok, R Ng. Fast computation of 2-dimensional depth contours. In: Proc of the 4th Int'l Conf on Knowledge Discovery and Data Mining. New York: AAAI Press, 1998. 224-228.
3E M Knorr, R T Ng. Algorithms for mining distance-based outliers in large datasets. In: Proc of the 24th Int'l Conf on Very Large Databases. New York: Morgan Kaufmann, 1998. 392-403.
4D Yu, G Sheikholeslami, A Zhang. Findout: Finding outliers in very large datasets. Department of Computer Science and Engineering, State University of New York at Buffalo, Tech Rep:99-03, 1999. http://www. cse. buffalo. edu/tech-reports.
5M Breunig, H Kriegel, R T Ng et al. LOF: Identifying densitybased local outliers. In: Proc of ACM SIGMOD Int'l Cortf on Management of Data. Dallas, Texas: ACM Press, 2000. 93-104.
6M Joshi, R Agarwal, V Kumar. Mining needles in a haystack:Classifying rare classes via two-phase rule induction. In: Proc of ACM SIGMOD Int'l Conf on Management of Data. Santa Barbara, CA: ACM Press, 2001. 91-102.
7H Samet. The Design and Analysis of Spatial Data Structures.Boston, MA: Addison-Wesley, 1990.

共引文献27

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：64
2ZHANG Jing 1,2 , SUN Zhi-hui 1 1.Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China,2.Department of Electricity and Information Engineering, Jiangsu University, Zhenjiang 212001, Jiangsu, China.Constructing Three-Dimension Space Graph for Outlier Detection Algorithms in Data Mining[J].Wuhan University Journal of Natural Sciences,2004,9(5):585-589. 被引量：1
3肖冰,邓飞其.一种对电子商店中孤立点进行跟踪的算法[J].河南科技大学学报（自然科学版）,2005,26(4):41-43.
4张净,孙志挥.GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J].东南大学学报（自然科学版）,2005,35(6):863-866. 被引量：6
5杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22
6周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
7金义富,朱庆生,邢永康.一种基于关键域子空间的离群数据聚类算法[J].计算机研究与发展,2007,44(4):651-659. 被引量：8
8孙云,李舟军,陈火旺.孤立点检测算法及其在数据流挖掘中的可用性[J].计算机科学,2007,34(10):200-203. 被引量：15
9李存华.l_∞度量意义下的离群点检测[J].淮海工学院学报（自然科学版）,2008,17(2):27-30.
10倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：27

同被引文献116

1袁存,叶瑜,方修琦.清代中期苏皖地区耕地数据网格化处理及精度对比[J].地理科学进展,2015,34(1):83-91. 被引量：7
2张旭敏,孙立坚,王亮.地理国情普查统计数据网格化[J].遥感信息,2015,30(3):27-32. 被引量：4
3陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
4岳士弘,王正友.二分网格聚类方法及有效性[J].计算机研究与发展,2005,42(9):1505-1510. 被引量：15
5张净,孙志挥.GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J].东南大学学报（自然科学版）,2005,35(6):863-866. 被引量：6
6耿技,印鉴.改进的共享型最近邻居聚类算法[J].电子科技大学学报,2006,35(1):70-72. 被引量：5
7任勋益,王汝传,王海艳.基于自相似检测DDoS攻击的小波分析方法[J].通信学报,2006,27(5):6-11. 被引量：56
8薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
9曹洪其,孙志挥.基于网格技术的高维大数据集离群点挖掘算法[J].计算机应用,2007,27(10):2369-2371. 被引量：3
10DUAN L, XU L, GUO F, et al. A local-density based spatial clustering algorithm with noise [ J ]. Information Systems, 2007,32 (7) :978-986.

引证文献10

1马菲,朱昌杰,郑颖,邓杰.一种基于可变网格划分的离群点检测算法[J].江南大学学报（自然科学版）,2015,14(6):751-757. 被引量：1
2郭永玲.多租户环境下多机群网格数据负载均衡方法[J].电子设计工程,2017,25(24):109-113. 被引量：1
3韩崇,袁颖珊,梅焘,耿慧玲.基于K-means的数据流离群点检测算法[J].计算机工程与应用,2017,53(3):58-63. 被引量：13
4孟海东,孙新军,宋宇辰.基于数据场的改进LOF算法[J].计算机工程与应用,2019,55(3):154-158. 被引量：4
5张硕,金鑫,李兆峰,高建.基于网格LOF和自适应K-means的离群点检测算法[J].指挥信息系统与技术,2019,10(1):90-94. 被引量：8
6黄强,叶青,聂斌,李欢.离群点识别方法研究[J].软件导刊,2019,18(6):35-41. 被引量：2
7牛少章,欧毓毅,凌捷,顾国生.基于网格查询的局部离群点检测算法[J].计算机工程与应用,2019,55(17):89-94. 被引量：2
8刘文芬,穆晓东,黄月华.基于多分辨率网格的异常检测方法[J].计算机工程与应用,2020,56(17):78-85. 被引量：4
9汤野,程文玉,王晨,尚莹.局部异常点检测算法的电能表高压泄露计量[J].信息技术,2021,45(11):137-142.
10刘财辉,刘地金.离群点检测的邻近性方法综述[J].计算机工程与应用,2022,58(21):1-12. 被引量：8

二级引证文献43

1顾洪博,张继怀.基于偏离度的孤立点检测算法在聚类分析的应用[J].佳木斯大学学报（自然科学版）,2018,36(4):547-549. 被引量：1
2王彬宇,刘文芬,胡学先,魏江宏.基于余弦距离选取初始簇中心的文本聚类研究[J].计算机工程与应用,2018,54(10):11-18. 被引量：23
3孟海东,孙新军,宋宇辰.基于数据场的改进LOF算法[J].计算机工程与应用,2019,55(3):154-158. 被引量：4
4黄强,叶青,聂斌,李欢.离群点识别方法研究[J].软件导刊,2019,18(6):35-41. 被引量：2
5蒋华,武尧,王鑫,王慧娇.改进K均值聚类的海洋数据异常检测算法研究[J].计算机科学,2019,46(7):211-216. 被引量：14
6苏晓光,薛佳楣,玄子玉.大数据查询过程机密数据低延时发布协议仿真[J].计算机仿真,2019,36(7):363-366.
7叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099. 被引量：13
8张程,尚海涛.基于数学建模的网络数据流异常检测仿真[J].计算机仿真,2019,36(11):423-426. 被引量：7
9蓝振家,刘辰炜.一种基于分界线的局部剖分网格与编码方法[J].电子质量,2019,0(12):8-11.
10柏云耀,邹时波,李顶根.基于数据分析方法的动力电池系统滥用故障诊断[J].新能源进展,2020,8(1):1-5. 被引量：6

1冯涛,崔炳德.基于网格密度的聚类算法研究[J].煤炭技术,2012,31(3):228-229. 被引量：3
2张净,孙志挥,宋余庆,倪巍伟,晏燕华.基于信息论的高维海量数据离群点挖掘[J].计算机科学,2011,38(7):148-151. 被引量：10
3马菲,朱昌杰,郑颖,邓杰.一种基于可变网格划分的离群点检测算法[J].江南大学学报（自然科学版）,2015,14(6):751-757. 被引量：1
4李冯筱,罗高松.NoSQL理论体系及应用[J].电信科学,2012,28(12):23-30. 被引量：13
5乔辉,周雁舟,邵楠,高杨,粟登银.基于AGA-LVQ神经网络的软件可靠性预测模型研究[J].计算机科学,2013,40(1):179-182. 被引量：12
6宋宝燕,刘宇,丁琳琳.大数据环境下一种基于可变网格的高维数据索引[J].计算机与数字工程,2015,43(10):1717-1722. 被引量：2
7赵辉,严爱军,王普.基于权重阈值寻优的案例推理分类器特征约简[J].控制理论与应用,2015,32(4):533-539. 被引量：5
8汤晓军,刘震.入侵检测在实时网络中的数据分析与处理[J].信息技术与信息化,2015(6):109-110.
9张习博,马宁.探析自动组卷系统数学模型创建方法[J].杨凌职业技术学院学报,2013,12(3):43-44.
10温东宾.基于GMM的数据缺失的多工况故障检测[J].测控技术,2013,32(6):56-60. 被引量：2

计算机工程与应用

2015年第3期

浏览历史

内容加载中请稍等...

基于粗约简和网格的离群点检测被引量：10

参考文献15

二级参考文献7

共引文献27

同被引文献116

引证文献10

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于粗约简和网格的离群点检测 被引量：10

参考文献15

二级参考文献7

共引文献27

同被引文献116

引证文献10

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

基于粗约简和网格的离群点检测被引量：10