一种基于划分的孤立点检测算法被引量：16

An Algorithm Based on Partition for Outlier Detection

下载PDF

导出

摘要孤立点是不具备数据一般特性的数据对象.划分的方法是通过将数据集中的数据点分布的空间划分为不相交的超矩形单元集合,匹配数据对象到单元中,然后通过各个单元的统计信息来发现孤立点.由于大多真实数据集具有较大偏斜,因此划分后会产生影响算法性能的大量空单元.由此,提出了一种新的索引结构——CD-Tree(celldimensiontree),用于索引非空单元.为了优化CD-Tree结构和指导对数据的划分,提出了基于划分的数据偏斜度(skewofdata,简称SOD)概念.基于CD-Tree与SOD,设计了新的孤立点检测算法.实验结果表明,该算法与基于单元的算法相比,在效率及有效处理的维数方面均有显著提高. Outliers are objects that do not comply with the general behavior of the data. The method of partition divides data space into a set of non-overlapping rectangular cells by partitioning every dimension into equal length. Statistical information of cells is used to find knowledge in datasets, There exists very large data skew in real-life datasets, so partition will produce many empty cells, which affects the efficiency of the algorithms. An efficient index structure called CD-Tree （cell dimension tree） is designed for indexing cells, Moreover, to guide partition and to optimize the structure of CD-Tree, the concept of SOD （skew of data） is proposed to measure the degree of data skew. Finally, the CD-Tree-based algorithm is designed for outlier detection based on CD-Tree and SOD. The experimental results show that the efficiency of CD-Tree-based algorithm and the maximum number of dimensions processed increase obviously comparing with the Cell-based algorithm on real-life datasets.

作者孙焕良鲍玉斌于戈赵法信王大玲

机构地区东北大学信息科学与工程学院沈阳建筑大学信息与控制工程学院

出处《软件学报》 EI CSCD 北大核心 2006年第5期1009-1016,共8页 Journal of Software

基金国家自然科学基金国家教育部高等学校优秀青年教师教学和科研奖励基金辽宁省自然科学基金辽宁省教育厅攻关计划基金~~

关键词数据挖掘孤立点检测划分 CD-Tree(cell DIMENSION tree) 基于单元的算法 data mining outlier detection partition CD-tree （cell dimension tree） cell-based algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Knorr E,Ng R.Algorithms for mining distance-based outliers in large data sets.In:Gupta A,Shmueli O,Widom J,eds.Proc.of the VLDB Conf.New York:Morgan Kaufmann Publishers,1998.392-403.
2Knorr E,Ng R.Finding intensional knowledge of distance-based outliers.In:Atkinson MP,Orlowska ME,Valduriez P,Zdonik SB,Brodie ML,eds.Proc.of the VLDB Conf.Edinburgh:Morgan Kaufmann Publishers,1999.211-222.
3Ramaswamy S,Rastogi R,Shim K.Efficient algorithms for mining outliers from large data sets.In:Chen WD,Naughton JF,Bernstein PA,eds.Proc.of the ACM SIGMOD Conf.Dallas:ACM Press,2000.427-438.
4Breunig MM,Kriegel HP,Ng R,Sander J.LOF:Identifying density-based local outliers.In:Chen WD,Naughton JF,Bernstein PA,eds.Proc.of the ACM SIGMOD Conf.Dallas:ACM Press,2000.94-104.
5Arning A,Agrawal R,Raghavan P.A linear method for deviation detection in large databases.In:Simoudis E,Han JW,Fayyad UM,eds.Proc.of the KDD Conf.Portland:AAAI Press,1996.164-169.
6Beckmann N,Kriegel HP,Schneider R,Seeger B.The R*-tree:An efficient and robust access method for points and rectangles.In:Hector GM,Jagadish HV,eds.Proc.of the ACM SIGMOD Conf.Atlantic:ACM Press,1990.322-331.
7Katayama N,Satoh S.The SR-tree:An index structure for high-dimensional nearest neighbor queries.In:Peckham J,ed.Proc.of the ACM SIGMOD Conf.Tucson:ACM Press,1997.369-380.
8Berchtold S,Keim DA,Kriegel H.The X-tree:An index structure for high-dimensional data.In:Vijayaraman TM,Buchmann AP,Mohan C,Sarda NL,eds.Proc.of the 22nd VLDB Conf.Bombay:Morgan Kaufmann Publishers,1996.28-39.

同被引文献117

1王道平,冯俊,郝玫.基于距离和密度的分布式孤立点探测算法[J].微计算机信息,2008,24(6):222-224. 被引量：1
2刘齐宏,李天德,周志斌,易彬,唐常杰,刘齐巍.基于RFID与基因表达式编程的经济统计时序挖掘[J].四川大学学报（工程科学版）,2008,40(5):121-124. 被引量：5
3陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：23
4余建桥,葛继科,李娅.一种基于密度偏差抽样的孤立点检测算法[J].计算机科学,2004,31(10):206-208. 被引量：3
5陆声链,林士敏.基于距离的孤立点检测研究[J].计算机工程与应用,2004,40(33):73-75. 被引量：44
6蒋盛益,李庆华,王卉,孟中楼.一种增强的局部异常挖掘方法[J].计算机研究与发展,2005,42(2):210-216. 被引量：8
7吕庆喆,言方荣,林金官.两种时间序列孤立点挖掘方法的比较[J].统计研究,2005,22(1):51-54. 被引量：5
8卢辉斌,徐刚,李段.一种基于孤立点检测的入侵检测方法[J].微机发展,2005,15(6):93-94. 被引量：3
9王宏鼎,童云海,谭少华,唐世渭,杨冬青.异常点挖掘研究进展[J].智能系统学报,2006,1(1):67-73. 被引量：22
10杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22

引证文献16

1施化吉,周书勇,李星毅,唐慧,丁秋林.基于平均密度的孤立点检测研究[J].电子科技大学学报,2007,36(6):1286-1288. 被引量：11
2庞彦伟,刘政凯.一种自动抑制离群点的子空间学习方法[J].电子与信息学报,2008,30(1):176-179. 被引量：1
3李云,袁运浩,陈崚.基于灰色关联分析的孤立点挖掘算法[J].计算机工程,2008,34(19):44-46. 被引量：1
4闫宗奎,石冰.基于网格模型的孤立点检测算法[J].山东大学学报（理学版）,2008,43(11):58-60.
5黄敢为.基于蛋白质相互作用网络的孤立点检测[J].现代计算机,2008,14(11):77-79.
6贺彦琨.基于证券数据特征的孤立点检测算法及应用[J].甘肃科技,2009,25(22):35-36.
7刘曼玲,范洁.基于粗糙集的孤立点检测算法[J].微计算机信息,2009(33):1-2.
8樊甫华.基于孤立点分析的辐射源奇异脉冲提取方法[J].航天电子对抗,2010,26(5):23-25.
9胡彩平,秦小麟.一种基于密度的局部离群点检测算法DLOF[J].计算机研究与发展,2010,47(12):2110-2116. 被引量：52
10刘爱琴,葛凌云,杨海峰,张继福.利用子空间划分的局部离群数据挖掘算法[J].小型微型计算机系统,2011,32(8):1628-1632. 被引量：4

二级引证文献81

1黄敢为.基于蛋白质相互作用网络的孤立点检测[J].现代计算机,2008,14(11):77-79.
2魏延,石磊,陈琳琳.基于后验概率加权的模糊支持向量机[J].重庆工学院学报（自然科学版）,2009,23(8):80-84. 被引量：3
3田江,顾宏.孤立点一类支持向量机算法研究[J].电子与信息学报,2010,32(6):1284-1288. 被引量：13
4樊甫华.基于孤立点分析的辐射源奇异脉冲提取方法[J].航天电子对抗,2010,26(5):23-25.
5朱秀莉,顾洪博,杨冬黎.孤立点检测及在煤矿安全预警系统中的应用[J].河北工程大学学报（自然科学版）,2011,28(2):79-81. 被引量：3
6顾洪博,张星.基于DS的孤立点检测在瓦斯浓度判定中的应用[J].海南大学学报（自然科学版）,2011,29(3):218-220. 被引量：3
7揭财明,刘慧君,朱庆生.基于方形对称邻域的局部离群点检测方法[J].计算机应用研究,2012,29(2):472-474. 被引量：5
8肖建琼,宋国琴,罗兴贤.基于时间序列数据流的孤立点自适应异常检测[J].电脑知识与技术,2011,7(12):8927-8929.
9魏延,李晓虹,邬啸.后验概率加权的模糊隶属度函数[J].重庆大学学报（自然科学版）,2012,35(8):127-133. 被引量：2
10张强,王春霞,赵健,武龙举,李静永.基于聚类和局部信息的离群点检测算法[J].吉林大学学报（理学版）,2012,50(6):1214-1217. 被引量：1

1王柯柯,崔贯勋,倪伟,苟光磊.基于单元的快速的大数据集离群数据挖掘算法[J].重庆邮电大学学报（自然科学版）,2010,22(5):673-677. 被引量：7
2赵法信,鲍玉斌,孙焕良,于戈,王大玲.一种基于磁盘的大数据集快速异常检测算法[J].小型微型计算机系统,2005,26(11):1938-1941. 被引量：1
3孙焕良,刘俊岭,于戈,鲍玉斌,王大玲.一种基于CD-Tree的高效聚类算法[J].计算机研究与发展,2006,43(z3):371-375.
4刘俊岭,孙焕良,王大玲,牛志成.一种优化的基于网格的聚类算法[J].小型微型计算机系统,2006,27(10):1927-1930. 被引量：6
5郑久虎.基于Web Services的电子文件归档研究[J].电脑知识与技术,2006(8):34-34.
6张忠平,宋少英,宋晓辉.ISAD:一种新的基于属性距离和的孤立点检测算法[J].计算机工程与科学,2009,31(3):83-85. 被引量：5
7周支元,李跃强,孙星明.基于偏斜度的视频水印算法[J].计算机工程与应用,2008,44(25):96-97. 被引量：6
8张敏,李飞跃,向勇.基于NSI的P2P流量管理系统[J].微计算机信息,2010,26(21):124-125.
9王鑫,唐振民.一种新的复杂背景下红外弱小目标检测方法[J].系统仿真学报,2009,21(20):6568-6572. 被引量：5
10周亚建,徐晨,李继国.基于改进CURE聚类算法的无监督异常检测方法[J].通信学报,2010,31(7):18-23. 被引量：22

软件学报

2006年第5期

浏览历史

内容加载中请稍等...

一种基于划分的孤立点检测算法被引量：16

参考文献8

同被引文献117

引证文献16

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

一种基于划分的孤立点检测算法 被引量：16

参考文献8

同被引文献117

引证文献16

二级引证文献81

相关作者

相关机构

相关主题

浏览历史

一种基于划分的孤立点检测算法被引量：16