基于K-近邻树的离群检测算法被引量：4

Outlier detection based on K-nearest neighborhood MST

下载PDF

导出

摘要为适应数据集分布形状多样性以及克服数据集密度问题,针对已有算法对离群簇检测效果欠佳的现状,提出了一种基于K-近邻树的离群检测算法KNMOD(outlier detection based on K-nearest neighborhood MST)。算法结合密度与方向因素,提出一种基于K-近邻的不相似性度量,然后带约束切割基于此度量构建的最小生成树从而获得离群点。算法可以有效地检测出局部离群点以及局部离群簇,与LOF、COF、KNN及INFLO算法的对比结果也证实了算法的优越性能。 To adapt to the various distribution shape of data set and overcome the density problem of data set, addressing the issue of unsatisfactory result of existing algorithms on detecting outlying cluster, this paper presented an outlier detection algo- rithm based on K-nearest neighborhood MST. This algorithm focused on data sets of any arbitrary shape and density and could effectively detect local outliers and local outlying cluster. Taking the density and directional factor into consideration, it pro- posed a new dissimilarity measure based on K-nearest neighborhood. Then it built a minimum spanning tree on this K-nearest neighborhood dissimilarity measure, finally progressively constrained the tree to cut to find out the outliers. Compared with LOF, COF, KNN and INFLO algorithm, the results reflect the effectiveness and excellence of this new algorithm.

作者范小刚朱庆生万家强

机构地区重庆大学计算机学院

出处《计算机应用研究》 CSCD 北大核心 2015年第3期669-673,共5页 Application Research of Computers

基金国家自然科学基金资助项目(61272194 61073058)

关键词离群检测离群簇最小生成树不相似性 K-近邻 outlier detection outlying cluster minimum spanning tree dissimilarity K-nearest neighborhood

分类号 TP301.6 [自动化与计算机技术—计算机系统结构] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1ASSENT I, KRANEN P, BALDAUF C, et al. Anyout:anytime outli- er detection on streaming data [ C ]//Database Systems for Advanced Applications. Berlin : Springer,2012:228-242.
2薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
3徐翔,刘建伟,罗雄麟.离群点挖掘研究[J].计算机应用研究,2009,26(1):34-40. 被引量：27
4黄洪宇,林甲祥,陈崇成,樊明辉.离群数据挖掘综述[J].计算机应用研究,2006,23(8):8-13. 被引量：42
5SU Xiao-gang, TSAI C L. Outlier detection[ J]. Wiley Interdiscipli- nary Reviews: Data Mining and Knowledge Discovery,2011,1 (3) : 261-268.
6RAMASWAMY S, RASTOGI R, SHIM K. Efficient algorithms for mining outliers from large data sets[ C ]//Proc of ACM SIGMOD Con- ference on Management of Data. 2000:427-438.
7GHOTING A, PARTHASARATHY S, OTEY M E. Fast mining of distance-based outliers in high-dimensional datasets[ J]. Data Mining and Knowledge Discovery, 2008,16 ( 3 ) : 349- 364.
8ZHANG Ke, HUTTER M, JIN Hui-dong. A new local distance-based outlier detection approach for scattered real-world data [ C ]//Ad- vances in Knowledge Discovery and Data Mining. Berlin: Springer, 2009 : 813- 822.
9KIM S, CHO N W, KANG B, et al. Fast outlier detection for very large log data [ J ]. Expert Systems with Applications, 2011,38 (8) :9587-9596.
10TANG Jian, CHEN Zhi-xiang, FU A W C, et al. Enhancing effec- tiveness of outlier detections for low density patterns [ C ]//Advances in Knowledge Discovery and Data Mining. Berlin: Springer, 2002: 535-548.

二级参考文献87

1Zheng Binxiang,Du Xiuhua & Xi Yugeng Institute of Automation, Shanghai Jiaotong University,Shanghai 200030,P.R.China.Outliers Mining in Time Series Data Sets[J].Journal of Systems Engineering and Electronics,2002,13(1):93-97. 被引量：3
2范大昭,雷蓉,张永生.从地理数据库中探测奇异值[J].测绘科学,2004,29(5):12-15. 被引量：2
3陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：23
4陆介平,倪巍伟,孙志挥.基于关联分析的高维空间异常点发现[J].应用科学学报,2006,24(1):60-63. 被引量：2
5王宏鼎,童云海,谭少华,唐世渭,杨冬青.异常点挖掘研究进展[J].智能系统学报,2006,1(1):67-73. 被引量：22
6杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22
7周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
8KNORR E M, NG R T. Algorithms for mining distance-based outliers in large datasets[ C]//Proc of VLDB' 98. San Francisco, CA: Morgan Kaufmann Publishers, 1998:392-403.
9HAWKINS D. Identification of outliers [ M ]. London : Chapman & Hall, 1980.
10TAN Pang-ning, STEINBACH M, KUMAR V. Introduction to data mining[ M]. Boston: Pearson Addison-Wesley Education Inc, 2006.

共引文献148

1冯泽磊,吴美凤.动态浮箱数据清洗方法在电力系统中的应用[J].发电技术,2019,40(S1):109-113. 被引量：5
2李雁,陆海亭,张宁.一种短时交通流异常数据识别新算法[J].公路交通科技（应用技术版）,2010,6(4):185-188.
3林甲祥,刘丰富.基于MST聚类的离群检测算法研究[J].福建电脑,2007,23(9):1-2.
4陈艳,朱建平.基于粗糙集聚类的高维离群点数据挖掘算法[J].统计教育,2007(9):29-30. 被引量：1
5万辉,吴敏.离群数据挖掘在高炉物料消耗数据认证中的应用[J].计算技术与自动化,2007,26(3):110-113.
6林甲祥,樊明辉,陈崇成,江先伟.二阶段近似KNN离群挖掘算法与应用[J].计算机应用,2007,27(10):2598-2601.
7张炳才,彭国林.欧式距离孤立点挖掘方法在审计中的应用研究[J].绿色财会,2008(4):28-30.
8张炳才,彭国林.基于欧式距离孤立点的数据挖掘方法在审计中的应用与研究[J].中国管理信息化,2008,11(13):48-50. 被引量：2
9陈淑燕,王炜,瞿高峰.服务于智能交通系统的离群交通数据识别[J].东南大学学报（自然科学版）,2008,38(4):723-726. 被引量：3
10张树森,伏利,董刚.离群点删除算法的研究[J].装备制造技术,2008(7):13-15. 被引量：3

同被引文献21

1薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
2王敬华,赵新想,张国燕,刘建银.NLOF:一种新的基于密度的局部离群点检测算法[J].计算机科学,2013,40(8):181-185. 被引量：28
3张森,陈鸣,唐劲松.基于多层B样条插值的干涉合成孔径声呐配准偏移量插值算法[J].武汉理工大学学报（交通科学与工程版）,2013,37(6):1230-1234. 被引量：1
4陈庄,黄勇,邹航.基于离群点挖掘的工业控制系统异常检测[J].计算机科学,2014,41(5):178-181. 被引量：13
5周世波,徐维祥.一种基于偏离的局部离群点检测算法[J].仪器仪表学报,2014,35(10):2293-2298. 被引量：13
6王俊秀,孔令德.基于特征点匹配的全景图像拼接技术研究[J].软件工程师,2014(11):10-13. 被引量：4
7洪沙,林佳丽,张月良.基于密度的不确定数据离群点检测研究[J].计算机科学,2015,42(5):230-233. 被引量：6
8胡同喜,牛雪峰,谭洋,陈新鹏.基于SURF算法的无人机遥感影像拼接技术[J].测绘通报,2015(1):55-58. 被引量：38
9邓非,胡玉雷,黄云.一种基于SURF算法的柱面全景影像拼接方法[J].测绘地理信息,2015,40(4):14-18. 被引量：9
10李聪,龙永新,李世星.基于SIFT特征点下图像拼接技术的相关分析[J].电子技术与软件工程,2015(17):73-73. 被引量：1

引证文献4

1张洁玲.一种基于近邻关系的新型离群评估算法[J].福建工程学院学报,2017,15(6):591-596.
2胡洋,张娅妮.大型数据库中数据流异常路径检测仿真[J].计算机仿真,2018,35(6):451-455. 被引量：4
3任静,姚剑,董颖青,李礼,张熠.一种街景全景生成的改进算法[J].计算机工程与应用,2017,53(6):193-199. 被引量：2
4邓浩,秦岭.基于多示例学习的局部离群点改进算法[J].计算机工程与应用,2019,55(18):38-44.

二级引证文献6

1蒋欣兰.基于消失点检测的铁路环境视频自动拼接算法研究[J].计算机工程与应用,2017,53(7):206-211. 被引量：3
2王红凯,黄海潮,毛冬,沈志豪,戚伟强.基于devops的多载体数据流传输路径标定方法[J].电子设计工程,2019,27(11):123-127. 被引量：3
3张程,尚海涛.基于数学建模的网络数据流异常检测仿真[J].计算机仿真,2019,36(11):423-426. 被引量：7
4朱玉胜.面向数据流的结构化自然语言分析算法仿真[J].计算机仿真,2020,37(5):250-254. 被引量：1
5陈国瑞,袁旭华.基于HDFS开源架构的异常数据实时检测算法[J].计算机仿真,2021,38(8):445-449. 被引量：8
6张芳,寿少峻,刘冰,张兰兰,冯颖,高珊.基于光学多传感器场景信息的视觉辅助驾驶技术[J].红外与激光工程,2022,51(6):372-377. 被引量：2

1朱庆生,唐汇,冯骥.一种基于自然最近邻的离群检测算法[J].计算机科学,2014,41(3):276-278. 被引量：11
2苏晓珂,兰洋.一种高效混合属性离群检测算法[J].小型微型计算机系统,2010,31(11):2282-2286. 被引量：2
3王均贤,李文杰.基于用户社交网络的最短距离聚类算法[J].天津理工大学学报,2017,33(2):48-52. 被引量：1
4苟杰,马自堂,张喆程.PODKNN:面向大数据集的并行离群点检测算法[J].计算机科学,2016,43(7):251-254. 被引量：7
5魏文国,张凌,董守斌,梁正友.一个可靠的集群簇/网格监控系统[J].计算机应用,2004,24(5):143-144. 被引量：4
6苏晓珂,兰洋,秦玉明,程耀东.基于衰减模型的混合属性数据流离群检测[J].计算机科学,2010,37(5):157-161. 被引量：1
7陈沛帅,琚春华.基于密度与动态阈值的任意形状聚类挖掘算法研究[J].电信科学,2012,28(1):75-81. 被引量：1
8王茜,刘书志.基于密度的局部离群数据挖掘方法的改进[J].计算机应用研究,2014,31(6):1693-1696. 被引量：30
9郭晓明.直面国内数据中心机房高热密度问题[J].机房技术与管理,2010(4):1-4.
10周悦,邢妍妍.基于ODDD水下机器人故障诊断方法[J].计算机测量与控制,2015,23(4):1106-1108.

计算机应用研究

2015年第3期

浏览历史

内容加载中请稍等...

基于K-近邻树的离群检测算法被引量：4

参考文献13

二级参考文献87

共引文献148

同被引文献21

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于K-近邻树的离群检测算法 被引量：4

参考文献13

二级参考文献87

共引文献148

同被引文献21

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于K-近邻树的离群检测算法被引量：4