基于密度偏倚抽样的局部距离异常检测方法被引量：18

Anomaly Detection Algorithm Based on the Local Distance of Density-Based Sampling Data

下载PDF

导出

摘要异常检测是数据挖掘的重要研究领域,当前基于距离或者最近邻概念的异常数据检测方法,在进行海量高维数据异常检测时,存在运算时间过长的问题.许多改进的异常检测方法虽然提高了算法运算效率,然而检测效果欠佳.基于此,提出一种基于密度偏倚抽样的局部距离异常检测算法,首先利用基于密度偏倚的概率抽样方法对所需检测的数据集合进行概率抽样,之后对抽样数据利用基于局部距离的局部异常检测方法,对抽样集合进行局部异常系数计算,得到的异常系数既是抽样数据的局部异常系数,又是数据集的近似全局异常系数.然后对得到的每个数据点的局部异常系数进行排序,异常系数值越大的数据点越可能是异常点.实验结果表明,与已有的算法相比,该算法具有更高的检测精确度和更少的运算时间,并且该算法对各种维度和数据规模的数据都具有很好的检测效果,可扩展性强. Anomaly detection is an important research area of data mining. Current outlier mining approaches based on the distance or the nearest neighbor can result in unmanageable long operation time when applied to massive high-dimensional data. Many improvements have been proposed to improve the algorithms, but the detection is ineffective. This paper presents a new anomaly detection algorithm based on the local distance of density-based sampling data. First, the density-based of probability sampling method is used to find a subset of the data in detection. Then, the method based on the local distance of local outlier detection is used to calculate the abnormal factor of each object in the subset. In using the density-based of sample data, the abnormal factor is obtained both as local outlier factor of the subset and as the approximate value of global outlier factor of the hole data. Having the abnormal factor of each object in the subset, data points with higher factor score indicate higher degree of outliers. Experimental results show that, compared with the existing algorithms, this algorithm has higher detection accuracy and less computation time. The algorithm has higher efficiency and stronger scalability for various dimensions and size of data points.

作者付培国胡晓惠 FU Pei-Guo HU Xiao-Hui(University of Chinese Academy of Sciences, Beijing 100049, China Science and Technology on Integrated Information System Laboratory （Institute of Software, The Chinese Academy of Sciences） Beijing 100190, China)

机构地区中国科学院大学天基综合信息系统重点实验室(中国科学院软件研究所)

出处《软件学报》 EI CSCD 北大核心 2017年第10期2625-2639,共15页 Journal of Software

基金国家自然科学基金(U1435220) 国家高技术研究发展计划(863)(2012AA011206)~~

关键词异常检测局部异常系数局部距离密度偏倚抽样 SLDOF算法 anomaly detection outlier factor of local set local distance density-based sampling SLDOF algorithm

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：27
2薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96

二级参考文献23

1Han Jia-Wei,Kamber Micheline Data Mining:Concepts and Techniques (2nd Edition).San Francisco:Morgan Kaufmann Publishers,2006
2Hawkins D.Identification of Outliers.London:Chapman and Hall,1980
3Knorr E,Ng R.Algorithms for mining distance-based outliers in large datasets//Proceedings of the 24th VLDB Conference.New York,1998:392-403
4Breunig M M,Kriegel H P,Ng R T et al.OPTICS-OF:Identifying local outliers//Proceedings of the 3rd European Conference on Principles and Practice of Knowledge Discovery in Databases.Prague,1999:262-270
5Breunig M,Knegel H P,Ng R et al.LOF:Identifying density-based local outliers//Proceedings of ACM SIGMOD Conference.Dallas,Texas,2000:93-104
6Tang J,Chen Z,Fu A et al.Enhancing effectiveness of outlier detections for low-density patterns//Proceeding of Advances in Knowledge Discovery and Data Mining 6th PacificAsia Conference.Taipei,China,2002:535-548
7Papadimitirou S,Kitagawa H,Gibbons PB,Faloutsos C.LOCI:Fast outlier detection using the local correlation integral//Proceedings of the 19th International Conference on Data Engineering.Bangalore,2003.Los Alamitos:IEEE Computer Society,2003:315-326
8Chawla Sanjay,Sun Pei.SLOM:A new measure for local spatial outliers.Knowledge and Information Systems,2006,9(4):412-429
9Shekhar S,Chawla S.A Tour of Spaual Databases.Upper Saddle River,N.J.:Prentice Hall,2003
10Lu Chang-Tien,Chen De-Chang,Kou Yu-Feng.Detecting spatial outliers with multiple attributes//Proceedings of the 15th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'03).Sacramento,2003:122-128

共引文献112

1张树森,伏利,董刚.离群点删除算法的研究[J].装备制造技术,2008(7):13-15. 被引量：3
2薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
3李尼格,鲍培明,沙露.一种基于面包含关系的GML空间离群面检测算法[J].广西师范大学学报（自然科学版）,2009,27(3):118-121. 被引量：3
4于浩,王斌,肖刚,杨晓春.基于距离的不确定离群点检测[J].计算机研究与发展,2010,47(3):474-484. 被引量：19
5张贺,蔡江辉,张继福,乔衎.信息熵度量的离群数据挖掘算法[J].智能系统学报,2010,5(2):150-155. 被引量：7
6张毅,刘旭敏,关永.基于密度的离群噪声点检测[J].计算机应用,2010,30(3):802-805. 被引量：13
7孙浩,何晓红.动态数据环境下基于信息熵的相对离群点检测算法[J].计算机应用,2010,30(5):1284-1286. 被引量：1
8田江,顾宏.孤立点一类支持向量机算法研究[J].电子与信息学报,2010,32(6):1284-1288. 被引量：13
9潘瑜春,刘巧芹,陆洲,周艳兵,李淑华.离群样点对土壤养分空间变异分析的影响研究[J].土壤学报,2010,47(4):767-771. 被引量：5
10薛安荣,李明.无线传感器网络中异常读数检测算法研究[J].计算机应用研究,2010,27(9):3452-3455. 被引量：2

同被引文献108

1迟道才,王子凰,陈涛涛,许杏娟,张瑞.ARIMA和蒙特卡洛方法在预测降水量中的应用[J].沈阳农业大学学报,2015,46(2):187-191. 被引量：3
2刘晓鹏,刘坤会.F分布密度函数之性质[J].应用概率统计,2005,21(3):304-314. 被引量：16
3郭彦.对柯西分布性质的进一步讨论[J].淮阴工学院学报,2005,14(5):8-9. 被引量：5
4倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的数据流离群点检测算法[J].计算机研究与发展,2006,43(9):1639-1643. 被引量：20
5李和平,胡占义,吴毅红,吴福朝.基于半监督学习的行为建模与异常检测[J].软件学报,2007,18(3):527-537. 被引量：30
6杨一鸣,潘嵘,潘嘉林,杨强,李磊.时间序列分类问题的算法比较[J].计算机学报,2007,30(8):1259-1266. 被引量：40
7唐芳.算术平均数、众数、中位数的合理运用[J].中国统计,2008,23(3):49-50. 被引量：14
8薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：69
9杜贵和,王正风.智能电网调度一体化设计与研究[J].电力系统保护与控制,2010,38(15):127-131. 被引量：95
10朱应武,杨家海,张金祥.基于流量信息结构的异常检测[J].软件学报,2010,21(10):2573-2583. 被引量：36

引证文献18

1杨先圣,姜磊,彭雄,周倩,刘菊君.基于大数据的异常检测方法研究[J].计算机工程与科学,2018,40(7):1180-1186. 被引量：19
2武丽芬,罗永莲,王秀华.高维大数据流连续异常点检测方法仿真[J].计算机仿真,2018,35(10):462-466. 被引量：8
3李永政,郝新兵.基于Hadoop的局部异常检测算法[J].信息技术与网络安全,2019,38(6):52-56. 被引量：1
4王艳丽,孔姝睿.复杂时变拓扑网络异常数据检测优化仿真[J].微电子学与计算机,2019,36(10):103-106. 被引量：5
5杨晓晖,张圣昌.基于多粒度级联孤立森林算法的异常检测模型[J].通信学报,2019,40(8):133-142. 被引量：25
6许春杰,吴蒙,杨立君.一种基于分层聚合的分布式异常数据检测方案[J].计算机工程,2020,46(4):213-219. 被引量：20
7李科心,李静,邵佳炜,肖屹.多层次序列集成的高维数值型异常检测[J].计算机与现代化,2020,0(6):73-82. 被引量：2
8高熠飞,王建平,李林峰.基于柯西分布的水文序列异常值检测方法[J].河海大学学报（自然科学版）,2020,48(4):307-313. 被引量：7
9毛亚琼,田立勤,王艳,毛亚萍,王志刚.引入局部向量点积密度的数据流离群点快速检测算法[J].计算机工程,2020,46(11):132-138. 被引量：7
10LYU Yanxia,LI Wenjie,WANG Yue,SUN Siqi,WANG Cuirong.RMHSForest:Relative Mass and Half-Space Tree Based Forest for Anomaly Detection[J].Chinese Journal of Electronics,2020,29(6):1093-1101. 被引量：1

二级引证文献138

1严嘉钰,贝世之,章乐.基于VAE-GAN算法的信用卡欺诈检测模型[J].北京电子科技学院学报,2022,30(4):70-81.
2张丽琼,李钢,邱晓华,苟瑶.基于变分自编码器的红外小目标检测方法[J].火箭军工程大学学报,2021(4):67-72.
3阮嘉琨,蔡延光,乐冰.基于DBSCAN密度聚类算法的高速公路交通流异常数据检测[J].工业控制计算机,2019,32(7):92-94. 被引量：10
4李江岱.基于离群模型的异常大数据检测方法研究[J].新一代信息技术,2019,2(14):56-60.
5陈利军,王畅.基于DBSCAN的地震电离层扰动异常数据检测方法[J].地震工程学报,2020,42(2):410-415. 被引量：7
6张文华,张志俊.基于SVM的新能源公交车运营里程核查方法[J].计算机与现代化,2020,0(5):39-43.
7钱晔,唐君君,孙吉红,彭琳,代梦玲.数字经济环境下“云花”产业创新模式探索[J].经济师,2020(6):10-13.
8任高明.网络异常检测技术研究[J].信息与电脑,2020,32(9):179-180.
9郭娜,李攀,魏荣凯.基于生成树离群检测法的用户行为提取仿真[J].计算机仿真,2020,37(6):257-261. 被引量：1
10唐雅娜,袁琛.基于邻域相似的大数据流滞后相关性挖掘仿真[J].计算机仿真,2020,37(6):318-321.

1王时敏,林彬.气象条件影响的航段延误高维异常检测[J].哈尔滨商业大学学报（自然科学版）,2017,33(4):502-506.
2王娟.口诀在分部积分法求解不定积分中的应用[J].价值工程,2017,36(24):223-224.
3李舟军,李瑞轩,陈驰.信息系统安全专题前言[J].软件学报,2017,28(9):2227-2228.
42008款路虎揽胜运动版车[J].汽车维护与修理,2012(12):64-64.
5市场销售排行榜[J].当代（长篇小说选刊）,2017(5):224-224.
6王谦.基于网络流量异常检测的电网工控系统安全监测技术[J].网络安全技术与应用,2017(10):129-129. 被引量：13
7王卫清.路虎发现4车发动机故障灯异常点亮[J].汽车维护与修理,2017,0(9):89-90.
8侯爱华,高伟,汪霖.基于逻辑回归模型的流量异常检测方法研究[J].工程数学学报,2017,34(5):479-489. 被引量：17
9陈晋阳.“互联网+”视角下健康医疗大数据研究[J].南京医科大学学报（社会科学版）,2017,17(4):269-272. 被引量：16

软件学报

2017年第10期

浏览历史

内容加载中请稍等...

基于密度偏倚抽样的局部距离异常检测方法被引量：18

参考文献2

二级参考文献23

共引文献112

同被引文献108

引证文献18

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

基于密度偏倚抽样的局部距离异常检测方法 被引量：18

参考文献2

二级参考文献23

共引文献112

同被引文献108

引证文献18

二级引证文献138

相关作者

相关机构

相关主题

浏览历史

基于密度偏倚抽样的局部距离异常检测方法被引量：18