海量信息异常检测问题的异常概率排序算法被引量：4

Ordinal Anomaly Probability Algorithm for Anomaly Detection Problems of Massive Data Sets

下载PDF

导出

摘要针对异常检测算法速度慢、精度低、稳定性差等问题,提出了一种通过异常概率排序提取异常点的算法(OAP).由于异常点相对正常点更容易通过对数据空间的均匀分割而孤立出来,所以OAP通过数据点在均匀N叉分割树中的孤立深度估算异常概率的大小,从而得到异常概率的排序,最终构造由k个异常概率最大的点组成的列表,列表中的数据就是所求的异常点.OAP不需要距离或密度的计算,复杂度被降到O(n)级.实验结果表明,对于规模线性增加的海量实验数据集,OAP消耗的CPU时间也线性增加;相对iForest算法,其速度提高了30倍,精度提高了20%～30%,且同一数据集上的多次实验结果一致,稳定性高. An ordinal anomaly probability method （OAP） is proposed to improve the efficiency, effectiveness and stability of existing anomaly detection algorithms. Since anomalies are easier to be isolated by uniformly partitioning the data space, the order of anomaly probabilities can be evaluated in terms of isolation depths in uniform N-ary partition trees. Then, the k largest probable anomalies are extracted. OAP can ignore the evaluation of distance and density, and hence reduces the complexity to O（n）. Experimental results show that the CPU time of OAP increases linearly with a linearly growing data set. Furthermore, comparisons show that OAP is 30 times faster than iForest and is much more stable, while its accuracy is improved by 20%-30%.

作者陈刚蔡远利穆静杨卫丽

机构地区西安交通大学电子与信息工程学院中国国防科技信息中心

出处《西安交通大学学报》 EI CAS CSCD 北大核心 2011年第4期36-40,共5页 Journal of Xi'an Jiaotong University

基金国家自然科学基金资助项目(60972146 60602025)

关键词数据挖掘异常检测均匀分割异常概率排序 data mining anomaly detection uniform partition ordinal anomaly probability

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1ESKIN E,ARNOLD A,PRERAU M,et al.A geometric framework for unsupervised anomaly detection[J].Advances in Information Security,2002,56(4):21-31.
2RICHARD B,DAVID H.Statistical fraud detection:a review[J].Statistical Science,2002,17 (3):235-255.
3LI Xiaolie,LI Zhenhui,HAN Jiawei.Temporal outlier detection in vehicle traffic data[C] //Proc 2009 Int Conf on Data Engineering (ICDE'09).Piscataway,NJ,USA:IEEE,2009:1319-1322.
4MARCEL P,ELIZABETH B,SEAN H,et al.A brain tumor segmentation framework based on outlier detection[J].Medical Image Analysis,2004,8(3):275-283.
5HAN Jiawei,MICHELINE K.Data mining:concepts and techniques[M].Singapore:Elsevier,2006:5-9.
6MARKUS M,HANS P,RAYMOND T,et al.LOF:identifying density-based local outliers[C] //Proc ACM SIGMOD'00.New York,USA:ACM,2000:93-104.
7LIU Feitong,TING Kaiming.Isolation forest[C] //Proceedings of IEEE International Conference on Data Mining ICDM' 08.Piscataway,NJ,USA:IEEE,2008:413-422.
8Y(U) Xiao,TANG Lu'an,HAN Jiawei.Filtering and refinement:a two-stage approach for efficient and effective anomaly detection[C] //Proc Int Conf on Data Mining ICDM' 09.Piscataway,NJ,USA:IEEE,2009:90-104.
9HO Y C,SREENIVAS R.Ordinal optimization of DEDS[J].Discrete Event Dynamic Systems,1992,45(9):61-88.
10KNUTH D,Art of computer programming[M].New York,USA:Addison-Wesley,1998:51-53.

同被引文献34

1王文贺,刘莉.多元回归分析法在城市用电量预测中的应用[J].沈阳工程学院学报（自然科学版）,2012,8(4):330-332. 被引量：6
2Chandola V, Banerjee A, Kumar V. Anomaly detection: a sur- vey. ACM Computing Surveys, 2009; 41 (3) :1-58.
3Jiang Shengyi, Yang Aimin. Framework of clustering-based outlier de- tection. 2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery. 2009.
4Chen Yumin, Miao Duoqian, Zhang Hongyun. Neighborhood outlier detection. Expert Systems with Applications, 2010; 37 ( 12 ) : 8745 -8749.
5Tao Yunxin, Pi Dechang. Unifying density-based clustering and outli- er detection. Second International Workshop on Knowledge Discovery and Data Mining. 2009.
6Hadi A S, Rahmatullah Imon A H M, Werner M. Detection of outli- ers. Wiley Interdisciplinary Reviews: Computational Statistics. 2009 ; 1 ( 1 ) :57-70.
7Aehtert E, Kriegel H P, Reichert L Visual evaluation of outlier de- tection models. Springer-Verlag Berlin Heidelberg. 2010.
8Kmietowicz Z W , Pearman A D . Decision Theory and Incomplete Knowledge [M].Hampshire, England : Gower Pub,1981.
9Navickas, Valentinas, Sujeta, et al. Logistics Systems as A Factor of E ountry's Com-petitiveness[J]. Economics and Management,2011,(16).
10Warren H H, Hau L. Lee, Uma Subramanian. The Impact of Logistics Performance on Trade[J]. Production and Operations Management, 2013,22(2).

引证文献4

1莫同,褚伟杰,李伟平,吴中海.采用超图的微博群落感知方法[J].西安交通大学学报,2012,46(11):120-126. 被引量：8
2唐永红,刘绪栋.一种基于混合属性数据集的异常检测方法[J].科学技术与工程,2013,21(7):1832-1835. 被引量：1
3张相斌,梁啸.基于多元线性回归的概率排序型预测方法[J].统计与决策,2015,31(1):91-93. 被引量：1
4罗玲桃,张相斌.基于概率排序模型的中国物流业发展趋势分析[J].统计与决策,2015,31(16):88-92. 被引量：1

二级引证文献11

1于海鹏,魏涛.基于RGB-D数据集的无参数图像深度估计算法[J].计算机工程与设计,2014,35(4):1336-1340. 被引量：2
2邓滢,汪明.网络新媒体时代的舆情风险特征——以雾霾天气的社会涟漪效应为例[J].中国软科学,2014(8):61-69. 被引量：36
3李勇,田晶晶.基于UTAUT模型的政务微博接受度影响因素研究[J].电子政务,2015(6):39-48. 被引量：21
4卞华.关于加强网络新媒体技术伦理建设的思考[J].湖南生态科学学报,2015,2(3):53-57. 被引量：2
5陈婷,胡改丽,陈福集.政务微博知识推送的知识网络演化研究——基于知识协同视角[J].情报科学,2016,34(5):23-28. 被引量：2
6刘桂锋,汪满容,刘海军.基于概率超图半监督学习的专利文本分类方法研究[J].情报杂志,2016,35(9):187-191. 被引量：4
7蒲浩,王雷,李伟,李长淮,魏方华.基于超图语义模型的铁路站场路网数字化设计[J].铁道科学与工程学报,2017,14(12):2714-2720. 被引量：7
8魏方华.铁路站场排水设施数字化关联设计方法研究[J].铁道科学与工程学报,2019,16(5):1338-1343. 被引量：5
9张相斌,罗玲桃.O2O营销模式;需求预测;资源调度;概率排序;区间规划模式下连锁零售网点需求预测及资源调度[J].系统管理学报,2020,29(1):167-173. 被引量：2
10武文斌.基于空间形态数据的铁路通信数字工程设计系统[J].计算机系统应用,2023,32(3):133-141. 被引量：1

1高虎明,贾丽媛,刘美玲.基于改进脊波变换的抗攻击数字水印算法[J].计算机应用研究,2014,31(9):2750-2753. 被引量：3
2李胜军.内存插槽也需保护[J].电子制作．电脑维护与应用,2005(1):17-17.
3大师答疑[J].微型计算机,2006(19):168-169.
4装上新CPU后点不亮机器[J].电脑迷,2010(4):89-89.
5高恩阳,刘伟军,王天然.一种基于线性规划的孤立点检测方法[J].控制工程,2013,20(6):1123-1126. 被引量：2
6程霞,王晓锋.基于数据挖掘技术的Web应用异常检测[J].网络安全技术与应用,2006(5):82-84. 被引量：1
7马捷,钟子发,史英春.基于不完整数据的异常信号检测方法[J].计算机工程,2011,37(14):88-90. 被引量：2
8罗会兰,彭凯,孔繁胜.基于分割集成的行人检测方法[J].模式识别与人工智能,2015,28(6):558-567.
9方敏,牛文科,张晓松.分类回归树多吸引子细胞自动机分类方法及过拟合研究[J].计算机研究与发展,2012,49(8):1747-1752. 被引量：4
10马玉鑫,侍洪波,王梦灵.基于自适应局部离群概率的动态过程监控(英文)[J].Chinese Journal of Chemical Engineering,2014,22(7):820-827. 被引量：2

西安交通大学学报

2011年第4期

浏览历史

内容加载中请稍等...

海量信息异常检测问题的异常概率排序算法被引量：4

参考文献10

同被引文献34

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

海量信息异常检测问题的异常概率排序算法 被引量：4

参考文献10

同被引文献34

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

海量信息异常检测问题的异常概率排序算法被引量：4