iLOF*:一种改进的局部异常检测算法被引量：7

iLOF*: An Optimized Local Outlier Detection Algorithm

下载PDF

导出

摘要异常检测是数据挖掘领域研究的基本问题之一,已被广泛应用于气象预报、网络入侵检测、电信和信用卡欺诈侦察等领域.基于密度的异常检测算法LOF具有较好的检测效果和适用性,但其计算量较大,运行效率不够高,且在进行对象之间的距离计算时忽略了不同属性对异常值的不同影响.针对以上不足,本文提出了一种高效的LOF改进算法iLOF*.该算法利用网格进行数据约简,从而提高了算法的运行效率;同时,在进行对象之间的距离计算时,引入信息熵,给不同属性赋予不同的权值,从而提高了算法的准确率.另外,用MapReduce计算框架将iLOF*算法并行化,进一步提高了算法在大规模数据集上的运行效率.最后的实验结果验证了iLOF*算法的有效性和高效性. Outlier detection is an important branch in the areaof data mining,It has been widely used in weather forecasting, network intrusion detection, telecommunications and credit card fraud detection,etc. LOF algorithm has good detection effect and availability, but its computation is very high, whose efficiency is not good enough,And when calculating the distance between two objects, LOF algorithm ignores the different influence of different properties.To solve above disadvantages, we put forward an improved outlier detection algorithmiLOF＊, iLOF＊ algorithm usesgrid to reduce the data sets, so as to improve the efficiency of the algorithm; at the same time, when calculating the distance between the object, iLOF＊ algorithm gives different weights to different properties through the introduction of information entropy, which improve the accuracy of the algorithm.In addition, we use the parallel computing framework MapReduce to parallel iLOF ＊ algorithm, which further improves the efficiency of algorithm on large data sets.The experimental results demonstrate the effectiveness and efficiency of the proposed algorithm.

作者王飞

机构地区复旦大学计算机科学技术学院复旦大学上海市数据科学重点实验室

出处《计算机系统应用》 2015年第12期233-238,共6页 Computer Systems & Applications

关键词数据挖掘异常检测局部异常因子信息熵并行化 data mining outlier detection local outlier factor information entropy parallelization

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献13

1Hawkins DM. Identification of outliers. London: Chapman and Hall, 1980.
2Breunig MM, Kriegel HP, Ng RT, Sander J. LOF: identifying density-based local outliers. 2000,.
3Papadimitriou S, Kitagawa H, Gibbons PB, et al. Loci: Fast outlier detection using the local correlation integral. Proc. of the 19th International Conference on Data Engineering 2003. IEEE, 2003:315-326.
4Ma Y, Shi H, Wang M. Adaptive local outlier probability for dynamic process monitoring. Chinese Journal of Chemical Engineering, 2014, 22(7): 820-827.
5李存华,孙志挥.GridOF:面向大规模数据集的高效离群点检测算法[J].计算机研究与发展,2003,40(11):1586-1592. 被引量：28
6Shannon CE. A mathematical theory of communication. ACM SIGMOBILE Mobile Computing and Communications Review, 2001, 5(1): 3-55.
7Agyemang M, Ezeife CI. Lsc-mine: Algorithm for mining local outliers. Proc. of the 15th Information Resource Management Association (IRMA) International Conference. New Orleans. 2004, 1 : 5-8.
8Tang J, Chen Z, Fu AWC, Cheung DW. Enhancing effectiveness of outlier detections for low density patterns. In Dvances in Knowledge Discovery and Data Mining. Springer Berlin Heidelberg.2002, 535-548.
9Jiang F, Sui Y, Cao C. An information entropy-based approach to outlier detection in rough sets. Expert Systems with Applications, 2010, 37(9): 6338-6344.
10Dean J, Ghemawat S. MapReduce: a flexible data processing tool. Communications of the ACM, 2010, 53(1): 72-77.

二级参考文献7

1D Hawkins. Identification of Outliers. London: Chapman and Hall, 1980.
2T Johnson, I Kwok, R Ng. Fast computation of 2-dimensional depth contours. In: Proc of the 4th Int'l Conf on Knowledge Discovery and Data Mining. New York: AAAI Press, 1998. 224-228.
3E M Knorr, R T Ng. Algorithms for mining distance-based outliers in large datasets. In: Proc of the 24th Int'l Conf on Very Large Databases. New York: Morgan Kaufmann, 1998. 392-403.
4D Yu, G Sheikholeslami, A Zhang. Findout: Finding outliers in very large datasets. Department of Computer Science and Engineering, State University of New York at Buffalo, Tech Rep:99-03, 1999. http://www. cse. buffalo. edu/tech-reports.
5M Breunig, H Kriegel, R T Ng et al. LOF: Identifying densitybased local outliers. In: Proc of ACM SIGMOD Int'l Cortf on Management of Data. Dallas, Texas: ACM Press, 2000. 93-104.
6M Joshi, R Agarwal, V Kumar. Mining needles in a haystack:Classifying rare classes via two-phase rule induction. In: Proc of ACM SIGMOD Int'l Conf on Management of Data. Santa Barbara, CA: ACM Press, 2001. 91-102.
7H Samet. The Design and Analysis of Spatial Data Structures.Boston, MA: Addison-Wesley, 1990.

共引文献27

1李存华,孙志挥,陈耿,胡云.核密度估计及其在聚类算法构造中的应用[J].计算机研究与发展,2004,41(10):1712-1719. 被引量：61
2ZHANG Jing 1,2 , SUN Zhi-hui 1 1.Department of Computer Science and Engineering, Southeast University, Nanjing 210096, Jiangsu, China,2.Department of Electricity and Information Engineering, Jiangsu University, Zhenjiang 212001, Jiangsu, China.Constructing Three-Dimension Space Graph for Outlier Detection Algorithms in Data Mining[J].Wuhan University Journal of Natural Sciences,2004,9(5):585-589. 被引量：1
3肖冰,邓飞其.一种对电子商店中孤立点进行跟踪的算法[J].河南科技大学学报（自然科学版）,2005,26(4):41-43.
4张净,孙志挥.GDLOF:基于网格和稠密单元的快速局部离群点探测算法[J].东南大学学报（自然科学版）,2005,35(6):863-866. 被引量：6
5杨宜东,孙志挥,朱玉全,杨明,张柏礼.基于动态网格的数据流离群点快速检测算法[J].软件学报,2006,17(8):1796-1803. 被引量：22
6周晓云,孙志挥,张柏礼,杨宜东.高维类别属性数据流离群点快速检测算法[J].软件学报,2007,18(4):933-942. 被引量：21
7金义富,朱庆生,邢永康.一种基于关键域子空间的离群数据聚类算法[J].计算机研究与发展,2007,44(4):651-659. 被引量：8
8孙云,李舟军,陈火旺.孤立点检测算法及其在数据流挖掘中的可用性[J].计算机科学,2007,34(10):200-203. 被引量：15
9李存华.l_∞度量意义下的离群点检测[J].淮海工学院学报（自然科学版）,2008,17(2):27-30.
10倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：27

同被引文献41

1董泽,贾昊.基于EWT-LOF的热工过程数据异常值检测方法[J].仪器仪表学报,2020,41(2):126-134. 被引量：23
2闫伟,张浩,陆剑峰.一种离群数据挖掘新方法的研究与应用[J].控制与决策,2006,21(5):563-566. 被引量：5
3薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
4肖辉,龚薇.基于可达邻域的异常检测算法[J].计算机工程,2007,33(17):74-76. 被引量：4
5倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：27
6薛安荣,姚林,鞠时光,陈伟鹤,马汉达.离群点挖掘方法综述[J].计算机科学,2008,35(11):13-18. 被引量：68
7徐翔,刘建伟,罗雄麟.离群点挖掘研究[J].计算机应用研究,2009,26(1):34-40. 被引量：27
8翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J].计算机科学,2010,37(10):27-32. 被引量：37
9张卫旭,尉宇.基于密度的局部离群点检测算法[J].计算机与数字工程,2010,38(10):11-14. 被引量：12
10闫少华,张巍,滕少华.基于密度的离群点挖掘在入侵检测中的应用[J].计算机工程,2011,37(18):240-242. 被引量：5

引证文献7

1段培永,崔冲,张洁珏.一种改进的局部离群数据检测算法[J].黑龙江大学自然科学学报,2017,34(4):474-480. 被引量：3
2王茹雪,张丽翠,刘姝岐.基于瀑布型混合技术的异常检测算法[J].吉林大学学报（信息科学版）,2017,35(5):544-550. 被引量：1
3周鹏,程艳云.一种改进的LOF异常点检测算法[J].计算机技术与发展,2017,27(12):115-118. 被引量：19
4郑世健,付聪,万博雨,刘知贵.基于多相关性的传感数据离群点检测与处理[J].测控技术,2020,39(4):81-85.
5陆秋琴,魏巍,黄光球.环境监测系统中异常数据的识别和修复方法[J].安全与环境学报,2021,21(3):1300-1310. 被引量：7
6张云秋,李博诚,陈妍.面向不平衡数据的电子病历自动分类研究[J].数据分析与知识发现,2022,6(2):233-241.
7王锐.基于改进LOF的高维数据异常检测方法[J].电信工程技术与标准化,2023,36(3):41-45. 被引量：1

二级引证文献31

1张莉,李长红.银杏早产嫁接三法[J].科技致富向导,2000(4):19-19.
2李广强,韩曜权,黄才权.基于局部离群因子的军事训练数据异常值检测[J].空军预警学院学报,2018,32(4):280-282. 被引量：1
3肖雪,薛善良.基于改进的OPTICS聚类和LOPW的离群数据检测算法[J].计算机工程与科学,2019,41(5):885-892. 被引量：5
4黄强,叶青,聂斌,李欢.离群点识别方法研究[J].软件导刊,2019,18(6):35-41. 被引量：1
5黄卫国,金超,张田.基于密度的离群点检测技术在中厚板轧后冷却中的研究[J].冶金自动化,2019,43(3):7-12.
6牛少章,欧毓毅,凌捷,顾国生.基于网格查询的局部离群点检测算法[J].计算机工程与应用,2019,55(17):89-94. 被引量：2
7申赞伟,李丹,张士文,张峰.基于离群点检测的电类实验教学中错误数据判决算法[J].实验室研究与探索,2019,38(8):138-142.
8柏云耀,邹时波,李顶根.基于数据分析方法的动力电池系统滥用故障诊断[J].新能源进展,2020,8(1):1-5. 被引量：6
9郭屾,林佳颖,王鹏,张冀川,陈蕾,唐国静.基于ROF离群组检测的低压配电网拓扑校验[J].控制工程,2020,27(1):201-206. 被引量：8
10李晓峰,王妍玮,李东.基于层次化深度学习的医疗数据库离群数据检测算法[J].计算机系统应用,2020,29(3):180-186. 被引量：3

1李健,阎保平,李俊.基于记忆效应的局部异常检测算法[J].计算机工程,2008,34(12):4-6. 被引量：8
2周绪川,蔡利平.基于局部异常因子的无监督学习集成异常检测[J].西南民族大学学报（自然科学版）,2012,38(3):444-448. 被引量：3
3陈静,王伟.一种基于局部异常因子(LOF)的k-means算法[J].电子测试,2016,27(6X):60-61. 被引量：1
4李循律,何钦铭.基于密度的异常检测算法在入侵检测系统中的应用[J].江南大学学报（自然科学版）,2006,5(5):543-546. 被引量：4
5杨风召,朱扬勇,施伯乐.IncLOF:动态环境下局部异常的增量挖掘算法[J].计算机研究与发展,2004,41(3):477-484. 被引量：32
6周大镯,刘月芬,马文秀.时间序列异常检测[J].计算机工程与应用,2008,44(35):145-147. 被引量：21
7王淑琴,李克彬,单继宏.面向生产设备实时监控的数据挖掘技术的研究[J].浙江科技学院学报,2005,17(4):264-267.
8吴中博,袁磊,王敏.传感器网络中的局部异常检测算法[J].计算机工程与科学,2012,34(10):43-47. 被引量：2
9雷晨曦,唐向红,李少波.断路器数据在线异常点检测算法研究[J].计算机应用研究,2014,31(6):1706-1709. 被引量：3
10周大镯,刘雷.时间序列增量异常模式检测算法[J].计算机工程,2009,35(16):45-47. 被引量：3

计算机系统应用

2015年第12期

浏览历史

内容加载中请稍等...

iLOF*:一种改进的局部异常检测算法被引量：7

参考文献13

二级参考文献7

共引文献27

同被引文献41

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

iLOF*:一种改进的局部异常检测算法 被引量：7

参考文献13

二级参考文献7

共引文献27

同被引文献41

引证文献7

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

iLOF*:一种改进的局部异常检测算法被引量：7