基于生成对抗网络和变分自编码器的离群点检测算法被引量：11

Generative adversarial network and variational auto-encoder based outlier detection

下载PDF

导出

摘要针对传统离群点检测算法在类极度不平衡的高维数据集中难以学习离群点的分布模式,导致检测率低的问题,提出了一种生成对抗网络(generative adversarial network,GAN)与变分自编码器(variational auto-encoder,VAE)结合的GAN-VAE算法。算法首先将离群点输入VAE训练,学习离群点的分布模式;然后将VAE与GAN结合训练,生成更多潜在离群点,同时学习正常点与离群点的分类边界;最后将测试数据输入训练后的GAN-VAE,根据正常点与离群点相对密度的差异性计算每个对象的离群值,将离群值高的对象判定为离群点。在四个真实数据集上与六个离群点检测算法进行对比实验,结果表明GAN-VAE在AUC、准确率和F;值上平均提高了5.64%、5.99%和13.30%,证明GAN-VAE算法是有效可行的。 Traditional outlier detection algorithms are difficult to learn the distribution pattern of outlier in extremely unba-lanced high-dimensional datasets,resultingly in low detection rates.This paper proposed a method named GAN-VAE,which combined GAN and VAE.The algorithm firstly input the outliers into VAE to learn the distribution pattern of the outliers,then combined VAE and GAN training to generate more potential outliers and learnt the classification boundary of inliers and out-liers.Finally,it input test data into the trained GAN-VAE,and calculated outliers scores according to the difference of relative density between inliers and outliers,and outliers were the objects with high outlier scores.Compared GAN-VAE performance with six state-of-art outlier detection algorithms on four real world datasets,the results show that the AUC,accuracy and F;value of GAN-VAE have increased by 5.64%,5.99%and 13.30%on average,which proves that GAN-VAE is effective.

作者金利娜于炯杜旭升王松 Jin Lina;Yu Jiong;Du Xusheng;Wang Song(College of Information Science&Engineer(School of Cyber Science&Engineer),Xinjiang University,Urumqi 830008,China;School of Software,Xinjiang University,Urumqi 830008,China)

机构地区新疆大学信息科学技术学院(网络空间安全学院) 新疆大学软件学院

出处《计算机应用研究》 CSCD 北大核心 2022年第3期774-779,共6页 Application Research of Computers

基金国家自然科学基金资助项目(61862060,61462079,61562086)。

关键词数据挖掘离群点检测生成对抗网络变分自编码器 data mining outlier detection generative adversarial network variational auto-encoder

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1梅林,张凤荔,高强.离群点检测技术综述[J].计算机应用研究,2020,37(12):3521-3527. 被引量：24
2杨福萍,王洪国,董树霞,牛家洋,丁艳辉.基于聚类划分的两阶段离群点检测算法[J].计算机应用研究,2013,30(7):1942-1945. 被引量：13
3李春生,于澍,刘小刚.基于改进距离和的异常点检测算法研究[J].计算机技术与发展,2019,29(3):97-100. 被引量：11
4付培国,胡晓惠.基于密度偏倚抽样的局部距离异常检测方法[J].软件学报,2017,28(10):2625-2639. 被引量：18
5杜旭升,于炯,叶乐乐,陈嘉颖.基于图上随机游走的离群点检测算法[J].计算机应用,2020,40(5):1322-1328. 被引量：10

二级参考文献29

1陆声链,林士敏.基于距离的孤立点检测及其应用[J].计算机与数字工程,2004,32(5):94-97. 被引量：23
2李强,李振东.数据挖掘中孤立点的分析研究在实践中应用[J].微计算机应用,2006,27(3):323-327. 被引量：9
3王宏鼎,童云海,谭少华,唐世渭,杨冬青.异常点挖掘研究进展[J].智能系统学报,2006,1(1):67-73. 被引量：22
4倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的数据流离群点检测算法[J].计算机研究与发展,2006,43(9):1639-1643. 被引量：20
5薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
6HAWKINS D. Identification of outliers[M].Berlin:springer-verlag,1980.
7CASSISI C,FERRO A,ROSALBA G. Enhancing density-based clustering:parameter reduction and outlier detection[J].Information Systems,2013,(03):317-330.
8KNORR E,NG R. Algorithms for mining distance-based outliers in large datasets[A].San Francisco,CA:Morgan Kaufmann Publishers Inc,1998.392-403.
9HAN Jia-wei,KAMBER M. Data mining concepts and techniques[M].San Francisco,CA:Morgan Kaufmann Publishers Inc,2007.
10倪巍伟,陈耿,陆介平,吴英杰,孙志挥.基于局部信息熵的加权子空间离群点检测算法[J].计算机研究与发展,2008,45(7):1189-1194. 被引量：27

共引文献69

1周波,冷伏海.技术识别研究进展[J].情报学进展,2022(1):315-348. 被引量：5
2苗永春,程艳.离群点检测方法及其在大数据时代下的改进方法研究[J].江西师范大学学报（自然科学版）,2014,38(5):454-458. 被引量：5
3王丽娜,许朴,谢亚琴.基于WSRFCM聚类的局部离群点检测算法[J].微电子学与计算机,2015,32(10):129-133. 被引量：2
4呼妮,王勇.一种改进的基于反k近邻的流数据离群点检测算法[J].计算机与现代化,2016(8):32-35. 被引量：1
5王冲,邹潇.基于Spark框架的电力大数据清洗模型[J].电测与仪表,2017,54(14):33-38. 被引量：10
6崔书华,胡斌,胡涛.阿尔茨海默病在脑皮层厚度中的集成分类方法研究[J].小型微型计算机系统,2017,38(12):2652-2657. 被引量：4
7李国和,王峰,郑阳,吴卫江,洪云峰,周晓明.基于决策树生成及剪枝的数据集优化及其应用[J].计算机工程与设计,2018,39(1):205-211. 被引量：14
8曲朝阳,张艺竞,王永文,赵莹.基于Spark框架的能源互联网电力能源大数据清洗模型[J].电测与仪表,2018,55(2):39-44. 被引量：25
9杨先圣,姜磊,彭雄,周倩,刘菊君.基于大数据的异常检测方法研究[J].计算机工程与科学,2018,40(7):1180-1186. 被引量：19
10武丽芬,罗永莲,王秀华.高维大数据流连续异常点检测方法仿真[J].计算机仿真,2018,35(10):462-466. 被引量：8

同被引文献122

1董泽,贾昊.基于EWT-LOF的热工过程数据异常值检测方法[J].仪器仪表学报,2020,41(2):126-134. 被引量：25
2陈荣荣,詹国华,李志华.基于XGBoost算法模型的信用卡交易欺诈预测研究[J].计算机应用研究,2020,37(S01):111-112. 被引量：14
3无.2020年支付体系运行总体情况[J].金融会计,2021(4):77-80. 被引量：4
4吕兴凤,李金宝.一种利用随机森林方法检测睡眠呼吸暂停的研究[J].北京邮电大学学报,2020,43(5):64-70. 被引量：7
5江峰,杜军威,眭跃飞,曹存根.基于边界和距离的离群点检测[J].电子学报,2010,38(3):700-705. 被引量：24
6黄添强,李凯,郭躬德.基于局部相关维度的流形离群点检测算法[J].模式识别与人工智能,2011,24(5):629-636. 被引量：3
7王敬华,金鹏.基于粗约简和网格的离群点检测[J].计算机工程与应用,2015,51(3):133-137. 被引量：10
8洪沙,林佳丽,张月良.基于密度的不确定数据离群点检测研究[J].计算机科学,2015,42(5):230-233. 被引量：6
9何权瀛,王莞尔.阻塞性睡眠呼吸暂停低通气综合征诊治指南(基层版)[J].中国呼吸与危重监护杂志,2015,14(4):398-405. 被引量：269
10巴曙松,侯畅,唐时达.大数据风控的现状、问题及优化路径[J].金融理论与实践,2016(2):23-26. 被引量：46

引证文献11

1严嘉钰,贝世之,章乐.基于VAE-GAN算法的信用卡欺诈检测模型[J].北京电子科技学院学报,2022,30(4):70-81.
2郭一阳,于炯,杜旭升,曹铭.基于随机投影与集成学习的离群点检测算法[J].计算机应用研究,2022,39(9):2608-2614. 被引量：4
3杨娟,滕飞,郭大林.多模态融合的特征提取方法在SA检测中的应用[J].计算机与现代化,2022(10):121-126.
4刘财辉,刘地金.离群点检测的邻近性方法综述[J].计算机工程与应用,2022,58(21):1-12. 被引量：8
5刘华玲,曹世杰,许珺怡,陈尚辉.数字信用交易反欺诈研究进展[J].计算机科学与探索,2023,17(10):2300-2324. 被引量：2
6杨霞,苟亮,马倩,朱帕尔·努尔兰,马为真.基于离群点检测算法的电力大数据异常值检测[J].电子设计工程,2023,31(24):61-64.
7李加军.基于孤立森林的多离群点数据检测算法设计[J].现代电子技术,2024,47(5):139-142. 被引量：1
8王琦.基于改进离群点检测算法的妇科病案编码数据异常检测研究[J].现代科学仪器,2024,41(1):194-201.
9李春燕.基于谱聚类算法的人力资源数据集离群点快速挖掘方法[J].信息与电脑,2023,35(23):50-52.
10谭印,苏雯洁.基于局部信息熵的计算机网络高维数据离群点检测系统[J].现代电子技术,2024,47(10):91-95.

二级引证文献14

1邓明洋,李长征,杨浩.基于频域特征变分自编码器的轴承故障诊断研究[J].计算机测量与控制,2023,31(4):70-75. 被引量：1
2缑鹏飞,宋承云.基于自适应邻居图的离群点检测方法[J].计算机应用研究,2023,40(11):3309-3314. 被引量：3
3宋涛,陈添,梁欣怡,田宇,刘世杰,柴晓武.基于极值分析的钻井参数刺峰噪点数据识别研究[J].录井工程,2023,34(4):9-15.
4李加军.基于孤立森林的多离群点数据检测算法设计[J].现代电子技术,2024,47(5):139-142. 被引量：1
5谭印,苏雯洁.基于局部信息熵的计算机网络高维数据离群点检测系统[J].现代电子技术,2024,47(10):91-95.
6余辰熠,魏洪乾,张幽彤.基于关联规则与离群点的新能源汽车动力域入侵检测[J].汽车工程学报,2024,14(3):412-421.
7洪旭,陈美霞,滑瑾.轨道交通车辆轮轴固死故障预测模型研究[J].城市轨道交通研究,2024,27(5):171-174.
8朱辉,张莉芸.基于无监督学习的异质网络多尺度离群点挖掘研究[J].现代电子技术,2024,47(12):182-186.
9张忠平,姚春辰,孙光旭,刘硕,张睿博,魏永辉.基于映射距离比离群因子的离群点检测算法[J].计算机集成制造系统,2024,30(5):1719-1732.
10王彩霞,陶健,舒升.基于机器学习的聚类序列离群点数据挖掘算法[J].通化师范学院学报,2024,45(8):28-34.

1刘悦.不平衡数据集下基于时序和高阶特征的硬盘故障预测[J].电子技术与软件工程,2021(19):152-156. 被引量：1
2张亮,张翔宇,杨大伟,王培源,于海涛.基于2D-RFRFT的密集假目标干扰自适应抑制算法[J].电光与控制,2022,29(3):53-58. 被引量：4
3崔琳琳,沈冰冰,葛志强.基于混合变分自编码器回归模型的软测量建模方法[J].自动化学报,2022,48(2):398-407. 被引量：4
4张欣妍,董四辉,张紫慧,郭相仪.基于LOF改进的K-means算法在交通事故黑点识别中的应用[J].黑龙江交通科技,2022,45(1):134-136. 被引量：1
5方中喜,迟双宝,王雷.基于变分自编码器的输送带煤量分级算法研究[J].煤矿机械,2022,43(2):187-189.
6席婷婷,赵旭俊,苏建花.基于马尔科夫随机游走的两阶段离群检测算法[J].计算机工程与应用,2022,58(1):89-98.
7涂同珩,朱明清,程茂林.双轮铣槽机工作地层识别研究[J].中国工程机械学报,2021,19(6):524-529. 被引量：3
8李云,侯力,刘立华,徐伟.基于多摄像头和一致性子集的乒乓球跟踪方法[J].控制工程,2022,29(1):54-60. 被引量：3
9李文婧,徐国伟,孔维刚,郭风祥,宋庆增.基于改进YOLOv4的植物叶茎交点目标检测研究[J].计算机工程与应用,2022,58(4):221-228. 被引量：14
10刘静,周权,王浩,夏雨晨,汤思齐,朱薿.基于网络药理学解析百里醌治疗炎性肠病相关结直肠癌的分子机制[J].湖北科技学院学报（医学版）,2022,36(1):29-34. 被引量：1

计算机应用研究

2022年第3期

浏览历史

内容加载中请稍等...

基于生成对抗网络和变分自编码器的离群点检测算法被引量：11

参考文献5

二级参考文献29

共引文献69

同被引文献122

引证文献11

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络和变分自编码器的离群点检测算法 被引量：11

参考文献5

二级参考文献29

共引文献69

同被引文献122

引证文献11

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于生成对抗网络和变分自编码器的离群点检测算法被引量：11