一种基于k近邻图的稀有类检测算法被引量：1

Rare Category Detection Algorithm Based on k-Nearest Neighbor Graphs

下载PDF

导出

摘要稀有类检测的目标是为无类别标签的数据集中的每个类,特别是仅含少量数据样本的稀有类,寻找到至少一个数据样本以证明数据集中存在这些类.该技术在金融欺诈检测及网络入侵检测等现实问题中具有广泛的应用场景.但是,现有的稀有类检测算法往往存在以下问题:(1)时间复杂度比较高;或(2)对原始数据集需要一定的先验知识,如数据集中各类数据样本所占比例等.提出了一种基于k邻近图的无先验快速稀有类检测算法KRED,通过利用稀有类数据样本在小范围内紧密分布所造成的与周边数据分布的不一致性来定位稀有类.为此,KRED将给定数据集转化为k邻近图,并计算图中各顶点入度和边长的变化.最后,将以上变化最大的顶点对应的数据样本作为稀有类的候选样本.实验结果表明:KRED有效提高了发现数据集中各个类的效率,明显缩短了算法运行所需时间. Rare category detection aims at finding at least one data example for each class in an unlabeled data set to prove the existence of these classes, especially the rare classes （a.k.a. rare categories） that have only a few data examples. It has various applications in the fields like financial fraud detection and network intrusion detection. Nevertheless, the existing approaches to this problem suffer either in terms of time complexity or the requirements for prior information about data sets （e.g., the proportion of data examples in each class）. In this paper, a prior-free and efficient algorithm, called KRED is proposed for rare category detection. The algorithm explores the changes on local data distribution caused by the presence of the compact clusters of rare classes. To this end, it transforms a data set into a k-nearest neighbor graph, and investigates the variations in both edge lengths and in-degrees between the nodes. Finally, nodes with the maximal variations are selected as the candidate data examples of rare classes. Experimental results show that KRED effectively improves the efficiency of discovering new classes in data sets, and notably reduces the execution time.

作者王淞黄浩余果梁楠王黎维孙月明

机构地区武汉大学计算机学院武汉大学中南医院武汉大学国际软件学院

出处《软件学报》 EI CSCD 北大核心 2016年第9期2320-2331,共12页 Journal of Software

基金国家自然科学基金(61502347 61272275 61202033 61070013 U1135005) 中央高校基本科研业务费专项资金(2042015kf0038) 武汉大学人才计划/引进人才科研启动经费~~

关键词稀有类检测 k邻近图数据分布变化系数入度 rare category detection k-nearest neighbor graph data distribution variation coefficient in-degree

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献21

1Pelleg D, Moore A. Active learning for anomaly and rare-category detection. In: Proc. of the NIPS 2004. 2004. 1073-1080. http://papers.tiips.cc/paper/2554-active-learning-for-anomaly-and-rare-category-detection.pdf.
2Huang H, He QM, He JF, Ma LH. RADAR: Rare category detection via computation of boundary degree. In: Proc. of the PAKDD 2011.2011.258-269. [doi: 10.1007/978-3-642-20847-8_22].
3He JR, Carbonell J. Nearest-Neighbor-Based active learning for rare category detection. In: Proc. of the NIPS 2007. 2007. 633-640. http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2007_51.pdf.
4He JR, Liu Y, Lawrence R. Graph-Based rare category detection. In: Proc. of the ICDM 2008. 2008. 833-838. [doi: 10.1109/ICDM. 2008.122].
5He JR, Carbonell J. Prior-Free rare category detection. In: Proc. of the SDM 2009. 2009. 155-163. [doi: 10.1137/1. 978161197279 5.14].
6He JR, Tong HH, Carbonell J. Rare category characterization. In: Proc. of the ICDM 2010. 2010. 226-235. [doi: 10.1109/ICDM. 2010.154].
7Vatturi P, Wong WK. Category detection using hierarchical mean shift. In: Proc. of the KDD 2009. 2009. 847-856. [doi; 10.1145/ 1557019.1557112].
8Huang H, He QM, He JF, Ma LH. CLOVER: A faster prior-free approach to rare-category detection. Knowledge and InformationSystems, 2013,35(3):713-736. [doi: 10.1007/sl0115-012-0530-9].
9Huang H, Wang SP, Ma LH. An enhanced category detection based on active learning. In: Proc. of the ISKE 2010. 2010. 224-227. [doi: 10.1109/ISKE.2010.5680880].
10Blum A, Mitchell T. Combining labeled and unlabeled data with co-train. In: Proc. of the COLT ’98. 1998. 92—100. [doi: 10.1145/ 279943.279962].

二级参考文献3

1薛安荣,鞠时光,何伟华,陈伟鹤.局部离群点挖掘算法研究[J].计算机学报,2007,30(8):1455-1463. 被引量：96
2邓超,郭茂祖.基于Tri-Training和数据剪辑的半监督聚类算法[J].软件学报,2008,19(3):663-673. 被引量：30
3薛丽香,邱保志.基于变异系数的边界点检测算法[J].模式识别与人工智能,2009,22(5):799-802. 被引量：20

共引文献5

1职为梅,郭华平,范明.抽样技术和CBES分类非平衡数据集[J].计算机科学,2013,40(12):70-74.
2严宣辉,郭躬德.基于簇间分离性的稀有类识别算法[J].模式识别与人工智能,2014,27(6):502-508.
3郭华平,董亚东,邬长安,范明.面向类不平衡的逻辑回归方法[J].模式识别与人工智能,2015,28(8):686-693. 被引量：10
4周晓敏,曹付元,余丽琴.一种基于样本分层的双向过采样方法[J].计算机科学,2019,46(12):83-88. 被引量：4
5何云斌,冷欣,万静.不平衡数据加权边界点集成欠采样方法[J].西安电子科技大学学报,2021,48(4):176-183.

同被引文献6

1杨静,高嘉伟,梁吉业,刘杨磊.基于数据场的改进DBSCAN聚类算法[J].计算机科学与探索,2012,6(10):903-911. 被引量：21
2冯骥,冉瑞生,魏延.基于自然邻居邻域图的无参数离群检测算法[J].智能系统学报,2019,14(5):998-1006. 被引量：6
3王巧玲,乔非,蒋友好.基于聚合距离参数的改进K-means算法[J].计算机应用,2019,39(9):2586-2590. 被引量：26
4刘静姝,王莉,刘惊雷.无需特征分解的快速谱聚类算法[J].计算机应用,2020,40(12):3413-3422. 被引量：2
5白璐,赵鑫,孔钰婷,张正航,邵金鑫,钱育蓉.谱聚类算法研究综述[J].计算机工程与应用,2021,57(14):15-26. 被引量：26
6张朋,李小林,王李妍.基于DBSCAN的动态邻域密度聚类算法[J].计算机科学,2023,50(S01):599-605. 被引量：7

引证文献1

1徐童童,解滨,张春昊,张喜梅.融合转移概率矩阵的多阶最近邻图聚类算法[J].计算机应用,2024,44(5):1527-1538.

1王凌云,张正伟.无线传感器网络功率控制技术的研究[J].河南科学,2009,27(1):74-76.
2罗会兰,杜芳芳,孔繁胜.像素点特征加权的尺度自适应跟踪算法[J].通信学报,2015,36(10):200-210. 被引量：3
3路纲,周明天,牛新征,佘堃,唐勇,秦科.无线网络邻近图综述[J].软件学报,2008,19(4):888-911. 被引量：46
4徐华,涂亚庆,肖玮,郭斌,许桂兵.传感器网络中基于LQI均值的功率控制方法[J].后勤工程学院学报,2009,25(2):56-59. 被引量：1
5李宗岳,陈志军,李名远.基于混沌扰动策略的果蝇优化算法[J].微电子学与计算机,2016,33(7):64-68. 被引量：7
6张田,周翔凤,王希常.一种利用图进行图像分割的高效方法[J].山东师范大学学报（自然科学版）,2008,23(2):10-13. 被引量：2
7黄浩,何钦铭,陈奇,钱烽,何江峰,马连航.基于加权边界度的稀有类检测算法[J].软件学报,2012,23(5):1195-1206. 被引量：6
8何小诚,黄凯,谭毅华,田金文.基于Mean Shift的自适应尺度变化跟踪算法研究[J].微电子学与计算机,2010,27(4):69-74. 被引量：6
9吴寿昆,郭玉堂.基于Voronoi K阶邻近图的半监督学习自动图像标注[J].计算机应用与软件,2016,33(12):183-187. 被引量：2
10李志华,卢昭,薛亮,黎作鹏,赵继军.基于马尔可夫链的传感器网络空间相关性数据预测算法[J].计算机应用研究,2016,33(9):2747-2750. 被引量：3

软件学报

2016年第9期

浏览历史

内容加载中请稍等...

一种基于k近邻图的稀有类检测算法被引量：1

参考文献21

二级参考文献3

共引文献5

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于k近邻图的稀有类检测算法 被引量：1

参考文献21

二级参考文献3

共引文献5

同被引文献6

引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于k近邻图的稀有类检测算法被引量：1