基于逆k近邻计数和权值剪枝的离群数据挖掘算法被引量：10

Outlier Mining Algorithm Based on Reverse K Nearset Neighbor Counting and Weight Pruning

下载PDF

导出

摘要利用逆k近邻计数与k近邻距离均值相结合的方式,给出了一种无监督离群数据挖掘算法.该算法以k近邻对象集合、k近邻对象距离作为前提条件,首先计算数据集中对象的逆k近邻计数,求得每个对象的antihub分数;其次,根据k近邻距离得到每个对象KNN的antihub分数和权值,将权值大于等于1的对象保存在离群对象候选集List中;然后根据antihub分数以及k近邻距离均值,重新定义了离群分数公式,选取离群分数最大的若干个对象作为离群对象;最后,采用人工数据集和UCI标准数据集,实验验证了该算法的有效性. In this paper,an unsupervised outlier data mining algorithm is proposed by combining reverse k nearest neighbor counting with k nearest neighbor distance mean. In this algorithm,k nearest neighbor objects set and distance of k nearest neighbor objects are taken as the precondition,and reverse k nearest neighbor counts of all objects in the dataset are first calculated,and antihub fraction of each object is obtained. Secondly,according to the k nearest neighbor distance,the antihub score and weight of the KNN of each object are obtained,and the objects whose weight is greater than or equal to 1 are saved in the outlier candidate set List. Then according to the antihub score and the k nearest neighbor distance mean,the outlier fraction formula is redefined,and some objects with the highest outlier score are selected as outliers. In the end,artificial data sets and UCI data sets are used to validate the effectiveness of the algorithm.

作者朱云丽张继福 ZHU Yun-li;ZHANG Ji-fu(School of Computer Science and Technology, Taiyuan University of Science and Technology, Taiyuan 030024, China)

机构地区太原科技大学计算机科学与技术学院

出处《小型微型计算机系统》 CSCD 北大核心 2019年第8期1627-1632,共6页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(61572343)资助

关键词离群挖掘逆k近邻 k近邻距离权值剪枝 antihub分数 outlier mining reverse k nearest neighbor k nearest neighbor distance weight pruning antihub score

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1张继福,蒋义勇,胡立华,蔡江辉,张素兰.基于概念格的天体光谱离群数据识别方法[J].自动化学报,2008,34(9):1060-1066. 被引量：24
2张继福,李永红,秦啸,荀亚玲.基于MapReduce与相关子空间的局部离群数据挖掘算法[J].软件学报,2015,26(5):1079-1095. 被引量：41
3娄圣金,张继福,刘爱琴.一种基于p权值的离群数据挖掘算法[J].小型微型计算机系统,2014,35(1):55-59. 被引量：6
4郭峰,张继福.一种基于枢纽现象和加权离群分数的离群数据挖掘算法[J].小型微型计算机系统,2018,39(10):2248-2253. 被引量：6

二级参考文献17

1刘中田,李乡儒,吴福朝,赵永恒.基于小波特征的M型星自动识别方法[J].电子学报,2007,35(1):157-160. 被引量：11
2张继福,蔡江辉.面向LAMOST的天体光谱离群数据挖掘系统研究[J].光谱学与光谱分析,2007,27(3):606-609. 被引量：6
3蒋义勇,张继福,张素兰.基于链表结构的概念格渐进式构造[J].计算机工程与应用,2007,43(11):178-180. 被引量：11
4Knorr E M, Ng R T. Algorithms formining distance-based outliers in large datasets. In: Proceedings of the 24th International Conference on Very Large Data Bases. San Francisco, USA: Morgan Kaufmann Publishers, 1998. 392-403.
5Han J W, Kamber M. Data Mining Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2001.
6Barnett V, Lewis T. Outliers in Statistical Data. New York: John Wiley-Sons, 1994.
7Arning A, Agrawal R, Rghavan P. A linear method for deviation detection in large database. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining. Portlan, Oregon: Morgan Kaufmann Publishers. 1996. 164-169.
8Breunig M M, Kriegel H P, Ng R T, Sander J. LOF: identifying density-based local outliers. ACM Special Interest Group on Management of Data Record, 2000, 29(2): 93-104.
9Agarwal C, Yu S. An effective and efficient algorithm for high-dimensional outlier detection. The International Journal on Very Large Data Bases, 2005, 14(2): 211-221.
10Wille R. Restructuring lattice theory: an approach based on hierarchies of concepts. Ordered Sets, 1982, 11(5): 445-470.

共引文献64

1李宗福,李阳,李昂,陈康.基于Hadoop与机器学习的舆情分析与应用[J].计算机应用研究,2020,37(S01):43-46. 被引量：1
2马洋,张继福,张素兰.基于剪枝的约束概念格的渐进式构造算法[J].计算机应用,2009,29(5):1397-1400. 被引量：2
3张继福,赵旭俊.一种基于约束FP树的天体光谱数据相关性分析方法[J].模式识别与人工智能,2009,22(4):639-646. 被引量：5
4张贺,蔡江辉,张继福,乔衎.信息熵度量的离群数据挖掘算法[J].智能系统学报,2010,5(2):150-155. 被引量：7
5张继福,张素兰,蒋义勇.约束概念格的代数性质及其知识表示的完备性[J].模式识别与人工智能,2010,23(3):289-299. 被引量：6
6胡立华,张继福,张素兰.一种基于剪枝的横向分块概念格构造算法[J].小型微型计算机系统,2011,32(7):1394-1399. 被引量：4
7刘爱琴,葛凌云,杨海峰,张继福.利用子空间划分的局部离群数据挖掘算法[J].小型微型计算机系统,2011,32(8):1628-1632. 被引量：4
8王磊,张继福.基于属性相关分析的离群数据并行挖掘算法[J].太原科技大学学报,2011,32(5):364-369. 被引量：2
9蔡江辉,孟文俊,孙士卫,赵旭俊,张继福.基于信息熵的变星光谱快速识别方法[J].光谱学与光谱分析,2012,32(1):255-258. 被引量：2
10李乡儒.光谱数据挖掘中的特征提取方法[J].天文学进展,2012,30(1):94-105. 被引量：5

同被引文献107

1马少沛,孙庆慧,武雅萱,田茂再.大数据下张量充分降维方法及其应用研究[J].统计研究,2021,38(2):114-134. 被引量：4
2倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的数据流离群点检测算法[J].计算机研究与发展,2006,43(9):1639-1643. 被引量：20
3曾颖,罗可,邹瑞芝.基于K-均值聚类和凝聚聚类的离群点查找方法[J].计算机工程与应用,2009,45(29):131-133. 被引量：9
4谭俊璐,武建华.基于决策树规则的分类算法研究[J].计算机工程与设计,2010,31(5):1017-1019. 被引量：25
5张月琴.滑动窗口中数据流频繁项集挖掘方法[J].计算机工程与应用,2010,46(16):132-134. 被引量：8
6陶道强,马良荔,彭超.基于分类矩阵的决策树算法[J].计算机工程与设计,2012,33(6):2309-2313. 被引量：5
7古平,刘海波,罗志恒.一种基于多重聚类的离群点检测算法[J].计算机应用研究,2013,30(3):751-753. 被引量：21
8樊雷松,强彦,赵涓涓,胡洋洋,格磊.无线传感网中基于BP神经网络的数据融合方法[J].计算机工程与设计,2014,35(1):62-66. 被引量：26
9潘淼鑫,林甲祥,陈崇成,叶晓燕.基于C-SOM和Spark的并行空间离群挖掘方法及应用[J].地球信息科学学报,2019,21(1):128-136. 被引量：4
10沈翔,杨洪耕,段晨.基于灰靶理论与云模型的电压暂降事件数据挖掘分析方法[J].电网技术,2019,43(2):722-730. 被引量：22

引证文献10

1周玉,朱文豪,房倩,白磊.基于聚类的离群点检测方法研究综述[J].计算机工程与应用,2021,57(12):37-45. 被引量：26
2唐伟宁,刘颖,于旭,董冠良.基于离群数据挖掘的低压窃电行为辨识方法研究[J].电子设计工程,2021,29(23):56-59. 被引量：5
3程雅琼.基于双区块链结构的高维光谱离群数据挖掘[J].电脑知识与技术,2022,18(15):17-18. 被引量：1
4宫帅,宋善坤.多维关联规则的分布式能源系统数据挖掘方法研究[J].能源与环保,2022,44(10):278-283. 被引量：3
5刘利民,张勇.多标签隐性知识显性化下的数据挖掘算法[J].计算机仿真,2023,40(4):504-508. 被引量：2
6连铎,刘博生,吴亚兰,武继刚.KNMC:基于近内存计算的k-NN和k-means加速器设计[J].小型微型计算机系统,2023,44(7):1405-1411.
7李军.基于关联规则的工业控制系统运维数据挖掘方法[J].微型电脑应用,2023,39(9):167-170.
8付海芳.基于数据挖掘的体育运动强度信息采集方法[J].信息技术,2023,47(9):114-118.
9李爱国,苏越,雷鲁飞,陈博.优化的ID3算法在多传感器安防系统中的应用[J].计算机仿真,2024,41(1):355-359. 被引量：1
10孟涛,王晓勇,胡胜利.基于改进遗传算法和DBSCAN聚类的学习数据深度挖掘方法[J].齐齐哈尔大学学报（自然科学版）,2024,40(1):45-50. 被引量：2

二级引证文献40

1李伟,祁海峰,郑骥,陶光灿.舆情传播主体关系相关性分析[J].传媒论坛,2021,4(22):1-3.
2程雅琼.基于双区块链结构的高维光谱离群数据挖掘[J].电脑知识与技术,2022,18(15):17-18. 被引量：1
3周玉,朱文豪,孙红玉.一种基于目标函数的局部离群点检测方法[J].东北大学学报（自然科学版）,2022,43(10):1405-1412. 被引量：7
4刘财辉,刘地金.离群点检测的邻近性方法综述[J].计算机工程与应用,2022,58(21):1-12. 被引量：8
5杭震,彭浩,曹文卓,王化明.船闸浮式系船柱运行状态检测方法研究[J].机电工程技术,2022,51(12):156-159. 被引量：4
6郭飞,吴佳静,周怡,高利燕,麦晓庆.考虑气象因素的台区线损异常智能识别模型及应用[J].宁夏电力,2022(6):26-32.
7曾建邦,张月娅,张壮,单丰武,沈祖英,刘星.基于动态k值K-means++聚类的电动汽车动力电池电压不一致故障识别方法[J].中国科学：技术科学,2023,53(1):28-40. 被引量：13
8赵圆圆,李慧,于雅智.学生在线学习行为与课程成绩的关系研究[J].石家庄职业技术学院学报,2022,34(6):1-8. 被引量：1
9叶晟,吴晓朝.基于网格划分和LLE的高维数据离群点自适应检测方法[J].湖南科技大学学报（自然科学版）,2023,38(1):85-91. 被引量：3
10黄强,叶青,聂斌,朱彦陈,郭永坤.一种自动聚类的离群点识别方法研究[J].现代信息科技,2023,7(7):6-10.

1冯立伟,张成,谢彦红,李元,逄玉俊.基于SP-LNS-KNN的半导体生产过程故障检测方法研究[J].计算机应用研究,2018,35(11):3307-3310. 被引量：4
2郭小萍,刘诗洋,李元.基于稀疏残差距离的多工况过程故障检测方法研究[J].自动化学报,2019,45(3):617-625. 被引量：21
3郭峰,张继福.一种基于枢纽现象和加权离群分数的离群数据挖掘算法[J].小型微型计算机系统,2018,39(10):2248-2253. 被引量：6
4李俊丽,张继福.基于属性聚类的离群数据挖掘算法[J].中北大学学报（自然科学版）,2018,39(3):310-315. 被引量：3
5樊盼盼,张继福.高斯混合模型下的相关子空间与离群数据挖掘[J].小型微型计算机系统,2018,39(11):2491-2496. 被引量：5
6李俊丽.基于Spark平台的离群数据并行挖掘算法[J].计算机与数字工程,2018,46(11):2175-2178. 被引量：2
7赵晓永,赵熙岑.企业关联交易图的离群点挖掘研究[J].北京信息科技大学学报（自然科学版）,2019,34(2):9-13.
8万月,陈秀宏,何佳佳.基于加权密度的自适应谱聚类算法[J].计算机工程与科学,2018,40(10):1897-1901. 被引量：5
9石苏芮.培植贫困人群的人生花园[J].中国社会工作,2019,0(13):42-43.
10陈玉洪,张清华,杨洁.基于区间阴影集的密度峰值聚类算法[J].模式识别与人工智能,2019,32(6):531-544. 被引量：6

小型微型计算机系统

2019年第8期

浏览历史

内容加载中请稍等...

基于逆k近邻计数和权值剪枝的离群数据挖掘算法被引量：10

参考文献4

二级参考文献17

共引文献64

同被引文献107

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于逆k近邻计数和权值剪枝的离群数据挖掘算法 被引量：10

参考文献4

二级参考文献17

共引文献64

同被引文献107

引证文献10

二级引证文献40

相关作者

相关机构

相关主题

浏览历史

基于逆k近邻计数和权值剪枝的离群数据挖掘算法被引量：10