基于快速密度峰值聚类离群因子的离群点检测算法被引量：4

Outlier detection algorithm based on fast density peak clustering outlier factor

下载PDF

导出

摘要针对密度峰值聚类算法需要人工设置参数、时间复杂度高的问题,提出了基于快速密度峰值聚类离群因子的离群点检测算法。首先,使用k近邻算法代替密度峰值聚类中的密度估计,采用KD-Tree索引数据结构计算数据对象的k近邻;然后,采用密度和距离乘积的方式自动选取聚类中心。此外,定义了向心相对距离、快速密度峰值聚类离群因子来刻画数据对象的离群程度。在人工数据集和真实数据集上对所提算法进行实验验证,并与一些经典和新颖的算法进行对比实验,从正确性和时间效率上验证了所提算法的有效性。 For the problem that peak density clustering algorithm requires human set parameters and high time complexity,an outlier detection algorithm based on fast density peak clustering outlier factor was proposed.Firstly,k nearest neighbors algorithm was used to replace the density peak of density estimate,which adopted the KD-Tree index data structure calculation of k close neighbors of data objects,and then the way of the product of density and distance was adopted to automatic selection of clustering centers.In addition,the centripetal relative distance and fast density peak clustering outliers were defined to describe the degree of outliers of data objects.Experiments on artificial data sets and real data sets were carried out to verify the algorithm,and compared with some classical and novel algorithms.The validity and time efficiency of the proposed algorithm are verified.

作者张忠平李森刘伟雄刘书霞 ZHANG Zhongping;LI Sen;LIU Weixiong;LIU Shuxia(College of Information Science and Engineering,Yanshan University,Qinhuangdao 066004,China;The Key Laboratory for Computer Virtual Technology and System Integration of Hebei Province,Qinhuangdao 066004,China;The Key Laboratory of Software Engineering of Hebei Province,Qinhuangdao 066004,China;Hebei Normal University of Science and Technology,Qinhuangdao 066004,China)

机构地区燕山大学信息科学与工程学院河北省计算机虚拟技术与系统集成重点实验室河北省软件工程重点实验室河北科技师范学院

出处《通信学报》 EI CSCD 北大核心 2022年第10期186-195,共10页 Journal on Communications

基金国家自然科学基金资助项目(No.61972334) 国家社会科学基金资助项目(No.20BJ122) 河北省创新能力提升计划基金资助项目(No.20557640D) 四达铁路智能图像工件识别基金资助项目(No.x2021134)。

关键词数据挖掘密度峰值聚类离群点 K近邻向心相对距离 data mining density peak clustering outlier k nearest neighbor centripetal relative distance

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献2

1季一木,杨卫东,李奎,刘尚东,刘强,邵思思,尤帅,黄乃娇.基于主机系统调用频率的容器入侵检测方法[J].网络与信息安全学报,2021,7(4):18-29. 被引量：3
2杨晓晖,刘晓明.基于双向邻居修正的局部异常因子算法[J].通信学报,2020,41(8):130-140. 被引量：4

二级参考文献6

1丁兆云,周斌,贾焰,汪祥.微博中基于统计特征与双向投票的垃圾用户发现[J].计算机研究与发展,2013,50(11):2336-2348. 被引量：11
2董玲,张宏莉,叶麟.基于系统调用序列分析入侵检测的层次化模型[J].智能计算机与应用,2014,4(4):13-16. 被引量：4
3张东,张尧,刘刚,宋桂香.基于机器学习算法的主机恶意代码检测技术研究[J].网络与信息安全学报,2017,3(7):25-32. 被引量：8
4杨加,李笑难,张扬,马皓,张蓓.基于大数据分析的校园电子邮件异常行为检测技术研究[J].通信学报,2018,39(A01):116-123. 被引量：11
5琚安康,郭渊博,李涛,叶子维.基于网络通信异常识别的多步攻击检测方法[J].通信学报,2019,40(7):57-66. 被引量：19
6周天昱,申文博,杨男子,李金库,秦承刚,喻望.Docker组件间标准输入输出复制的DoS攻击分析[J].网络与信息安全学报,2020,6(6):45-56. 被引量：1

共引文献5

1张忠平,刘伟雄,张玉停,邓禹,魏棉鑫.ERDOF:基于相对熵权密度离群因子的离群点检测算法[J].通信学报,2021,42(9):133-143. 被引量：8
2张利剑,陈晋鹏.基于扩展Jarvis-Patrick聚类的异常检测算法优化及检测仿真[J].电子设计工程,2022,30(13):100-104. 被引量：1
3罗汉新,王金双.Docker容器安全风险和防御综述[J].信息安全与通信保密,2022(8):83-93. 被引量：2
4郭越.基于改进CNN的工业控制网络入侵检测研究[J].机械设计与制造工程,2023,52(6):103-108. 被引量：1
5张钰玲,彭丽徽,张艳丰,欧志梅.基于专利数据挖掘的我国智慧应急关联技术识别与发展趋势研究[J].情报科学,2023,41(8):139-146. 被引量：2

同被引文献39

1徐永海,赵燕.基于短时傅里叶变换的电能质量扰动识别与采用奇异值分解的扰动时间定位[J].电网技术,2011,35(8):174-180. 被引量：102
2甄晓晨,陶顺,肖湘宁,周双亚.电压暂降的工厂级经济损失评估模型研究[J].电力系统保护与控制,2013,41(12):104-111. 被引量：49
3李春敏,肖先勇,张逸,马愿谦.工业用户电压暂降损失风险的模糊综合评估[J].电力系统及其自动化学报,2018,30(9):50-56. 被引量：9
4Huangjian WU,Xiao TANG,Zifa WANG,Lin WU,Miaomiao LU,Lianfang WEI,Jiang ZHU.Probabilistic Automatic Outlier Detection for Surface Air Quality Measurements from the China National Environmental Monitoring Network[J].Advances in Atmospheric Sciences,2018,35(12):1522-1532. 被引量：12
5李旭翔,李华强,阚力丰,王静雯,白宏坤,李文峰,王阳明.营业中断保险在电压暂降风险处理中的应用[J].中国电机工程学报,2019,39(6):1637-1646. 被引量：7
6胡文曦,肖先勇,金耘岭,姚东方.电压暂降波形数据分析法及其在监测系统中的应用[J].电网技术,2019,43(11):4193-4199. 被引量：18
7杨晓玲,冯山,袁钟.基于相对距离的反k近邻树离群点检测[J].电子学报,2020,48(5):937-945. 被引量：12
8何函洋,肖先勇,李成鑫,张华赢.敏感用户电压暂降损失风险评估的模糊推理模型[J].中国电机工程学报,2020,40(20):6527-6535. 被引量：16
9周玉,朱文豪,房倩,白磊.基于聚类的离群点检测方法研究综述[J].计算机工程与应用,2021,57(12):37-45. 被引量：26
10俞学豪,赵子岩,马应龙,郑蓉蓉,郗子月,马超.基于BR和GBDT的电力信息通信客服系统多标签文本分类[J].电力系统自动化,2021,45(11):144-151. 被引量：22

引证文献4

1周玉,夏浩,裴泽宣.改进DPC聚类算法的离群点检测与解释方法[J].哈尔滨工业大学学报,2024,56(8):68-85.
2肖先勇,肖宇,汪颖.基于用户生产场景辨识的电压暂降经济损失评估[J].电网技术,2024,48(8):3427-3437.
3王彩霞,陶健,舒升.基于机器学习的聚类序列离群点数据挖掘算法[J].通化师范学院学报,2024,45(8):28-34.
4曹霞,郑爱宇,郝静.基于自适应距离的离群点检测算法[J].计算机技术与发展,2024,34(9):138-146.

1周玉,朱文豪,孙红玉.一种基于目标函数的局部离群点检测方法[J].东北大学学报（自然科学版）,2022,43(10):1405-1412. 被引量：7
2丁同,傅晓锦,刘明旺.基于GA-VMD-BiLSTM算法的风电功率预测[J].扬州大学学报（自然科学版）,2022,25(4):44-49. 被引量：5
3陆妙芳,杨有龙.基于密度峰值聚类和径向基函数的过采样算法[J].计算机工程与应用,2022,58(21):67-74. 被引量：1
4张玉婷,冯山.一种基于邻域近似精度的离群点检测方法[J].数据采集与处理,2022,37(5):1018-1025. 被引量：5
5张正文,邓薇,廖桂生,巩朋成,王兆彬.一种改进的道路行车密度峰值模糊聚类算法[J].雷达科学与技术,2022,20(5):578-588.
6刘今越,张港,贾晓辉,郭皓天,李铁军.基于曲率阈值的点云配准方法研究[J].激光与光电子学进展,2022,59(18):456-462. 被引量：7
7袁彦辉,沈振中,黄维.基于MicroStation的结构有限元分析接口构建[J].科技通报,2022,38(5):43-51.
8梁靖涵,许亚杰.基于机器学习算法的心脏病预测诊断模型研究[J].现代信息科技,2022,6(19):67-70. 被引量：2
9李蛟,王紫薇,范丽丽,赵宏伟.针对苹果树叶病害图像分类的小样本学习方法[J].吉林大学学报（理学版）,2022,60(4):906-910. 被引量：2
10周慷,高林飞,陆惠惠.基于局部离群点的低压台区线损异常检测[J].自动化与仪器仪表,2022(8):76-79. 被引量：7

通信学报

2022年第10期

浏览历史

内容加载中请稍等...

基于快速密度峰值聚类离群因子的离群点检测算法被引量：4

参考文献2

二级参考文献6

共引文献5

同被引文献39

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于快速密度峰值聚类离群因子的离群点检测算法 被引量：4

参考文献2

二级参考文献6

共引文献5

同被引文献39

引证文献4

相关作者

相关机构

相关主题

浏览历史

基于快速密度峰值聚类离群因子的离群点检测算法被引量：4