基于局部密度离群点检测k-means算法被引量：4

The k-means Algorithm Based on Local Density Outlier Detection

下载PDF

导出

摘要针对数据集的聚类过程容易受到离群值的影响这一问题,提出了局部密度离群值检测k-means算法,即先对数据集使用局部密度离群值检测方法检测离群值,先把离群值去除,再进行k-means聚类,算法的有效性通过Davies-Bouldin指标(DB)、Dunn指标和Silhouette指标进行评价,在人工生成的数据集与UCI数据集上验证,去除离群值,再使用k-means算法得到的聚类结果相比原始数据集进行k-means算法聚类结果较好,并且用在疫情数据分析上,对安徽省、北京市、福建省、广东省等24个省、市、自治区2020年2月18日新型冠状病毒肺炎确诊人数进行聚类分析,得到的去除离群值在使用k-means算法相比原始数据集进行k-means算法聚类结果较好,该结果能帮助更好地在实际中怎么去做决策以及更好地降低经济损失。 In view of that the clustering process of data set is easily affected by outliers,the local density outlier detection k-means algorithm is proposed.The proposed method firstly detects the outliers of the data set by using local density outlier detection method,removes the outliers at first and then conducts k-means clustering.The validity of the algorithm is evaluated by Davies-Bouldin index,Dunn index and Silhouette index and is verified by artificial data set and UCI data set,and the outliers are removed.The obtained clustering results by using k-means algorithm are better than original data set k-means algorithm clustering results,this method is used for COVID-19 epidemic data analysis and the clustering analysis of the method is conducted on the confirmed infected number of COVID-19 in 24 provinces,municipalities and autonomous regions such as Anhui,Beijing,Fujian,Guangdong and so on on February 18,2020.The clustering results using k-means algorithm by removing outliers are better than the clustering results of original data set using k-means algorithm,and the results can be conducive to how to make decision in practical work and better reduce economic cost.

作者刘凤戴家佳胡阳 LIU Feng;DAI Jia-jia;HU Yang(School of Mathematics and Statistics, Guizhou University, Guiyang 550025, China)

机构地区贵州大学数学与统计学院

出处《重庆工商大学学报（自然科学版）》 2021年第4期30-35,共6页 Journal of Chongqing Technology and Business University:Natural Science Edition

基金贵州省数据驱动建模学习与优化创新团队(黔科合平台人才〔2020〕5016).

关键词 K-MEANS 离群点 LOF 评价指标 k-means outliers LOF evaluation index

分类号 O212.4 [理学—概率论与数理统计]

引文网络
相关文献

参考文献1

1程明畅,刘友波,张程嘉,马铁丰.基于分位数半径的动态K-means算法[J].南京大学学报（自然科学版）,2018,54(1):48-55. 被引量：5

二级参考文献2

1苏锦旗,薛惠锋,詹海亮.基于划分的K-均值初始聚类中心优化算法[J].微电子学与计算机,2009,26(1):8-11. 被引量：33
2金建国.聚类方法综述[J].计算机科学,2014,41(B11):288-293. 被引量：77

共引文献4

1陆慎涛,葛洪伟,周竞.自动确定聚类中心的移动时间势能聚类算法[J].南京大学学报（自然科学版）,2019,55(1):143-153.
2刘季昂,刘友波,程明畅,余莉娜.基于分位数半径动态K-means的分布式负荷聚类算法[J].电力系统保护与控制,2019,47(24):15-22. 被引量：27
3林红阳,杜翼,刘林,易杨,蔡菁,马汉斌.基于动态层次K-Modes的电网数据聚类分析[J].四川电力技术,2019,42(6):30-35.
4吴礼福,姬广慎,胡秋岑.强混响环境下基于K⁃medoids特征聚类的话者计数[J].南京大学学报（自然科学版）,2021,57(5):875-880.

同被引文献59

1许苗村,蒋先刚.基于均值聚类的银行客户信用关系分析[J].华东交通大学学报,2008,25(6):55-58. 被引量：4
2江峰,杜军威,眭跃飞,曹存根.基于边界和距离的离群点检测[J].电子学报,2010,38(3):700-705. 被引量：23
3黄添强,李凯,郭躬德.基于局部相关维度的流形离群点检测算法[J].模式识别与人工智能,2011,24(5):629-636. 被引量：3
4冷泳林,张清辰,赵亮,鲁富宇.基于离群点检测的K-means算法[J].渤海大学学报（自然科学版）,2014,35(1):34-38. 被引量：3
5孟子健,马江洪.一种可选初始聚类中心的改进k均值算法[J].统计与决策,2014,30(12):12-14. 被引量：18
6王敬华,金鹏.基于粗约简和网格的离群点检测[J].计算机工程与应用,2015,51(3):133-137. 被引量：10
7洪沙,林佳丽,张月良.基于密度的不确定数据离群点检测研究[J].计算机科学,2015,42(5):230-233. 被引量：6
8贾瑞玉,宋建林.基于聚类中心优化的k-means最佳聚类数确定方法[J].微电子学与计算机,2016,33(5):62-66. 被引量：27
9蔡宇浩,梁永全,樊建聪,李璇,刘文华.加权局部方差优化初始簇中心的K-means算法[J].计算机科学与探索,2016,10(5):732-741. 被引量：11
10胡林,方胜勇,黄晶,陈强.基于逻辑回归的二轮车-汽车碰撞事故深度分析[J].汽车工程,2016,38(11):1288-1293. 被引量：12

引证文献4

1任立海,夏环,蒋成约,范体强,赵清江.基于交通事故数据的自动紧急制动系统测试场景构建[J].科学技术与工程,2022,22(24):10737-10747. 被引量：5
2王森,刘琛,邢帅杰.K-means聚类算法研究综述[J].华东交通大学学报,2022,39(5):119-126. 被引量：29
3刘财辉,刘地金.离群点检测的邻近性方法综述[J].计算机工程与应用,2022,58(21):1-12. 被引量：7
4周子安,薛欢欢,杨雨潇,李旭东.基于K-Means聚类模糊算法的学生特征聚类研究[J].计算机科学与应用,2023,13(6):1179-1187.

二级引证文献41

1景荣荣,吴兰,张坤鹏.基于生成对抗网络的自动驾驶交通场景生成[J].电子测量技术,2023,46(14):146-154. 被引量：1
2张再杰,杨伟芳.湖北省农业碳排放及基于K-means聚类算法的县级碳排放研究[J].云南农业大学学报（社会科学版）,2023,17(2):134-140. 被引量：1
3莫康信,苏佳佳,林嘉良,梁晓鑫.基于红外热图像的光伏组件缺陷检测系统研究[J].造纸装备及材料,2022,51(12):99-101. 被引量：2
4邓明洋,李长征,杨浩.基于频域特征变分自编码器的轴承故障诊断研究[J].计算机测量与控制,2023,31(4):70-75. 被引量：1
5胡越宁,赵丹.基于事故序列的自动驾驶汽车事故场景提取与分析[J].科学技术与工程,2023,23(11):4908-4916. 被引量：1
6王静,蒋萌.基于数据挖掘的校园大数据可视化分析系统设计[J].自动化与仪器仪表,2023(4):106-111. 被引量：2
7李冀,赵成,羡慧竹,步志文,刘恒,王立永,王钰淇,朱鹏程.基于k均值聚类算法的用电数据行为分析[J].电子技术（上海）,2023,52(4):319-321. 被引量：1
8蔡玉婷,鄢春根,刘昕伟,张倩,王慧.专利聚类视角下高校技术创新热点研究——基于江西省12所高校新材料技术的分析[J].中国发明与专利,2023,20(6):38-46.
9海霞,孙壬辛.机器学习算法在频率调度优化中的应用[J].广播与电视技术,2023,50(5):103-105.
10姚蒙,何鹏程.K-means算法的初始值选取问题的研究[J].福建电脑,2023,39(7):57-61.

1杨耿杰,许晔,高伟,洪翠,郭谋发.基于能量谱相似度自适应聚类的配电网接地故障区段定位方法[J].电力自动化设备,2021,41(3):25-32. 被引量：20
2Yongjun Wang,Claiborne Johnston,Philip M Bath,Xia Meng,Jing Jing,Xuewei Xie,Anxin Wang,Yuesong Pan,Anding Xu,Qiang Dong,Yilong Wang,Xingquan Zhao,Zixiao Li,Hao Li.Clopidogrel with aspirin in High- risk patients with Acute Non- disabling Cerebrovascular Events II (CHANCE-2): rationale and design of a multicentre randomised trial[J].Stroke & Vascular Neurology,2021,6(2):280-285. 被引量：12
3刘臣,李自然,周立欣.基于图卷积神经网络的网络节点补全算法[J].模式识别与人工智能,2021,34(6):532-540. 被引量：4
4Rong-Fang Mu,Yan-Fen Niu,Qian Wang,Hui-Min Zhou,Jing Hu,Wan-Ying Qin,Wen-Yong Xiong.Correction to: Eriocalyxin B Inhibits Adipogenesis in 3T3-L1 Adipocytes by Cell Cycle Arrest[J].Natural Products and Bioprospecting,2020,10(4):269-269.
5嵇正龙,宋宇.融合空间距离测度市场分割指数的方法设计与应用[J].统计与信息论坛,2021,36(7):10-17. 被引量：1
6万小霞,孙李勇,邹璇,陈瑶,蒋政,尹增芳.深山含笑分枝成花规律及其系统演化证据[J].植物科学学报,2021,39(3):229-237. 被引量：1

重庆工商大学学报（自然科学版）

2021年第4期

浏览历史

内容加载中请稍等...

基于局部密度离群点检测k-means算法被引量：4

参考文献1

二级参考文献2

共引文献4

同被引文献59

引证文献4

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于局部密度离群点检测k-means算法 被引量：4

参考文献1

二级参考文献2

共引文献4

同被引文献59

引证文献4

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于局部密度离群点检测k-means算法被引量：4