改进K均值聚类的不平衡数据欠采样算法被引量：4

Improved Unbalanced Data Undersampling Algorithm For K-means Clustering

下载PDF

导出

摘要传统欠采样方法在处理不平衡数据问题时只考虑多数类样本的绝对位置而忽略了其相对位置,从而使产生的平衡数据集存在边界模糊问题。提出一种改进K均值聚类的不平衡数据欠采样算法(UD-PK)。该算法首先利用改进的PSO算法迭代寻找全局最优解作为K-means聚类所需初始值,然后通过K-means进行聚类,再按照每个类别中多数类与少数类的比例定义所取多数类样本个数,并根据多数类样本与簇心距离择优选择参与平衡数据集构造。在UCI数据集上的对比试验表明,该算法在少数类准确率上较一些经典算法有很大提升。 The traditional undersampling method only considers the problem that the absolute position of most class samples ignores its relative position when dealing with the unbalanced data problem,so that the resulting balanced data set has boundary blurring prob⁃lems.This paper proposes an improved unbalanced data undersampling algorithm for K-means clustering(UD-PK).The algorithm first uses the improved PSO algorithm to iteratively find the global optimal solution as the initial value needed for K-means clustering,and clusters by K-means;then according to the ratio of most classes to minority classes in each category the number of samples taken from the majority of the class is defined to participate in the construction of the balanced data set according to the selection of the major⁃ity class sample and the cluster center distance.The comparison experiments on the UCI dataset show that the proposed algorithm has a great improvement in the accuracy of a few classes compared with some classical algorithms.

作者于艳丽江开忠王珂盛静文 YU Yan-li;JIAN Kai-zhong;WANG Ke;SHENG Jing-wen(School of Mathematics,Physics&Statistics,Shanghai University of Engineering Science;School of Electrical and Electronic Engineering,Shanghai University of Engineering Science,Shanghai 201620,China)

机构地区上海工程技术大学数理与统计学院上海工程技术大学电子与电气工程学院

出处《软件导刊》 2020年第6期205-209,共5页 Software Guide

关键词不平衡数据集欠采样算法 K均值聚类粒子群算法 unbalanced dataset undersampling algorithm K-means cluster PSO

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1汤深伟,贾瑞玉.基于改进粒子群算法的k均值聚类算法[J].计算机工程与应用,2019,55(18):140-145. 被引量：36
2熊冰妍,王国胤,邓维斌.基于样本权重的不平衡数据欠抽样方法[J].计算机研究与发展,2016,53(11):2613-2622. 被引量：43
3魏力,张育平.一种改进型的不平衡数据欠采样算法[J].小型微型计算机系统,2019,40(5):1094-1098. 被引量：21
4杨杰明,闫欣,曲朝阳,宋晨晨,乔媛媛.基于数据密度分布的欠采样方法研究[J].计算机应用研究,2016,33(10):2997-3000. 被引量：14
5李春雪,谢林森,卢诚波.面向不平衡数据集的一种基于聚类的欠采样方法[J].数学的实践与认识,2019,49(1):203-209. 被引量：11
6肖连杰,郜梦蕊,苏新宁.一种基于模糊C-均值聚类的欠采样集成不平衡数据分类算法[J].数据分析与知识发现,2019,3(4):90-96. 被引量：13
7赵锦阳,卢会国,蒋娟萍,袁培培,柳学丽.一种非平衡数据分类的过采样随机森林算法[J].计算机应用与软件,2019,36(4):255-261. 被引量：12
8李艳霞,柴毅,胡友强,尹宏鹏.不平衡数据分类方法综述[J].控制与决策,2019,34(4):673-688. 被引量：169
9杨浩,王宇,张中原.基于K最近邻样本平均距离的代价敏感算法的集成[J].计算机应用,2019,39(7):1883-1887. 被引量：6

二级参考文献48

1蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
2林智勇,郝志峰,杨晓伟.不平衡数据分类的研究现状[J].计算机应用研究,2008,25(2):332-336. 被引量：46
3张翔,周明全,耿国华,侯凡.Bagging算法在中文文本分类中的应用[J].计算机工程与应用,2009,45(5):135-137. 被引量：13
4叶志飞,文益民,吕宝粮.不平衡分类问题研究综述[J].智能系统学报,2009,4(2):148-156. 被引量：72
5陶新民,徐晶,杨立标,刘玉.一种改进的粒子群和K均值混合聚类算法[J].电子与信息学报,2010,32(1):92-97. 被引量：79
6翟云,杨炳儒,曲武.不平衡类数据挖掘研究综述[J].计算机科学,2010,37(10):27-32. 被引量：37
7顾亚祥,丁世飞.支持向量机研究进展[J].计算机科学,2011,38(2):14-17. 被引量：123
8陈思,郭躬德,陈黎飞.基于聚类融合的不平衡数据分类方法[J].模式识别与人工智能,2010,23(6):772-780. 被引量：28
9方磊,马溪骏.基于信息熵的改进型支持向量机客户流失预测模型应用研究[J].情报学报,2011,30(6):643-648. 被引量：5
10王茜,杨正宽.一种基于加权KNN的大数据集下离群检测算法[J].计算机科学,2011,38(10):177-180. 被引量：11

共引文献298

1杨鸿雁,田英杰.机器学习在食品安全风险预警及抽检方案制订中的应用研究[J].管理评论,2022,34(11):315-323. 被引量：4
2周传华,徐文倩,朱俊杰.基于代价敏感卷积神经网络的集成分类算法[J].应用科学学报,2022,40(1):69-79. 被引量：7
3李村合,姜宇,李帅.基于不等距超平面距离的模糊支持向量机[J].计算机系统应用,2020(10):185-191. 被引量：6
4杨志凯,扶兰兰,唐灿,王发明,倪昕东,陈度.基于MobileViT模型的小麦收获机喂入密度分类方法[J].农业机械学报,2023,54(S01):172-180.
5谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27.
6穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：1
7郑凌铭,舒胜文,陈彬,吴涵,黄建业,钱健.强台风环境下基于格点化和支持向量机的10 kV杆塔受损量预测方法[J].高电压技术,2020,46(1):42-51. 被引量：14
8杨明生,张春光,杨晓东.醒脑通腑液治疗急性期脑出血30例观察[J].实用中医药杂志,2000,16(2):6-6.
9陈艳,陈光,易叶青,刘强.基于均匀抽样的二阶差分聚类数确定方法[J].计算机与现代化,2017(10):49-52. 被引量：1
10张鹏翼,王丹雪,焦祎凡,陈秀雨,王军.基于用户浏览日志的移动购买预测研究[J].数据分析与知识发现,2018,2(1):51-63. 被引量：8

同被引文献33

1张冬冬,李建中,王伟平,郭龙江.数据流历史数据的存储与聚集查询处理算法[J].软件学报,2005,16(12):2089-2098. 被引量：17
2许丹丹,王勇,蔡立军.面向不均衡数据集的ISMOTE算法[J].计算机应用,2011,31(9):2399-2401. 被引量：13
3楼晓俊,孙雨轩,刘海涛.聚类边界过采样不平衡数据分类方法[J].浙江大学学报（工学版）,2013,47(6):944-950. 被引量：31
4魏宝刚,鲁东明,潘云鹤,杨云.多颜色空间上的交互式图像分割[J].计算机学报,2001,24(7):770-775. 被引量：32
5屈彬,王景熙,郑昌琼,罗渝兰,何艳阳.一种基于区域生长规则的快速边缘跟踪算法[J].四川大学学报（工程科学版）,2002,34(2):100-103. 被引量：10
6陈斌,苏一丹,黄山.基于KM-SMOTE和随机森林的不平衡数据分类[J].计算机技术与发展,2015,25(9):17-21. 被引量：22
7钟龙申,高学军,王振友.一种新的基于K-means改进SMOTE算法在不平衡数据集分类中的应用[J].数学的实践与认识,2015,45(19):198-206. 被引量：12
8朱安安.基于过采样SVM的不平衡数据信用评价模型[J].软件导刊,2018,17(10):64-67. 被引量：8
9王媛媛.图像区域分割算法综述及比较[J].产业与科技论坛,2019,0(13):54-55. 被引量：9
10邓仕超,黄寅.二值图像膨胀腐蚀的快速算法[J].计算机工程与应用,2017,53(5):207-211. 被引量：82

引证文献4

1裴潇倜,吕琳,黄鹏杰,陈兆学,林勇.基于U-Net的T细胞斑点检测方法研究[J].中国医学物理学杂志,2021,38(4):518-522.
2陶叶辉,赵寿为.面向不平衡数据基于高斯混合聚类的SMOTE改进算法[J].软件导刊,2022,21(5):110-114. 被引量：2
3汤程皓,梅颖,卢诚波.利用集成OS-ELM的不平衡数据流分类与存储方法[J].软件导刊,2023,22(12):71-77. 被引量：1
4杜睿山,靳明洋,孟令东,宋健辉.基于边界信息的自适应过采样算法[J].郑州大学学报（理学版）,2025,57(1):23-30.

二级引证文献3

1何昀,张川,张继夫,陈伟.基于随机森林的多源小样本数据快速集成方法[J].信息与电脑,2024,36(1):52-54. 被引量：1
2孟国庆,高源,梅颖,卢诚波.面向不平衡数据集的一种基于邻域的过采样算法[J].软件导刊,2024,23(9):116-121.
3顾哲涵,黄宝凤.基于改进主动生成式过采样的个人信用风险评估研究[J].软件导刊,2024,23(9):163-169.

1叶枫,江永省.基于聚类融合欠采样的不平衡分类方法[J].计算机应用与软件,2020,37(1):292-297. 被引量：2
2韩旭,贾宁,朱宁.面向信贷不平衡数据的高斯混合欠采样算法[J].计算机工程与设计,2020,41(1):65-70. 被引量：13
3侯贝贝,刘三阳,普事业.基于边界混合重采样的非平衡数据分类方法[J].计算机工程与应用,2020,56(1):46-52. 被引量：20
4李成林.数控铣削一体化教学经验[J].科技风,2020(18):86-86. 被引量：1
5王瑞东,李文斌.基于改进PSO的矿井提升机控制系统参数优化设计[J].煤矿机械,2020,41(6):20-22. 被引量：7
6杨旭东,周艳丽,刘志娟,陆亮,于天齐,刘勇.基于RS-PSO-SVM算法的腐蚀管道剩余强度预测技术研究[J].石油工程建设,2020,46(3):8-12. 被引量：8

软件导刊

2020年第6期

浏览历史

内容加载中请稍等...

改进K均值聚类的不平衡数据欠采样算法被引量：4

参考文献9

二级参考文献48

共引文献298

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

改进K均值聚类的不平衡数据欠采样算法 被引量：4

参考文献9

二级参考文献48

共引文献298

同被引文献33

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

改进K均值聚类的不平衡数据欠采样算法被引量：4