-
题名融合聚类过采样算法的信贷不平衡数据分类
被引量:3
- 1
-
-
作者
樊东醒
叶春明
-
机构
上海理工大学管理学院
-
出处
《软件导刊》
2021年第11期70-74,共5页
-
基金
国家自然科学基金项目(71840003)
上海市科委“科技创新行动计划”软科学重点项目(20692104300)
上海理工大学科技发展项目(2018KJFZ043)。
-
文摘
不平衡数据往往会导致信用机构对“坏客户”的识别率较低。针对传统聚类过采样算法的边界样本损失问题,提出一种融合改进的K中心点算法的过采样方法——KmediodSMOTE,通过引入聚类准则函数和边界阈值以减少边界样本损失,并提出一种适用于非平衡数据的K值选取方法——UET-SSE。首先,根据Pearson相关系数和少数类K近邻确定边界阈值,然后划分适合聚类采样的区域,并使用UET-SSE方法选取K值进行聚类,最后引入“中心度”的概念进行加权过采样。实验结果表明,该方法与经典过采样算法SMOTE、BorderlineSMOTE、KmeansSMOTE相比,在RF分类器下的G-means全为最高,F1-measure在4组数据中有3组最高,有效提高了不平衡数据的分类准确率。
-
关键词
边界样本损失
kmediodsmote
聚类准则函数
边界阈值
UET-SSE
加权过采样
-
Keywords
boundary sample loss
kmediodsmote
clustering criteria function
boundary threshold
UET-SSE
weighted overs⁃ampling
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-