-
题名基于样本分布的类别均衡化方法
- 1
-
-
作者
李国和
陈桂婷
郑艺峰
洪云峰
周晓明
潘雪玲
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)克拉玛依信息科学与工程学院
闽南师范大学计算机学院
杭州拾贝知识产权服务有限公司应用研究院
厦门瀚影物联网应用研究院
-
出处
《计算机工程与设计》
北大核心
2023年第9期2626-2633,共8页
-
基金
国家自然科学基金项目(60473125,61701213)
中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001)
福建省自然科学基金项目(2021J011004,2021J011002)。
-
文摘
为解决样本类别不均衡问题,提出基于样本分布的类别均衡化算法。采用单类支持向量机和近邻法学习多数类样本,净化类别不清的分布边界;采用密度聚簇算法对少数类样本聚簇,根据每个类簇的权重决定每个类簇生成的样本数,平衡类簇间的样本数量;根据每个簇的边界样本与非边界样本数量比值,确定每个样本权重,采用SMOTE合成少数类样本。采用UCI数据集实验对比和地震数据分析应用,验证了算法在不同分类模型均可提高分类精度。
-
关键词
不均衡数据
过采样
单类支持向量机
密度聚类
样本类别均衡化
样本分布
分类
-
Keywords
imbalanced data
oversampling
one-class SVM
density-based clustering
sample-label balancing
sample distribution
classification
-
分类号
TP306.1
[自动化与计算机技术—计算机系统结构]
-