-
题名基于样本分布的类别均衡化方法
- 1
-
-
作者
李国和
陈桂婷
郑艺峰
洪云峰
周晓明
潘雪玲
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)克拉玛依信息科学与工程学院
闽南师范大学计算机学院
杭州拾贝知识产权服务有限公司应用研究院
厦门瀚影物联网应用研究院
-
出处
《计算机工程与设计》
北大核心
2023年第9期2626-2633,共8页
-
基金
国家自然科学基金项目(60473125,61701213)
中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001)
福建省自然科学基金项目(2021J011004,2021J011002)。
-
文摘
为解决样本类别不均衡问题,提出基于样本分布的类别均衡化算法。采用单类支持向量机和近邻法学习多数类样本,净化类别不清的分布边界;采用密度聚簇算法对少数类样本聚簇,根据每个类簇的权重决定每个类簇生成的样本数,平衡类簇间的样本数量;根据每个簇的边界样本与非边界样本数量比值,确定每个样本权重,采用SMOTE合成少数类样本。采用UCI数据集实验对比和地震数据分析应用,验证了算法在不同分类模型均可提高分类精度。
-
关键词
不均衡数据
过采样
单类支持向量机
密度聚类
样本类别均衡化
样本分布
分类
-
Keywords
imbalanced data
oversampling
one-class SVM
density-based clustering
sample-label balancing
sample distribution
classification
-
分类号
TP306.1
[自动化与计算机技术—计算机系统结构]
-
-
题名面向分类模型学习的样本类别均衡化方法
- 2
-
-
作者
李国和
刘顺欣
张予杰
郑艺峰
洪云峰
周晓明
-
机构
中国石油大学(北京)石油数据挖掘北京市重点实验室
中国石油大学(北京)信息科学与工程学院
塔里木油田克拉油气开发部
中国反侵权假冒创新战略联盟
厦门瀚影物联网应用研究院
-
出处
《计算机应用与软件》
北大核心
2022年第10期230-237,共8页
-
基金
国家自然科学基金项目(60473125)
中国石油大学(北京)克拉玛依校区科研启动基金项目(RCYJ2016B-03-001)
福建省自然科学基金项目(2018J01546,2019J01748)。
-
文摘
过采样方法是解决数据类别不均衡的有效方法之一,现有的过采样方法容易使样本具有高相似性导致过拟合。针对该问题,提出一种基于高斯混合模型和Jensen-Shannon散度的过采样方法(GJ-RSMOTE)。利用高斯混合模型对少数类样本进行聚类,通过簇的稀疏度计算各簇的采样数量以及采用超球体插值方法扩大生成样本的范围,避免了生成样本过拟合,通过Jensen-Shannon散度控制最终生成样本的数量。实验结果表明,GJ-RSMOTE可实现样本类别均衡性,可有效提高分类模型的识别精度。
-
关键词
不均衡数据
过采样
高斯混合模型
Jensen-Shannon散度
-
Keywords
Imbalanced dataset
Oversampling
Gaussian mixture model
Jensen-Shannon
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-