-
题名融合拟单层覆盖粗集的集值数据平衡方法研究
被引量:3
- 1
-
-
作者
吴正江
杨天
郑爱玲
梅秋雨
张亚宁
-
机构
河南理工大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第19期166-173,共8页
-
基金
国家自然科学基金(61972134,11601129)。
-
文摘
如今不平衡数据存在生活中各个领域,如何有效地对其分类已经成为研究的热点。传统的过采样与欠采样方法虽然能保证数据的平衡性,但无法克服因数据分布和噪声对数据的分类造成的影响。为了降低数据分布与噪声在集值信息系统中对不平衡数据分类的影响,提出了一种基于拟单层覆盖粗集的过采样与欠采样相结合的模型。通过拟单层覆盖粗集DA0与DE0下近似将数据主要划分为两个部分,将属于下近似集的部分用BorderlineSMOTE进行过采样,将不属于下近似集的部分用ClusterCentroids进行欠采样,最终将二者合并即为最终数据集。拟单层覆盖粗集是适用于集值信息系统的高近似质量、快速计算的模型,高近似质量可以使其保留尽可能多的可靠数据来保证模型的泛化能力。通过混合处理方式,不仅能够降低噪声数据对BorderlineSMOTE的影响,还能通过ClusterCentroids极大程度地保留被过滤数据的信息完整性。通过相关对比实验,采用ExtraTree、DecisionTree、FGCNN等方法,验证了该模型的有效性。
-
关键词
拟单层覆盖粗集
不平衡数据
近似集
混合处理
过采样
欠采样
-
Keywords
semi-monolayer covering rough set
imbalanced data
approximation set
hybrid approach
over-sampling
under-sampling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-