-
题名融合拟单层覆盖粗集的集值数据平衡方法研究
被引量:3
- 1
-
-
作者
吴正江
杨天
郑爱玲
梅秋雨
张亚宁
-
机构
河南理工大学计算机科学与技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2022年第19期166-173,共8页
-
基金
国家自然科学基金(61972134,11601129)。
-
文摘
如今不平衡数据存在生活中各个领域,如何有效地对其分类已经成为研究的热点。传统的过采样与欠采样方法虽然能保证数据的平衡性,但无法克服因数据分布和噪声对数据的分类造成的影响。为了降低数据分布与噪声在集值信息系统中对不平衡数据分类的影响,提出了一种基于拟单层覆盖粗集的过采样与欠采样相结合的模型。通过拟单层覆盖粗集DA0与DE0下近似将数据主要划分为两个部分,将属于下近似集的部分用BorderlineSMOTE进行过采样,将不属于下近似集的部分用ClusterCentroids进行欠采样,最终将二者合并即为最终数据集。拟单层覆盖粗集是适用于集值信息系统的高近似质量、快速计算的模型,高近似质量可以使其保留尽可能多的可靠数据来保证模型的泛化能力。通过混合处理方式,不仅能够降低噪声数据对BorderlineSMOTE的影响,还能通过ClusterCentroids极大程度地保留被过滤数据的信息完整性。通过相关对比实验,采用ExtraTree、DecisionTree、FGCNN等方法,验证了该模型的有效性。
-
关键词
拟单层覆盖粗集
不平衡数据
近似集
混合处理
过采样
欠采样
-
Keywords
semi-monolayer covering rough set
imbalanced data
approximation set
hybrid approach
over-sampling
under-sampling
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名拟单层覆盖粗糙集中近似集的增量更新算法
被引量:1
- 2
-
-
作者
吴正江
张亚宁
张真
梅秋雨
杨天
-
机构
河南理工大学计算机科学与技术学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2022年第6期200-206,212,共8页
-
基金
国家自然科学基金(61972134,11601129)。
-
文摘
拟单层覆盖粗糙集与集值信息系统之间存在一一对应的映射关系,当集值信息系统中的对象集动态添加或移除时,对应拟单层覆盖粗糙集中的信息单元也会随之改变,导致拟单层覆盖粗糙集中的近似集发生变化。针对拟单层覆盖粗糙集中近似集的动态更新问题,将拟单层覆盖粗糙集与增量学习相结合,提出近似集的增量更新算法。设计拟单层覆盖集中信息单元的更新算法,以分析信息单元的变化情况,分别构建近似集中可靠单元和争议单元的相关可靠单元集的更新算法。在此基础上,设计与可靠单元和争议单元更新算法相对应的增量更新算法,并且分析其时间复杂度。在UCI数据集上的实验结果表明,与静态算法相比,该算法在对象集发生添加和移除情况下的近似集更新效率分别提高21.5和29倍,能够有效提高近似集的计算效率。
-
关键词
粗糙集
拟单层覆盖
集值信息系统
增量学习
近似集
-
Keywords
rough sets
semi-monolayer cover
set-valued information system
incremental learning
approximation sets
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-