融合拟单层覆盖粗集的集值数据平衡方法研究被引量：3

Study on Set-Valued Data Balancing Method by Semi-Monolayer Covering Rough Set

下载PDF

导出

摘要如今不平衡数据存在生活中各个领域,如何有效地对其分类已经成为研究的热点。传统的过采样与欠采样方法虽然能保证数据的平衡性,但无法克服因数据分布和噪声对数据的分类造成的影响。为了降低数据分布与噪声在集值信息系统中对不平衡数据分类的影响,提出了一种基于拟单层覆盖粗集的过采样与欠采样相结合的模型。通过拟单层覆盖粗集DA0与DE0下近似将数据主要划分为两个部分,将属于下近似集的部分用BorderlineSMOTE进行过采样,将不属于下近似集的部分用ClusterCentroids进行欠采样,最终将二者合并即为最终数据集。拟单层覆盖粗集是适用于集值信息系统的高近似质量、快速计算的模型,高近似质量可以使其保留尽可能多的可靠数据来保证模型的泛化能力。通过混合处理方式,不仅能够降低噪声数据对BorderlineSMOTE的影响,还能通过ClusterCentroids极大程度地保留被过滤数据的信息完整性。通过相关对比实验,采用ExtraTree、DecisionTree、FGCNN等方法,验证了该模型的有效性。 Nowadays,imbalanced data exist in all areas of life,and how to effectively classify it has become a hot topic of studies.Traditional methods of over-sampling and under-sampling ensure balanced data,but cannot overcome the effects on the classification of the data due to data distribution and noise.To reduce the influence of data distribution and noise on the classification of imbalanced data in set-valued information systems,a new method combining oversampling and under-sampling based on semi-monolayer covering rough set is proposed.The data are divided into two main parts by applying semi-monolayer covering rough set DA0 and DE0 lower approximation,the part be-longing to the lower ap-proximation set is oversampled by BorderlineSMOTE,the part not belonging to the lower approximation set is under-sam-pled by ClusterCentroids,and finally,the two are combined to the final data set.Semi-monolayer covering rough set is a high approximation quality,a fast computational model which suitable for set-valued information systems.The high ap-proximation quality allows it to retain as much reliable data as possible to ensure the generalization capability of the mod-el.The hybrid approach not only reduces the impact of noisy data on BorderlineSMOTE but also preserves the informa-tion integrity of the filtered-out data to a great extent through ClusterCentroids.Finally,the effectiveness of the model is verified through relevant comparative experiments using ExtraTree,DecisionTree and FGCNN.

作者吴正江杨天郑爱玲梅秋雨张亚宁 WU Zhengjiang;YANG Tian;ZHENG Ailing;MEI Qiuyu;ZHANG Yaning(School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo,Henan 454003,China)

机构地区河南理工大学计算机科学与技术学院

出处《计算机工程与应用》 CSCD 北大核心 2022年第19期166-173,共8页 Computer Engineering and Applications

基金国家自然科学基金(61972134,11601129)。

关键词拟单层覆盖粗集不平衡数据近似集混合处理过采样欠采样 semi-monolayer covering rough set imbalanced data approximation set hybrid approach over-sampling under-sampling

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张壮,王士同.不平衡数据的Takagi-Sugeno-Kang模糊分类集成模型[J].计算机科学与探索,2022,16(6):1374-1382. 被引量：2
2徐剑,王馨月,才子昕,沈启航,景丽萍.价值样本选取的不均衡分类[J].计算机科学与探索,2020,14(3):401-409. 被引量：5
3谢子鹏,包崇明,周丽华,王崇云,孔兵.类不平衡数据的EM聚类过采样算法[J].计算机科学与探索,2023,17(1):228-237. 被引量：5
4严远亭,朱原玮,吴增宝,张以文,张燕平.构造性覆盖算法的SMOTE过采样方法[J].计算机科学与探索,2020,14(6):975-984. 被引量：8
5陈俊丰,郑中团.WKMeans与SMOTE结合的不平衡数据过采样方法[J].计算机工程与应用,2021,57(23):106-112. 被引量：6
6王乐,韩萌,李小娟,张妮,程浩东.不平衡数据集分类方法综述[J].计算机工程与应用,2021,57(22):42-52. 被引量：29
7徐玲玲,迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用,2020,56(24):12-27. 被引量：59
8管延勇,薛佩军,胡海清.集值决策信息系统的属性约简及确定性决策规则优化[J].系统工程与电子技术,2006,28(4):551-555. 被引量：1

二级参考文献52

1林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
2蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
3Pawlak Z.Rough Sets[J].International Journal of Computer and Information Sciences,1982,11:341-356.
4Pawlak Z.Rough sets:theoretical aspects of reasoning about data[M].London:Kluwer Academic Publishers,1991.
5Pawlak Z.Rough set theory and its applications in data analysis[J].International Journal of Cybernetics Systems,1998,29:661-685.
6Skowron A,Rauszer C.The discernibility matrices and functions in information systems[Z].In:R.Slowinski (Ed.),Intelligent Decision Support:Handbook of Applications and Advances of Rough Sets Theory.Kluwer Academic Publisher,Dordrecht,1992:331-362.
7Skowron A.Extracting laws from decision tables:a ro ugh set[J].Computational Intelligence,1995,110:371-388.
8Hu Xiao Hua,Cercone N.Learning in relational databases:a rough set approach[J].Computational Intelligence,1995,11(2):323-337.
9Kryszkiewicz M.Rough Set approach to incomplete Information Systems[J].Information Sciences,1998,112:39-49.
10Kryszkiewicz M.Rules in incomplete information systems[J].Information Sciences,1999,113:271-292.

共引文献103

1陈可.基于B-SMOTE1-XGBoost预测电信客户流失[J].郑州师范教育,2022,11(4):21-26.
2马贺,宋媚,祝义.改进边界分类的Borderline-SMOTE过采样方法[J].南京大学学报（自然科学版）,2023,59(6):1003-1012.
3张彤,李英梅.基于聚类和混合采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2022,38(2):58-63.
4董明刚,刘明,敬超.利用采样安全系数的多类不平衡过采样算法[J].计算机科学与探索,2020,14(10):1776-1786. 被引量：3
5罗计根,杜建强,聂斌,李欢,聂建华,陈裕凤.一种聚类欠采样策略的随机森林优化方法[J].计算机工程与应用,2020,56(22):166-172. 被引量：5
6张艺豪,盛丹红,李丽芳,翟丹丹.基于加权随机森林的信用卡欺诈检测应用与研究[J].电脑编程技巧与维护,2021(4):111-112. 被引量：2
7蓝镓宝.牛奶产量的预测——基于支持向量回归集成计算[J].湖北农机化,2021(11):82-83.
8张蕾.基于卡方差异性和t-SNE的定性数据分类研究[J].电子测量技术,2021,44(5):100-106.
9孙柳.基于多种群协同进化算法的数据并行聚类算法[J].智能计算机与应用,2021,11(6):144-147.
10阮顺领,金裕,李发本,顾清华,王丹娜.基于人工鱼群神经网络进化的露天矿卡车优化调度研究[J].矿业研究与开发,2021,41(8):154-160. 被引量：10

同被引文献22

1吴正江,刘永利,高岩.拟单层覆盖上的覆盖粗糙集族[J].山东大学学报（理学版）,2014,49(8):6-14. 被引量：2
2闫鑫,景运革.矩阵增量属性约简算法[J].小型微型计算机系统,2018,39(6):1245-1249. 被引量：6
3王兰,杜学敏.局域网络信息系统特征级开源目标融合仿真[J].计算机仿真,2020,37(1):267-271. 被引量：2
4黄倩倩,李天瑞,杨新,王国强,胡节.面向不完备混合数据的矩阵增量知识维护方法研究[J].小型微型计算机系统,2020,41(4):868-877. 被引量：3
5白冰.基于可视化和数据融合技术的多元异构网络数据安全防护分析[J].电子设计工程,2020,28(13):137-140. 被引量：10
6林瑀,陈日成,金涛.面向复杂信息系统的多源异构数据融合技术[J].中国测试,2020,46(7):1-7. 被引量：34
7贾佳,何瑛,洪云飞.基于物联网的多通道数据采集系统的设计[J].工业仪表与自动化装置,2020(4):21-24. 被引量：5
8李莉,曾庆贤,文义红,王士成.基于区块链与代理重加密的数据共享方案[J].信息网络安全,2020(8):16-24. 被引量：22
9黄婷婷,冯锋.无线传感器网络异构数据融合模型优化研究[J].计算机科学,2020,47(S02):339-344. 被引量：15
10杭超,李刚,谢昱卓,李雯珺.基于非均匀分簇和蚁群神经网络的WSN数据融合算法[J].传感技术学报,2020,33(10):1483-1488. 被引量：8

引证文献3

1吴正江,吕成功,王梦松.融合GPU的拟单层覆盖近似集计算方法[J].计算机工程,2024,50(5):71-82.
2魏明军,李凤,刘亚志,李辉.基于改进WGAN-GP和ResNet的车联网入侵检测方法[J].郑州大学学报（工学版）,2024,45(4):30-37.
3张瑜,崔琳,盛红雷,赵恩来,李明.基于非均匀分簇的网络多通道数据融合共享系统[J].电子设计工程,2024,32(12):187-190.

1时俊鹏,张燕兰.面向对象变化的局部邻域粗糙集增量更新算法[J].闽南师范大学学报（自然科学版）,2022,35(3):30-37.
2闫家荣,续进,吴睿,王帅琪,王灏楠.基于高斯混合模型的不平衡数据分类算法[J].电脑编程技巧与维护,2022(9):67-69.
3胡军,陈艳,张清华,王国胤.广义多尺度集值决策系统最优尺度选择[J].计算机研究与发展,2022,59(9):2027-2038. 被引量：1
4丁要军,王安宙.基于CWGAN-GP平衡化的网络恶意流量识别方法[J].电子科技大学学报,2022,51(5):760-765. 被引量：2
5李歆毓,丁梦莹,冯尔辉,张源源,章可兰,万迎朗.白边侧足海天牛全基因组Survey分析[J].热带生物学报,2022,13(5):457-463. 被引量：1
6OLIVE CHU,陈信宏(译).健康、快乐与长寿[J].空中英语教室（高级版．彭蒙惠英语）,2022(10):28-30.
7李艳,范斌,郭劼.基于聚类粒化和簇间散度的属性约简算法[J].计算机应用,2022,42(9):2701-2712. 被引量：1

计算机工程与应用

2022年第19期

浏览历史

内容加载中请稍等...

融合拟单层覆盖粗集的集值数据平衡方法研究被引量：3

参考文献8

二级参考文献52

共引文献103

同被引文献22

引证文献3

相关作者

相关机构

相关主题

浏览历史

融合拟单层覆盖粗集的集值数据平衡方法研究 被引量：3

参考文献8

二级参考文献52

共引文献103

同被引文献22

引证文献3

相关作者

相关机构

相关主题

浏览历史

融合拟单层覆盖粗集的集值数据平衡方法研究被引量：3