基于新型集成分类器的非平衡数据分类关键问题研究被引量：8

Study on source of classification in imbalanced datasets based on new ensemble classifier

下载PDF

导出

摘要针对非平衡数据分类问题,提出了一种基于差异采样率的重采样算法(differentiated sampling rate algorithm,DSRA),基于DSRA设计了一种新的集成分类器(SVM-Ripper ensemble classifier,SREC)。SREC采用独特的分类器选择策略、分类器集成策略、分类决策方案,可获得较高的分类精度。同时,利用SREC对影响非平衡数据分类的关键问题进行了研究。结果表明,非平衡数据分类问题本质上是由正负样本类间非平衡、类内非平衡、样本规模以及样本非平衡度等诸多因素引起的,只有综合考虑这些因素才能更好地解决非平衡数据分类问题。 For the issue of classification in imbalanced datasets,this paper presents a new differentiated sampling rate algorithm（DSRA）,on this basis,a SVM-Ripper ensemble classifier（SREC） is proposed.SREC employs an unique classifier selection strategy,a novel classifier integration approach and an original classification decision-making method,so that it receives a higher classification accuracy.At the same time,the source of classification in an imbalanced dataset is studied by use of SREC.The simulation results prove that the source of classification in an imbalanced dataset is the aggregation of imbalance between classes,imbalance within a class,sample size as well as the imbalance degree,and only a comprehensive consideration of these factors can better address the issue of classification in imbalanced dataset.

作者翟云杨炳儒曲武隋海峰

机构地区北京科技大学信息工程学院聊城大学计算机学院

出处《系统工程与电子技术》 EI CSCD 北大核心 2011年第1期196-201,共6页 Systems Engineering and Electronics

基金国家自然科学基金(60675030 60875029)资助课题

关键词数据挖掘非平衡类数据分类集成分类器关键问题 data mining classification in imbalanced datasets ensemble classifier source

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献20

1Phua C, Alahakoon D. I.ee V. Minority report in fraud detection: classification of skewed data[J]. ACM SIGKDD Explorations Newsletter Special Issue on Learning from Imbalanced Datasets,2004,6(1):50- 59.
2Del Castillo M D, Serrano J I. A multi strategy approach for dig ital text categorization from imbalanced documents[J]. ACM SIGKDD Explorations Newslette Special Issue on Learning from Imbalanced Datasets ,2004 ,6(1) :70 - 79.
3Turney P D. Learning algorithms for keyphrase extraction[J]. Information Retrieval, 2000,2(4) : 303 - 336.
4Ling C X, I.i C. Data mining for direct markeling: problems and solutions[C].// Proc. of 5th International Conference on Knowledge Discovery and Data Mining, 1998 : 73 - 79.
5Weiss G, Provost F. Learning when training data are costly: the effect of class distribution on tree induction[J]. Journal of Artificial Intelligence Research, 2003,19:315-354.
6毕华,梁洪力,王珏.重采样方法与机器学习[J].计算机学报,2009,32(5):862-877. 被引量：36
7Chawla N V, Hall L O, Bowyer K W, et al. SMOTE: synthetic minority oversampling technique[J].Journal of Artificial Intelligence Research , 2002,16:321 - 357.
8Han H, Wang W Y, Mao B H. Borderline smote: a new over-sampling method in imbalanced data sets learning[J].Lecture Notes in Computer Science ,2005,3644:878 - 887.
9Batista G e, Pratti R C, Monard M C. Study of the behavior of several methods for balancing machine learning training data[J]. ACM SIGKDD Explorations Newslette -Special Issue on Learning From Imbalanced Datasets, 2004, 6( 1 ) : 20 - 29.
10Barandela R, Hernandez J K, Sanehez J S, et al. Irnbalanced training set reduction and feature selection through genetic optimization [C].// Proc. of the Conference on Artificial Intelligence Research and Development, 2005 : 215 - 222.

二级参考文献67

1唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
2Valiant L G. A theory of learnable. Communications of the ACM, 1984, 27(11): 1134-1142
3Kearns M, Valiant L G. Learning Boolean formulae or finite automata is as hard as factoring. Cambridge, MA: Harvard University Aiken Computation Laboratory. Technical Report TR-14-88, 1988
4Kearns M, Valiant L G. Cryptographic limitations on learning Boolean formulae and finite automata. Journal of the ACM, 1994, 41(1): 67-95
5Schapire R E. The strength of weak learnability. Machine Learning, 1990, 5(2): 197-227
6Dietterich T G. Ensemble methods in machine learning// Proceedings of the Multiple Classifier Systems. Cagliari, Italy, 2000:1-5
7Freund Y, Schapire R E. Experiments with a new Boosting algorithm//Proceedings of the Thirteenth International Conference on Machine Learning (ICML). Bari, Italy, 1996: 148-156
8Breiman L. Prediction games and arcing classifiers. Neural Computation, 1999, 11(7): 1493-1517
9Breiman L. Bagging predictors. Machine Learning, 1996, 24 (2) : 123-140
10Miller R G. The jackknife-a review. Biometrika, 1974, 61 (1) : 1-15

共引文献80

1张杰鑫,庞建民,张铮.拟态构造的Web服务器异构性量化方法[J].软件学报,2020,31(2):564-577. 被引量：11
2陈涛.三维坐标转换模型参数估计及精度评定的Bootstrap方法[J].现代测绘,2021(S02):77-80. 被引量：1
3吴静,刘衍珩,孟凡雪.入侵检测中的多分类SVM增量学习算法[J].北京工业大学学报,2009,35(12):1697-1702. 被引量：3
4徐森,卢志茂,顾国昌.解决文本聚类集成问题的两个谱算法[J].自动化学报,2009,35(7):997-1002. 被引量：20
5徐森,卢志茂,顾国昌.文本聚类集成问题中的谱算法[J].控制与决策,2009,24(8):1277-1280. 被引量：1
6李岩,王东风,韩璞.基于核独立分量分析的模糊核聚类神经网络集成方法[J].计算机应用研究,2009,26(9):3318-3320. 被引量：1
7徐森,卢志茂,顾国昌.基于矩阵谱分析的文本聚类集成算法[J].模式识别与人工智能,2009,22(5):780-786. 被引量：6
8谢文彪,樊绍胜,樊晓平.一种可最优化计算特征规模的互信息特征提取[J].控制与决策,2009,24(12):1810-1815. 被引量：3
9谢文彪,樊绍胜,费洪晓,樊晓平.基于互信息梯度优化计算的信息判别特征提取[J].电子与信息学报,2009,31(12):2975-2979. 被引量：8
10丁艳辉,李庆忠,董永权,彭朝晖.基于集成学习和二维关联边条件随机场的Web数据语义标注方法[J].计算机学报,2010,33(2):267-278. 被引量：6

同被引文献79

1Yang Bingru(School of information Engineering,University of Science and Technology of BeiJing,100083, P. R. China)Xiong Fanlun(The institute of Intelligent Machine, Academic Sinica,Hefei 230031, P. R. China).KD(D&K) and Double-Bases Cooperating Mechanism[J].Journal of Systems Engineering and Electronics,1999,10(2):48-54. 被引量：7
2陈安龙,唐常杰,陶宏才,元昌安,谢方军.基于极大团和FP-Tree的挖掘关联规则的改进算法[J].软件学报,2004,15(8):1198-1207. 被引量：30
3谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：50
4陆介平,杨明,孙志挥,鞠时光.快速挖掘全局最大频繁项目集[J].软件学报,2005,16(4):553-560. 被引量：27
5曹铭昌,周广胜,翁恩生.广义模型及分类回归树在物种分布模拟中的应用与比较[J].生态学报,2005,25(8):2031-2040. 被引量：69
6赵萍,傅云飞,郑刘根,冯学智,B.Satyanarayana.基于分类回归树分析的遥感影像土地利用/覆被分类研究[J].遥感学报,2005,9(6):708-716. 被引量：129
7林春梅,何跃,汤兵勇,刘兴华.模糊认知图在股票市场预测中的应用研究[J].计算机应用,2006,26(1):195-197. 被引量：8
8淦文燕,李德毅,王建民.一种基于数据场的层次聚类方法[J].电子学报,2006,34(2):258-262. 被引量：83
9马铭,周春光,张利彪,马捷.一种优化模糊神经网络的多目标微粒群算法[J].计算机研究与发展,2006,43(12):2104-2109. 被引量：9
10YANG BingRu SONG Wei XU ZhangYan.New construction for expert system based on innovative knowledge discovery technology[J].Science in China(Series F),2007,50(1):29-40. 被引量：3

引证文献8

1王莉军,杨炳儒,谢永红.一种基于数据场的社区发现算法[J].计算机应用研究,2011,28(11):4142-4145. 被引量：6
2YANG BingRu,QU Wu,WANG LiJun,ZHOU Ying.A new intelligent prediction system model-the compound pyramid model[J].Science China(Information Sciences),2012,55(3):723-736. 被引量：2
3谢永红,马延辉,周芳,刘颖安.PDBSCAN: Parallel DBSCAN for Large-Scale Clustering Applications[J].Journal of Donghua University(English Edition),2012,29(1):76-79. 被引量：1
4马楠,杨炳儒,邱正强,易璐璐.基于测度递进的模糊认知图及其应用[J].计算机工程与设计,2012,33(5):1958-1962. 被引量：1
5马楠,杨炳儒,翟云,李广原,张德政.一种模糊认知图分类器构造方法[J].北京科技大学学报,2012,34(5):590-595. 被引量：2
6王宁,杨扬,巩华荣,赵耀培,孟坤.一种基于极大团的关键时间段挖掘方法[J].计算机科学,2012,39(6):166-169. 被引量：1
7张伟科.一种改进的AprioriTid算法[J].沈阳工业大学学报,2016,38(3):314-318. 被引量：6
8于新洋,赵庚星,常春艳,袁秀杰,王卓然.随机森林遥感信息提取研究进展及应用展望[J].遥感信息,2019,34(2):8-14. 被引量：22

二级引证文献41

1陈玲玲,施政,廖凯涛,宋月君,张红梅.基于卷积神经网络的高分遥感影像耕地提取研究[J].农业机械学报,2022,53(9):168-177. 被引量：11
2王雨涵,张亚萌,魏国亮.基于BP神经网络和高阶模糊认知图的股票价格预测[J].智能计算机与应用,2023,13(8):100-106.
3郭建威,张玉臣,谢永红,刘永彬,曹丹阳.基于物质-场与案例推理的创新辅助系统[J].辽宁工程技术大学学报（自然科学版）,2012,31(5):792-796. 被引量：3
4周德财,夏士雄,王志晓.基于改进C均值的故障诊断[J].微电子学与计算机,2012,29(11):120-122. 被引量：2
5林建伟,郭彩虹,许臻.基于数据挖掘的IDS系统数据规则库改进设计[J].科技通报,2013,29(1):124-127. 被引量：3
6孟畅,蔡懿慈.基于数据场的总体布线拥挤度计算模型[J].微电子学,2013,43(2):296-300. 被引量：2
7龚尚福,陈婉璐,贾澎涛.层次聚类社区发现算法的研究[J].计算机应用研究,2013,30(11):3216-3220. 被引量：21
8阳广元,曹霞,甯佐斌,潘煦.国内社区发现研究进展[J].情报资料工作,2014,35(2):29-33. 被引量：4
9庞雪风,何东平,胡传荣,孙红星,尤梦圆.不同水解度牡丹籽蛋白氨基酸组成及营养评价[J].食品工业,2014,35(11):288-292. 被引量：3
10朱庆生,蒋天弘,周明强.基于自然最近邻居的社团检测算法[J].计算机应用研究,2014,31(12):3560-3563. 被引量：3

1翟云,杨炳儒,周法国,隋海峰,刘丽珍.异构分类器融合环境下的非平衡数据分类模型[J].高技术通讯,2011,21(10):1101-1107.
2武永成.非平衡数据分类算法研究[J].软件导刊,2014,13(2):67-68. 被引量：1
3蔡艳艳,宋晓东.针对非平衡数据分类的新型模糊SVM模型[J].西安电子科技大学学报,2015,42(5):120-124. 被引量：19
4倪维健,刘彤,曾庆田,赵华,汤建渝.基于非平衡数据分类的单文档自动文摘方法[J].计算机工程与科学,2012,34(4):162-166. 被引量：2
5李秋林.基于ν-最大间隔超球体支持向量机的非平衡数据分类[J].重庆理工大学学报（自然科学）,2012,26(12):93-98. 被引量：3
6刘进军.基于惩罚的SVM和集成学习的非平衡数据分类算法研究[J].计算机应用与软件,2014,31(1):186-190. 被引量：6
7赵玉明,滕少华,张巍,伍乃骐.异常入侵检测中数据挖掘技术RIPPER的应用[J].广东工业大学学报,2005,22(3):48-52. 被引量：2
8Hokkien.Ahead DVD Ripper注册算法分析与注册机编写[J].黑客防线,2008(4):124-127.
9焦盛岚,杨炳儒,翟云,赵万里.一种用于非平衡数据分类的集成学习模型[J].计算机工程与应用,2012,48(29):119-123. 被引量：5
10徐红国,王素格.基于改进的类别分布特征选择方法[J].中北大学学报（自然科学版）,2011,32(2):139-142.

系统工程与电子技术

2011年第1期

浏览历史

内容加载中请稍等...

基于新型集成分类器的非平衡数据分类关键问题研究被引量：8

参考文献20

二级参考文献67

共引文献80

同被引文献79

引证文献8

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于新型集成分类器的非平衡数据分类关键问题研究 被引量：8

参考文献20

二级参考文献67

共引文献80

同被引文献79

引证文献8

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

基于新型集成分类器的非平衡数据分类关键问题研究被引量：8