基于二次随机森林的不平衡数据分类算法被引量：3

An new Algorithm for Imbalanced Data Based on Twice Random Froest

下载PDF

导出

摘要不平衡数据集的分类问题是现今机器学习的一个热点问题。传统分类学习器以提高分类精度为准则导致对少数类识别准确率下降。本文首先综合描述了不平衡数据集分类问题的研究难点和研究进展,论述了对分类算法的评价指标,进而提出一种新的基于二次随机森林的不平衡数据分类算法。首先,用随机森林算法对训练样本学习找到模糊边界,将误判的多数类样本去除,改变原训练样本数据集结构,形成新的训练样本。然后再次使用随机森林对新训练样本数据进行训练。通过对UCI数据集进行实验分析表明新算法在处理不平衡数据集上在少数类的召回率和F值上有提高。 Imbalanced data's classification(IDC) is one of the hot issues in machine learning. The recall rate of minority class probably reduced as a result of most traditional classified learners only aim for improving system accuracy. Firstly, analyzes the research difficulties and research progress of IDC in recent year are reviewed. Then, this thesis discusses some evaluation indexes of classification algorithms. Based on these studie, an new algorithm for IDC on implementing twice random forest algorithm, named as TRF is proposed in this paper. Firstly, applying random forest algorithm is to search the fuzzy boundary, then the majority class samples that are predicted to be minority class will be removed and change the data structure to build new train data sets. This new data sets will be trained to obtain a new classification model by random forest. The experiment results show the TRF algorithm can effectively improve F-measure and the minority class recall rate.

作者刘学张素伟

机构地区华北计算技术研究所太极计算机股份有限公司

出处《软件》 2016年第7期75-79,共5页 Software

关键词模式识别不平衡数据随机森林模糊边界 Pattern recognition Imbalanced data Random forest Fuzzy boundary

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1Miroslav Kubat,Robert C. Holte,Stan Matwin.??Machine Learning for the Detection of Oil Spills in Satellite Radar Images(J)Machine Learning . 1998 (2)
2Nathalie Japkowicz,Shaju Stephen.The class imbalance problem: A systematic study. Intelligent Data Analysis . 2002
3陈海红.多核SVM文本分类研究[J].软件,2015,36(5):7-10. 被引量：27
4全雪峰.基于奇异熵和随机森林的人脸识别[J].软件,2016,37(2):35-38. 被引量：11
5王和勇,樊泓坤,姚正安,李成安.不平衡数据集的分类方法研究[J].计算机应用研究,2008,25(5):1301-1303. 被引量：23
6Leo Breiman.Random Forests[J]. Machine Learning . 2001 (1)
7Nitesh V. Chawla,Kevin W. Bowyer,Lawrence O. Hall,W. Philip Kegelmeyer.SMOTE: synthetic minority over-sampling technique. Journal of Artificial Organs . 2002
8Gary M. Weiss,Foster Provost.Learning when training data are costly: the effect of class distribution on tree induction. Journal of Artificial Organs . 2003
9Joshi,M,Kumar,V,Agarwal,R.Evaluating Boosting Algorithms to Classify Rare Classes:Comparison and Improvements. the 1st IEEE International Conference on Data Mining . 2001
10黄衍,查伟雄.随机森林与支持向量机分类性能比较[J].软件,2012,33(6):107-110. 被引量：70

二级参考文献65

1于功志,关德林,段树林,李国宾,Gong-zhi De-lin Shu-lin Guo-bin.基于奇异熵的钢球表面缺陷特征提取研究[J].计量学报,2009(6). 被引量：1
2王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
3奉国和,朱思铭.基于聚类的大样本支持向量机研究[J].计算机科学,2006,33(4):145-147. 被引量：14
4王志玲,王效岳.国内文本分类研究论文的统计分析[J].图书情报工作,2006,50(11):136-138. 被引量：2
5EZAWA K J, SINGH M, NORTON S W. Learning goal oriented Bayesian networks for telecommunications management [ C ]//Proc of the 13th International Conference on Machine Learning. San Fransisco: Morgan Kaufmann, 1996:139-147.
6CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE:synthetic minority over-sampling technique[ J ]. Journal of Artificial Intelligence Research, 2002,16:321-357.
7KUBAT M, HOLTE R, MATWIN S. Machine learning for the detection of oil spills in satellite radar images [ J ]. Machine Learning, 1998,30(2) :195-215.
8BOSCH A T, HERIK H J, DAELEMANS W. When small disjuncts abound, try lazy learning: a case study[ C ]//Proc of the 7th Belgian- Dutch Conference on Machine Learning. 1997 : 109-118.
9ZHENG Zhao-hui, WU Xiao-yun, SRIHARI R. Feature selection for text categorization on imbalanced data[ J ]. SIGKDD Explorations, 2004,6( 1 ) :80-89.
10FAWCETT T, PROVOST F. Combining data mining and machine learning for effective user profile [ C ]//Proc of the 2nd International Conference on Knowledge Discovery and Data Mining. Portland: AAAI Press, 1996:8-13.

共引文献138

1付旭东,王金艳,李龙燕,陈金车,苏士翔,常伟,王明.基于随机森林算法的风场预报[J].兰州大学学报（自然科学版）,2021,57(4):503-509. 被引量：6
2谢志强,张豪,杨静,谭怀生.高维数据多级模糊模式识别的分类研究[J].计算机应用研究,2009,26(11):4045-4047. 被引量：1
3李明方,张化祥.针对不平衡数据集的Bagging改进算法[J].计算机工程与应用,2010,46(30):40-42. 被引量：12
4陈川,张化祥.基于聚类的少数类样本采样方法[J].信息技术与信息化,2011(5):65-68. 被引量：1
5张玉芳,王勇,熊忠阳,刘明.不平衡数据集上的文本分类特征选择新方法[J].计算机应用研究,2011,28(12):4532-4534. 被引量：8
6滕军放,连亚军,陈叶柔.尼立苏和尼莫通治疗脑梗塞的疗效比较[J].中国新药杂志,2000,9(2):111-112.
7李艳玲,郭文普,徐东辉.一种不平衡数据的分类方法[J].中国电子科学研究院学报,2012,7(3):246-251. 被引量：5
8刘成忠,韩俊英.基于邻域粗糙集的支持向量机在污水处理故障诊断中的应用[J].甘肃农业大学学报,2013,48(3):176-180. 被引量：3
9谢娜娜,房斌,吴磊.不均衡数据集上文本分类方法研究[J].计算机工程与应用,2013,49(20):118-121. 被引量：11
10郭东锋,姚忠达,徐迎波,舒俊生.基于化学成分的烤烟香型分类研究[J].湖南文理学院学报（自然科学版）,2013,25(4):85-89. 被引量：2

同被引文献14

1李兵,韩睿,何怡刚,张晓艺,侯金波.改进随机森林算法在电机轴承故障诊断中的应用[J].中国电机工程学报,2020,40(4):1310-1319. 被引量：70
2郝世锦,崔冬华.基于缺陷分层与PSO算法的软件缺陷预测模型[J].软件,2012,33(2):51-52. 被引量：2
3李勇,刘战东,张海军.不平衡数据的集成分类算法综述[J].计算机应用研究,2014,31(5):1287-1291. 被引量：73
4胡晓星,李辉.胸外科肿瘤患者术前医疗风险评估表在病案中的应用[J].中国病案,2014,15(11):15-17. 被引量：5
5王丹丹,陈情,毕平.肺癌左全肺切除术后心肺并发症的发生与术前低肺功能的相关性[J].中国肿瘤临床,2015,42(7):397-400. 被引量：23
6戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936. 被引量：10
7张枭山,罗强.一种基于聚类融合欠抽样的不平衡数据分类方法[J].计算机科学,2015,42(B11):63-66. 被引量：7
8亢良伊,王建飞,刘杰,叶丹.可扩展机器学习的并行与分布式优化算法综述[J].软件学报,2018,29(1):109-130. 被引量：28
9段明璐.软件故障树算法建模的研究[J].软件,2018,39(2):66-74. 被引量：3
10颜乐鸣.基于关联规则挖掘的软件缺陷分析研究[J].软件,2017,38(1):70-76. 被引量：5

引证文献3

1叶枫,丁锋.不平衡数据分类研究及其应用[J].计算机应用与软件,2018,35(1):132-136. 被引量：15
2张洋.一种基于Logicboost的软件缺陷预测方法[J].软件,2019,40(8):79-83. 被引量：1
3查道贵.基于AMLF优化算法的机器学习框架的技术研究[J].佳木斯大学学报（自然科学版）,2022,40(1):56-59. 被引量：1

二级引证文献17

1朱东旭,严广乐.基于LSTM的《红楼梦》文本风格分界点识别方法[J].智能计算机与应用,2020,10(8):242-248. 被引量：2
2季晨雨.不平衡数据分类研究及在银行营销中的应用[J].山西电子技术,2018(5):55-57.
3季晨雨.不平衡数据分类问题解决办法[J].电子技术与软件工程,2018(15):152-153. 被引量：4
4魏浩,李红,刘小豫.一种改进的SMOTE算法[J].河南科学,2018,36(7):1009-1013. 被引量：3
5刘耀杰,刘独玉.基于不平衡数据集的改进随机森林算法研究[J].计算机技术与发展,2019,29(6):100-104. 被引量：10
6张旭,周新志,赵成萍,邵伦.基于犹豫模糊决策树的非均衡数据分类[J].计算机工程,2019,45(8):75-79. 被引量：15
7李克文,林亚林,杨耀忠.一种改进的基于欧氏距离的SDRSMOTE算法[J].计算机工程与科学,2019,41(11):2063-2070. 被引量：14
8庞泰吾,胡春燕,尹钟.一种改进的随机森林在医疗诊断中的应用[J].软件,2020,41(7):159-163.
9许鸿奎,李鑫,邵星,姜彤彤,宫淑兰.基于加权随机森林的FDD-LTE上行干扰分类研究[J].山东建筑大学学报,2020,35(6):23-29.
10王彦光,朱鸿斌,徐维超.ROC曲线及其分析方法综述[J].广东工业大学学报,2021,38(1):46-53. 被引量：39

1罗晶,杨士宁,石雪梅.存储器测试图形算法概述[J].计算机与数字工程,2017,45(4):740-744. 被引量：3
2张叶茂.指纹识别算法综述[J].电脑编程技巧与维护,2014(23):69-69. 被引量：1
3朱国良.基于.NET平台在PDM中项目管理的研究[J].机械工程师,2008(2):113-115. 被引量：1
4黄琰.基于PDM系统的产品研发过程项目管理[J].价值工程,2011,30(33):138-139. 被引量：1
5冯毅,王亚弟,韩继红.具有安全特性的工作流管理系统框架[J].计算机应用与软件,2008,25(5):165-166.
6王书龙,侯义斌,高放,及歆荣.基于本体的物联网设备资源描述模型[J].北京工业大学学报,2017,43(5):762-769. 被引量：7
7蔡月红,朱倩,程显毅,杨天明.基于句义三维模型的汉语句子相似度计算[J].广西师范大学学报（自然科学版）,2009,27(1):153-156.
8常燕青,周燕飞.PDM中项目管理模块的设计与实现[J].机械制造与自动化,2006,35(3):149-152. 被引量：4
9张秀丹.基于CPLD的异步串行接口设计[J].科技创新与应用,2016,6(18):50-50.
10俞扬信.基于知识推理的语义信息检索研究[J].情报杂志,2008,27(11):78-80. 被引量：10

软件

2016年第7期

浏览历史

内容加载中请稍等...

基于二次随机森林的不平衡数据分类算法被引量：3

参考文献10

二级参考文献65

共引文献138

同被引文献14

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于二次随机森林的不平衡数据分类算法 被引量：3

参考文献10

二级参考文献65

共引文献138

同被引文献14

引证文献3

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于二次随机森林的不平衡数据分类算法被引量：3