随机森林与传统经典方法在回归与分类问题中的比较

Comparison of Random Forest and Traditional Classical Method in Regression and Classification Problems

下载PDF

导出

摘要随机森林最早是由Breiman提出的,是机器学习的算法之一。本文以一个回归,一个分类的数据为基础,利用10折交叉验证的方法比较传统经典回归和分类方法与随机森林的预测效果。对于回归数据,分别用逐步回归、岭回归、偏最小二乘回归、线性回归和随机森林做预测对比,10折交叉验证结果显示随机森林的预测效果比传统回归方法的预测效果好。对于分类数据,分别用混合线性判别分析、线性判别分析、logistic回归和随机森林进行分类对比,10折交叉验证结果显示随机森林的分类效果比传统分类方法的预测效果好。 Random Forest was first proposed by Breiman as one of the algorithms for machine learning. Based on one regression and one categorical data, this paper uses the 10-fold cross-validation method to compare the prediction effect of traditional classical regression and classification methods with random forests. For the regression data, stepwise regression, ridge regression, partial least squares regression, linear regression and random forest were used for prediction comparison, and the 10-fold cross-validation results showed that the prediction effect of random forest was better than that of traditional regression method. For the categorical data, mixed linear discriminant analysis, linear discriminant analysis, logistic regression and random forest were used for classification comparison, and the results of 10-fold cross-validation showed that the classification effect of random forest was better than that of the traditional classification method.

作者董娅婷

机构地区云南师范大学数学学院

出处《统计学与应用》 2023年第2期255-260,共6页 Statistical and Application

关键词随机森林经典回归方法经典分类方法交叉验证机器学习

分类号 G63 [文化科学—教育学]

引文网络
相关文献

参考文献2

1李红梅,吴喜之,王涛.基于纵向数据与多重共线性数据的神经网络与传统方法比较[J].统计与决策,2020(9):22-25. 被引量：5
2李欣海.随机森林模型在分类与回归分析中的应用[J].应用昆虫学报,2013,50(4):1190-1197. 被引量：348

二级参考文献23

1Archer KJ, Kirnes RV, 2008. Empirical characterization of random forest variable importance measures. Comput. Stat. Data Anal. ,52(4):2249-2260.
2Biau G, 2012. Analysis of a random forests model. J. Mach. Learn. Res. , 13: 1063 -1095.
3Breiman L, 2001a. Random forests. Mach. Learn. , 45:5 - 32.
4Breiman L, 2001b. Statistical modeling: The two cultures. Stat. Sci., 16:199-215.
5Breiman L, Friedman JH, O lshen RA, Stone CJ, 1984.Classification and Regression Trees. Chapman and Hall. 1 -359.
6Cutler DR, Edwards TC, Jr., Beard KH, Cutler A, Hess KT, 2007. Random forests for classification in ecology. Ecology, 88 (11) :2783 - 2792.
7Deng H, Runger G, Tuv E, 2011. Bias of importance measures for multi-valued attributes and solutionsl I Proceedings of the 21 st International Conference on Artificial Neural Networks (ICANN).
8Elith J, Graham CH, 2009. Do they? How do they? Why do they differ? On finding reasons for differing performances of species distribution models. Ecography, 32 ( 1 ) : 66 - 77 .
9Genuer R, Poggi JM, Tuleau-Malot C, 2010. Variable selection using random forests. Pattern Recogn. Lett., 31 (14) :2225 - 2236.
10Groemping U, 2009. Variable importance assessment in regression.: linear regression versus random forest. Am. Stat. , 63(4) :308 -319.

共引文献351

1陈文明.色谱重叠峰的解析方法概论[J].中国水运（下半月）,2020(5):69-71. 被引量：1
2刘志君,崔丽娟,李伟,窦志国,左雪燕,雷茵茹,潘旭,李晶,赵欣胜,翟夏杰.基于高光谱的辽河口盐地碱蓬生态化学计量特征反演研究[J].遥感技术与应用,2023,38(1):239-250.
3杨龙,王闻娟,覃哲,古悦璇.中国大学生气候认知与低碳行为及其影响因素研究——基于随机森林模型分析[J].文化与传播,2022,11(2):6-15. 被引量：1
4孙诗睿,赵艳玲,王亚娟,王鑫,张硕.基于无人机多光谱遥感的冬小麦叶面积指数反演[J].中国农业大学学报,2019,24(11):51-58. 被引量：24
5付旭东,王金艳,李龙燕,陈金车,苏士翔,常伟,王明.基于随机森林算法的风场预报[J].兰州大学学报（自然科学版）,2021,57(4):503-509. 被引量：6
6李宁,王晓东,惠雨乔,刘长青.排水管道阻塞辨识定位和供水管网漏损技术及应用现状分析[J].给水排水,2022,48(S01):1074-1082. 被引量：5
7成方龙,赵冠伟,杨木壮,刘月亮,李芳.集成地理探测器与随机森林模型的城市人口分布格网模拟[J].测绘通报,2020(1):76-81. 被引量：10
8王雪冬,张超彪,王翠,朱永东,王海鹏.基于Logistic回归与随机森林的和龙市地质灾害易发性评价[J].吉林大学学报（地球科学版）,2022,52(6):1957-1970. 被引量：21
9鲁如坤,时正元,赖庆旺.红壤长期施肥养分的下移特征[J].土壤,2000,32(1):27-29. 被引量：37
10胡飞,温其标,陈玲,李琳.二步法合成烷基糖苷表面活性剂产品的应用性能研究[J].现代化工,2000,20(1):34-36. 被引量：8

1赵建辉.我国企业数据资产会计研究[J].复印报刊资料（财会文摘）,2022(6):7-8.
2张志颖,程鹏,杨聪,单锐.微生物燃料电池处理抗生素的研究进展[J].新能源进展,2023,11(2):139-146.
3高媛,方海,赵扬,杨旭.星地协同网络中的边缘计算技术综述[J].空间电子技术,2023,20(2):15-21. 被引量：5
4吴翔宇,荀超,肖芬,林可尧,林超群,陈伯建.基于RF变量选择与LSTM回归的长期用电量预测模型[J].电气传动,2023,53(5):71-76. 被引量：1
5胡洪斌,马子红.基于DEA方法的我国上市文化企业融资效率评价[J].文化产业研究,2022(2):198-216.
6刘佳茹,保广裕,张静,代青措,杨春华.基于逻辑回归的京藏高速民和至西宁段冬季路面结冰模型研究[J].青海环境,2023,33(1):34-38.
7周三林.基于数据挖掘探讨我国南北中医治疗糖尿病肾病用药规律[J].内蒙古中医药,2023,42(1):161-164.
8祝玉华,王百皓,李智慧.基于深度学习的粮食安全信息融合技术研究[J].中国粮油学报,2023,38(3):1-9.
9世界卫生组织公布一批全球最大的健康不平等数据[J].中国卫生政策研究,2023,16(4):36-36.
10孙莹,陈本元,郑素丽.地方标准化对区域经济发展的影响——兼论技术与市场的双重中介效应[J].科技管理研究,2023,43(6):170-176. 被引量：3

统计学与应用

2023年第2期

浏览历史

内容加载中请稍等...

随机森林与传统经典方法在回归与分类问题中的比较

参考文献2

二级参考文献23

共引文献351

相关作者

相关机构

相关主题

浏览历史