随机森林理论浅析被引量：142

A Brief Theoretical Overview of Random Forests

下载PDF

导出

摘要随机森林是一种著名的集成学习方法,被广泛应用于数据分类和非参数回归。本文对随机森林算法的主要理论进行阐述,包括随机森林收敛定理、泛化误差界以和袋外估计三个部分。最后介绍一种属性加权子空间抽样的随机森林改进算法,用于解决超高维数据的分类问题。 Random Forests is an important ensemble learning method and it is widely used in data classification and nonparametric regression. In this paper, we review three main theoretical issues of random forests, i.e., the convergence theorem, the generalization error bound and the out-of-bag estimation. In the end, we present an improved Random Forests algorithm, which uses a feature weighting sampling method to sample a subset of features at each node in growing trees. The new method is suitable to solve classification problems of very high dimensional data.

作者董师师黄哲学

机构地区深圳市高性能数据挖掘重点实验室中国科学院深圳先进技术研究院

出处《集成技术》 2013年第1期1-7,共7页 Journal of Integration Technology

关键词随机森林数据挖掘机器学习 random forests data mining machine learning

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献19

1Quinlan J R. Induction of decision trees[J].Machine Learning,1986,(01):81-106.
2BREIMAN L,FREIDMAN J,OLSHEN R. Classification and regression trees[M].Belmont(CA):Wadsworth International Group,1984.358.
3Quinlan J R.C4.5:Programs for Machine Learning,1993.
4Cortes C,Vapnik V. Support-vector networks[J].Machine Learning,1995,(03):273-297.
5BREIMAN L. Random forests[J].{H}Machine Learning,2001,(45):5-32.
6Breiman L. Bagging predictors[J].Machine Learning,1996,(02):123-140.
7Ho T. The random subspace method for constructing decision forests[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,(08):832-844.doi:10.1109/34.709601.
8Chen X,Liu M. Prediction of protein-protein interactions using random decision forest framework[J].Bioinformatics,2005,(24):4394-4400.doi:10.1093/bioinformatics/bti721.
9Pang H,Datta D,Zhao H. Pathway analysis using random forests with bivariate node-split for survival outcomes[J].Bioinformatics,2010,(02):250-258.
10Ward M,Pajevic S,Dreyfuss J. Short-term prediction of mortality in patients with systemic lupus erythematosus:classification of outcomes using random forests[J].Arthritis and Rheumatism,2006,(01):74-80.doi:10.1002/art.21695.

二级参考文献39

1陈诗一.汇率预测:一个新的非参数支持向量回归方法[J].数量经济技术经济研究,2007,24(5):142-150. 被引量：14
2AGGARWAL R, DEMASKEY A. 1997. Using derivatives in major currencies for cross - hedging currency risks in Asian emerging markets [ J ]. Journal of Futures Markets, 17:781 - 796.
3BANZ R, BREEN W. 1986. Sample -dependent results using accounting and market data: some evidence [ J]. Journal of Finance,41:779 -793.
4CAMPBELL J. 1987. Stock returns and the term structure [ J]. Journal of Financial Economics, 18:373 - 399.
5CHAN K, CHEN N, HSIEH D. 1985. An exploratory investigation of the firm size effect [ J]. Journal of Financial Economics, 14:451 -471.
6CHEN A S, LEUNG M T, DAOUK H. 2003. Application of neural networks to an emerging financial market: forecasting and trading the Taiwan Stock Index[ J]. Computers & Operations research, 30:901 -923.
7CHEN N, ROLL R, ROSS S. 1986. Economic forces and the stock market [ J ]. Journal of Business, 59:383 - 403.
8FAMA E, BLISS R. 1987. The information in long - maturity forward rates [ J]. American Economic Review, 77: 680 - 692.
9FAMA E, FRENCH K. 1988. Dividend yields and expected stock returns [ J ]. Journal of Financial Economics, 22:3 -25.
10FAMA E, FRENCH K. 1990. Business conditions and expected returns on stocks and bonds[ J]. Journal of Financial Economics. 25:23 -49.

共引文献80

1孙源,胡志军.基于高频词和AUC优化的随机森林文本分类模型[J].数学的实践与认识,2020,0(1):10-15. 被引量：2
2王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
3乔冠禹,胡然,李咏晋.基于随机森林与特征提取算法的试验文本分类算法研究[J].军民两用技术与产品,2018,0(18):198-200.
4李治,杨晓梅,孟樊,范文义.物候特征辅助下的随机森林宏观尺度土地覆盖分类方法研究[J].遥感信息,2013,28(6):48-55. 被引量：16
5叶圣永,王晓茹,刘志刚,钱清泉.基于随机森林算法的电力系统暂态稳定性评估[J].西南交通大学学报,2008,43(5):573-577. 被引量：19
6方睿.中药信息学研究进展[J].中国中医药信息杂志,2009,16(1):2-7. 被引量：7
7应维云,蔺楠,李秀.针对不平衡数据集的客户流失预测算法[J].系统工程,2008,26(11):99-104. 被引量：5
8王志红,王华珍.基于随机森林的基金评级模型选择[J].财务与金融,2009(1):65-70. 被引量：3
9李文彬,史豪斌,李伟华,齐勇.机器人足球进攻策略的仿真研究[J].计算机仿真,2011,28(2):187-191. 被引量：4
10王华珍,胡雪琴.中医“内生五邪”的智能证型分类[J].计算机工程与应用,2011,47(6):156-160. 被引量：8

同被引文献1244

1王玉光,齐文升,马家驹,阮连国,卢幼然,李旭成,赵昕,张忠德,刘清泉.新型冠状病毒肺炎中医临床特征与辨证治疗初探[J].中医杂志,2020,61(4):281-285. 被引量：736
2曾鸣,谢佳.互联网金融个人信用风险评估的指标选择方法[J].时代金融,2019,0(33):6-9. 被引量：5
3王广平.药物警戒制度的知识体系分析[J].中国现代应用药学,2022,39(13):1755-1761. 被引量：8
4闫星宇,顾汉明,罗红梅,闫有平.基于改进深度学习方法的地震相智能识别[J].石油地球物理勘探,2020(6):1169-1177. 被引量：24
5王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
6年庚乾,陈忠辉,周子涵,张凌凡,包敏.基于双重介质模型的裂隙岩质边坡渗流及稳定性分析[J].煤炭学报,2020,45(S02):736-746. 被引量：8
7田睿,孟海东,陈世江,王创业,张飞.基于深度神经网络的岩爆烈度分级预测[J].煤炭学报,2020(S01):191-201. 被引量：45
8王延隆,孙孟瑶.城市大脑框架下社区小脑建设的思考——以杭州市为例[J].创意城市学刊,2020(3). 被引量：3
9黄芳芳,雷鸣,张力,刘璇.基于随机森林和决策树的马尾松松材线虫病监测方法[J].信息通信,2019,32(12):32-36. 被引量：15
10晁恒,李贵才.国家级新区的治理尺度建构及其经济效应评价[J].地理研究,2020,39(3):495-507. 被引量：15

引证文献142

1王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
2曹长玲,翁郁华,李晓琼,王超蕾.基于机器学习的糖尿病视网膜病变合并症风险预测模型[J].生命科学仪器,2023,21(2):56-63.
3温廷新,张波.露天煤矿边坡稳定性的随机森林预测模型[J].科技导报,2014,32(4):105-109. 被引量：21
4温廷新,张波,邵良杉.矿井突水水源识别预测研究——以新庄孜矿为例[J].中国安全科学学报,2014,24(2):100-106. 被引量：25
5温廷新,张波,邵良杉.煤与瓦斯突出预测的随机森林模型[J].计算机工程与应用,2014,50(10):233-237. 被引量：27
6戴晓露,吴薇,黄蓓雯,吕敏.基于大数据分析的高压用户峰谷电量优化研究[J].自动化技术与应用,2019,38(1):54-56. 被引量：3
7王世东,石朴杰,张合兵,王新闯.基于高光谱的矿区复垦农田土壤全氮含量反演[J].生态学杂志,2019,38(1):294-301. 被引量：12
8孙永,刘楠,李智慧,马玉洁,周德庆.电子鼻和随机森林算法快速鉴别野生与养殖日本真鲈[J].食品安全质量检测学报,2019,10(2):551-556.
9张磊,殷梦婕,王建新,董有恒,肖超恩,刘东阳,赵成.基于随机森林的硬件木马检测方法[J].微电子学与计算机,2019,36(2):83-87. 被引量：2
10李志鹏,刘珍环,李正国,唐鹏钦,谭杰扬,杨鹏.水稻空间分布遥感提取研究进展与展望[J].中国农业资源与区划,2014,35(6):9-18. 被引量：26

二级引证文献847

1雷春苗,肖建设,史飞飞,郭英香,赵金龙,郑玲.柴达木地区枸杞种植区遥感提取方法对比研究[J].中国农学通报,2020(17):134-143. 被引量：3
2王蕊,拜得珍,尹芳,刘磊.湟水流域2000—2019年植被变化趋势特征和延续性分析[J].遥感技术与应用,2022,37(6):1504-1512.
3王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
4吕承超,杨珊珊.南北方城市经济空间网络关联效应比较研究[J].南大商学评论,2022(2):1-21.
5邓钰杰,赵鹏,施秀娟,汪兰,吴晓红,江维.结合汉江流域气候特点运用麻杏石甘汤合泽泻汤加减治疗重症COVID-19[J].辽宁中医杂志,2021,48(9):48-50. 被引量：1
6姚成北,章玉,岳通.基于ETC门架数据的高速公路运行状态识别[J].中国交通信息化,2023(S01):35-39.
7樊景威,葛丽娜,张壕,李登辉.融合MultiHead Attention和BiGRU的入侵检测模型[J].计算机与数字工程,2023,51(1):74-80. 被引量：1
8但雨生,周忠发,吴跃,李韶慧,陈全.基于分形插值模型的平寨水库水质评价[J].环境化学,2020(4):987-998. 被引量：5
9毛志勇,崔鹏杰,黄春娟,韩榕月.KPCA-CS-SVM下的矿井突水水源判别模型[J].辽宁工程技术大学学报（自然科学版）,2021(2):104-111. 被引量：2
10何坤敏,王霄,杨靖,覃涛,范圆成.基于RF特征优选和WOA-ELM的风电齿轮箱故障诊断[J].电子测量技术,2023,46(5):57-64. 被引量：2

1王卫民,何晓韬.极限编程理论浅析[J].安阳工学院学报,2006,5(3):45-47. 被引量：5
2万征.离散控制理论浅析[J].山东工业技术,2016(13):239-239.
3李淑萍.计算机网络可靠性的相关理论浅析[J].商品与质量（理论研究）,2012(2):256-256. 被引量：2
4牛虎,付哲,张喆.基于非参数回归的主机性能预测模型[J].科学时代,2013(13).
5姚大鹏,刘鑫,周威.基于HFC的三网合一理论浅析[J].沈阳工程学院学报（自然科学版）,2005,1(2):107-109.
6周金萍.软件测试理论浅析[J].科教导刊（电子版）,2016,0(11):133-134.
7於东军,郑宇杰,吴小俊,杨静宇.基于Kernel-SOM的非线性系统辨识及模型运行收敛性分析[J].电子与信息学报,2008,30(8):1928-1931. 被引量：1
8冯青平,李星毅.基于大数据的非参数回归短时交通流预测方法[J].无线通信技术,2015,24(3):38-43. 被引量：7
9梁轲,谭建军,李英远.一种基于MapReduce的短时交通流预测方法[J].计算机工程,2015,41(1):174-179. 被引量：11
10李海芸,刘云芳.可证明安全性理论浅析[J].甘肃科技,2008,24(19):22-23.

集成技术

2013年第1期

浏览历史

内容加载中请稍等...

随机森林理论浅析被引量：142

参考文献19

二级参考文献39

共引文献80

同被引文献1244

引证文献142

二级引证文献847

相关作者

相关机构

相关主题

浏览历史

随机森林理论浅析 被引量：142

参考文献19

二级参考文献39

共引文献80

同被引文献1244

引证文献142

二级引证文献847

相关作者

相关机构

相关主题

浏览历史

随机森林理论浅析被引量：142