期刊文献+

基于学生化极差分布的随机森林变量选择研究 被引量:4

Variable Selection in Randon Forests Based on Studentized Range Distribution
下载PDF
导出
摘要 变量选择一直是统计分析与推断中的重要研究内容。针对该研究内容,提出一种基于随机森林的变量选择新方法。以随机森林中的最小深度重要性度量和置换重要性度量为基础,对得到的变量最小深度重要性得分和置换重要性得分,引入学生化极差分布进行变量重要性得分差异是否显著的检验。根据检验的结果将变量分组,对分组变量采用逐步回归方法挑选。运用新方法在模拟设计的线性模型、二次函数模型和复杂模型上,都能够选出真正变量,验证了新方法的有效性和可行性。经典的波士顿房价数据上的运用分析给出了新方法的实用性。 Variable selection has always been important research content in statistical analysis and inference.In response to this research content,a new method of variable selection based on random forests be proposed.Using the random forests score of importance,which be the minimum depth importance and permutation importance,and introducing studentized range distribution in multiple comparison studies,whether the importance of variables is tested for significant differences at a given significance level.According to the results of test variables are divided into different groups and are selected using stepwise regression.On the linear model,quadratic function model,and complex model of simulation design,the true variables can be selected to verify the effectiveness and feasibility of new method.The use of the classic Boston Housing Prices Data demonstrates the practicability of the new method.
作者 曹桃云 陈敏琼 CAO Tao-yun;CHEN Min-qiong(School of Statistics and Mathematics,Guangdong University of Finance and Economics,Guangzhou 510320,China;School of Economics and Trade,Xinhua College of Sun Yat-Sen University(Dongguan),Guangzhou 510520,China)
出处 《统计与信息论坛》 CSSCI 北大核心 2021年第8期15-22,共8页 Journal of Statistics and Information
基金 广东省自然科学基金面上项目“机器学习方法在纵向数据分析中的稳健性研究”(2020A1515011580) 广东财经大学校级学位与研究生教育改革研究项目“科教融合视角下研究生培养模式探索与实践”(2021YB08)。
关键词 学生化极差分布 随机森林 变量选择 最小深度重要性 置换重要性 studentized range distribution randon forests variable selection minimum depth importance permutation importance
  • 相关文献

参考文献1

二级参考文献1

共引文献14

同被引文献19

引证文献4

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部