期刊文献+

基于秩能量距离的超高维特征筛选研究 被引量:3

A Feature Screening for Ultra-high Dimensional Discriminant Analysis Using Rank-based Energy Distance
下载PDF
导出
摘要 特征筛选是超高维数据分析中常用的快速降维方法。本文首先基于秩能量距离提出了一种新的适用于超高维判别分析的特征筛选方法(RED-SIS)。该方法无需假定模型结构和有限矩条件,对厚尾协变量数据具有较好的稳健性。其次,本文研究了该方法的理论性质,并在几个较为宽松的正则条件下,证明了确定筛选性质和排序相合性。结果表明,RED-SIS能有效处理变量维数p和样本量n满足logp=O(n~α)的超高维判别分析特征筛选问题,且随着样本量的增加,筛选出的特征集合包含全部真实重要特征集合的概率趋近于1。最后,蒙特卡罗模拟研究该方法的有限样本性质,并和现有的超高维特征筛选方法进行比较。数值模拟结果表明,该方法在厚尾数据情况下具有明显的优越性,同时,实际数据分析的研究结果也说明RED-SIS方法的有效性。 Feature screening is a common method for dimensionality reduction in ultra-high dimensional data analysis.In this paper,a new feature screening procedure,named RED-SIS,is first proposed based on rank-based energy distance.This procedure does not need to assume model structure and finite moment conditions,and is robust for heavy-tailed covariate.Secondly,the asymptotical properties of the proposed method are studied,the sure screening property and ranking consistency property are proved under some mild regularity conditions.It shows that the proposed RED-SIS can effectively deal with the ultra-high dimensional discriminant analysis with the sample size n and the dimension number p satisfying logp=O(nα).Also,as the sample size increases,the screened set contains all true important feature sets with the probability tending to 1.Last,we present the finite sample performance of the proposed method by numerical analysis,and compare the proposed method with the existing methods for the feature screening in ultra-high dimensional discriminant analysis.Both simulation and real data analysis shows that RED-SIS can be more competitive for feature screening with heavy-tailed distribution.
作者 何胜美 李高荣 许王莉 He Shengmei;Li Gaorong;Xu Wangli
出处 《统计研究》 CSSCI 北大核心 2020年第8期117-128,共12页 Statistical Research
基金 国家自然科学基金项目“非参数独立性检验及其应用研究”(11971478) 国家自然科学基金“高维回归模型的大规模统计学习和推断”(11871001) 国家自然科学基金“不完全数据下半参数混合效应模型的研究”(11971001) 北京市自然科学基金“大规模因果推断模型的统计学习及其应用”(1182003) 北京市自然科学基金资助项目“监督学习的降维理论与优化方法”(Z190002) 中央高校基本科研业务费专项资金“高维半参数因果推断模型的统计学习研究”(2019NTSS18) 教育部人文社会科学重点研究基地重大项目“基于大数据的精准医学生物统计分析方法及其应用研究”(16JJD910002)。
关键词 超高维数据 特征筛选 秩能量距离 确定筛选性质 Ultra-high Dimensional Data Feature Screening Rank-based Energy Distance Sure Screening Property
  • 相关文献

同被引文献21

引证文献3

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部