-
题名多源高维数据的多分类纵向整合分析及应用
被引量:5
- 1
-
-
作者
吴梦云
蒋浩宇
冯士倩
-
机构
上海财经大学统计与管理学院
-
出处
《统计研究》
CSSCI
北大核心
2021年第8期132-145,共14页
-
基金
全国统计科学研究重大项目“基于网络结构的多层次变量选择方法及应用”(2018LD02)
上海市浦江人才计划“多源高维数据的变量选择与整合分析及其在生物医疗领域的应用”(19PJ1403600)
。
-
文摘
多分类数据分析在实证研究中具有重要意义。然而,由于高维数、小样本及低信噪比等原因,现有的多分类方法仍面临信息量不足而导致的效果不佳问题。为此,学者们通过收集更多信息源数据以更全面地刻画实际问题。不同于收集相同自变量的不同源样本,目前较为流行的多源数据收集了相同样本的不同源自变量,它们的独立性和相关性为统计建模带来了新的挑战。本文提出基于典型变量回归的多分类纵向整合分析方法,其中利用惩罚技术实现变量选择,并独特地考虑不同源数据间的关联结构,提出高效的ADMM算法进行模型优化。数值模拟结果表明,该方法在变量选择和分类预测上均具有优越性。基于我国上证50的多源股票数据,利用该方法对2019年股票日收益率的影响因素进行了实证探究。研究表明,本文提出的多分类整合分析在筛选出具有解释意义变量的同时具有更好的预测效果。
-
关键词
纵向整合分析
多分类数据
变量选择
典型变量回归
-
Keywords
Vertical Integrative Analysis
Multiple Categorical Data
Variable Selection
Canonical Variate Regression
-
分类号
O212
[理学—概率论与数理统计]
-