-
题名大规模数据分析中基于外推的调节参数选取
- 1
-
-
作者
任好洁
邹长亮
李润泽
-
机构
上海交通大学数学科学学院
南开大学统计与数据科学学院
Department of Statistics
-
出处
《中国科学:数学》
CSCD
北大核心
2022年第6期689-708,共20页
-
基金
国家自然科学基金(批准号:11931001,11690014,11690015和11925106)
天津市自然科学基金(批准号:18JCJQJC46000)资助项目。
-
文摘
许多统计建模方法需要通过一个或多个调节参数来控制模型的复杂性.这些调节参数可以是非参数回归或密度估计中核光滑方法的带宽,也可以是在高维建模中利用正则化方法进行特征选择的相关正则化参数.调节参数选择在统计建模和机器学习中起着关键作用.对于大规模数据分析,诸如基于信息准则的网格点搜索等常用的调节参数选择方法往往需要巨大的计算成本.即使利用并行计算平台,常用方法的可行性仍值得怀疑.本文旨在开发一种快速算法来有效地近似最优调节参数.该算法需要(a)假设一个参数模型来描述最优调节参数与样本大小之间的趋势,(b)利用子采样数据拟合模型并建立趋势,进而(c)将这种趋势外推至大样本的情形.为了确定子采样样本大小,在给定总计算成本预算的约束下,本文推导子采样的理论最优设计,并进一步证明估计的设计具有渐近最优性.本文的数值研究表明,在多个统计应用中,即使利用一个简单的两参数幂函数模型,所提出的算法所挑选的调节参数与基于全数据集所得到的调节参数几乎一致,同时显著地减少了计算时间和存储空间,表现出明显的优势.
-
关键词
渐近性
外推法
非线性模型
最优设计
预测误差
正则化方法
-
Keywords
asymptotic
extrapolation
nonlinear models
optimal design
prediction error
regularized methods
-
分类号
O212
[理学—概率论与数理统计]
-