-
题名基于单元间距离估计的不等概率抽样算法及应用
被引量:2
- 1
-
-
作者
周楷贺
李莉莉
-
机构
青岛大学经济学院
-
出处
《青岛大学学报(自然科学版)》
CAS
2023年第2期5-10,共6页
-
基金
国家社会科学基金(批准号:2019BTJ028)资助
山东省金融应用重点研究项目(批准号:2020-JRZZ-03)资助。
-
文摘
现有大数据的不等概率抽样方法大多基于数据分布,泛化能力较差。为此,利用多层感知机、XGBoost和Kriging模型估计总体单元间的相对距离,提出针对海量数据的不等概率抽样算法。此类算法既不需要考虑总体的分布,又能够保证样本的代表性。实证分析结果表明,基于此算法抽取样本构建的模型与简单随机抽样方法相比,模型参数估计的均方误差更低,效果更稳定。
-
关键词
不等概率抽样
代理模型
样本代表性
-
Keywords
unequal probability sampling
surrogate model
sample representation
-
分类号
O212.2
[理学—概率论与数理统计]
-
-
题名基于布谷鸟搜索的XGBoost算法优化及应用研究
- 2
-
-
作者
李欣玲
李莉莉
周楷贺
-
机构
青岛大学经济学院
-
出处
《青岛大学学报(自然科学版)》
CAS
2023年第4期35-40,共6页
-
基金
国家社科基金(批准号:2019BTJ028)资助
山东省金融应用重点研究项目(批准号:2020-JRZZ-03)资助。
-
文摘
为提高XGBoost算法预测精度,采用布谷鸟搜索算法全局优化XGBoost的超参数包括学习率、输出结点分裂的最小损失、树模型的最大深度和弱学习器的数量,构建CS-XGBoost模型训练数据集。实验结果表明,基于CS-XGBoost的收入分类模型的准确率、精确率、F1分数和AUC等指标分别为95.67%、97.17%、95.56%和97.96%,均优于Logistic回归、支持向量机、随机森林、XGBoost算法和基于网格搜索的XGBoost算法;基于CS-XGBoost的房价预测模型的决定系数、均方根误差及平均绝对误差分别为0.9055、2.9435及2.1654,预测精度较XGBoost算法得到显著提升。
-
关键词
XGBoost
布谷鸟搜索
分类预测
回归预测
-
Keywords
XGBoost
cuckoo search
classification prediction
regression prediction
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于主成分分析法的两步子抽样算法及应用研究
- 3
-
-
作者
王玉
李莉莉
周楷贺
-
机构
青岛大学经济学院
-
出处
《青岛大学学报(自然科学版)》
CAS
2023年第4期13-17,共5页
-
基金
国家社科基金(批准号:2019BTJ028)资助
山东省金融应用重点研究项目(批准号:2020-JRZZ-03)资助。
-
文摘
针对大数据中高维变量多重共线性问题,结合Logistic模型提出两种基于主成分分析法的两步子抽样算法,分别为基于A-最优准则的最小均方误差(minimum Mean Square Error,mMSE)抽样和基于L-最优准则的最小方差协方差(minimum Variance covariance,mVc)抽样。实证结果表明,相较于随机抽样,mMSE抽样和mVc抽样能大幅降低模型参数估计的均方误差,提升模型的查准率、召回率、F1分数、特异度等分类评价指标。
-
关键词
大数据
主成分分析法
两步子抽样算法
信用风险预测
-
Keywords
big data
principal component analysis
two-step subsampling algorithm
credit risk prediction
-
分类号
O212.2
[理学—概率论与数理统计]
-
-
题名基于两步子抽样算法的多目标抽样统计推断研究
- 4
-
-
作者
李莉莉
周楷贺
杜梅慧
-
机构
青岛大学经济学院
南开大学数量经济研究所
-
出处
《数理统计与管理》
北大核心
2023年第6期1037-1060,共24页
-
基金
国家社科基金项目(2019BTJ028)。
-
文摘
针对海量数据,子抽样算法是当前一种流行的简化计算和降低计算成本的方法。现阶段的研究主要集中于单目标变量的估计上。多目标抽样也是现实生活中经常遇到的问题。本文提出基于广义线性模型,多目标抽样的均值两步子抽样算法。两步子抽样算法是Wang等(2018)[1]提出的基于L-最优和A-最优的思想,确定每个抽样单元的入样概率。本文在此基础上,定义多目标抽样的各单元的入样概率,并推导模型参数估计量的渐近性质,最后用模拟数据和实际例子对均值两步子抽样算法和多目标两步子抽样方法进行比较。结果表明,在样本量相同时,A-最优准则下均值两步子抽样算法在估计精度上优于基于两步子抽样算法的MPPS抽样和L-最优准则下均值多目标两步子抽样算法。在计算效率上也较全样本估计有显著的提高,节约了计算时间。
-
关键词
大数据
两步子抽样算法
广义线性模型
-
Keywords
big data
two-step subsampling algorithm
generalized linear model
-
分类号
O212.2
[理学—概率论与数理统计]
-
-
题名基于岭回归模型大数据最优子抽样算法研究
被引量:9
- 5
-
-
作者
李莉莉
靳士檑
周楷贺
-
机构
青岛大学经济学院
-
出处
《系统科学与数学》
CSCD
北大核心
2022年第1期50-63,共14页
-
基金
国家社会科学基金(2019BTJ028)资助课题。
-
文摘
随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,结果表明,利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近,并大幅减少了运算时间.
-
关键词
大数据
最优子抽样算法
岭回归
-
Keywords
Big data
optimal subsampling algorithm
ridge regression
-
分类号
O212.2
[理学—概率论与数理统计]
TP311.13
[自动化与计算机技术—计算机软件与理论]
-