期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于单元间距离估计的不等概率抽样算法及应用 被引量:2
1
作者 周楷贺 李莉莉 《青岛大学学报(自然科学版)》 CAS 2023年第2期5-10,共6页
现有大数据的不等概率抽样方法大多基于数据分布,泛化能力较差。为此,利用多层感知机、XGBoost和Kriging模型估计总体单元间的相对距离,提出针对海量数据的不等概率抽样算法。此类算法既不需要考虑总体的分布,又能够保证样本的代表性。... 现有大数据的不等概率抽样方法大多基于数据分布,泛化能力较差。为此,利用多层感知机、XGBoost和Kriging模型估计总体单元间的相对距离,提出针对海量数据的不等概率抽样算法。此类算法既不需要考虑总体的分布,又能够保证样本的代表性。实证分析结果表明,基于此算法抽取样本构建的模型与简单随机抽样方法相比,模型参数估计的均方误差更低,效果更稳定。 展开更多
关键词 不等概率抽样 代理模型 样本代表性
下载PDF
基于布谷鸟搜索的XGBoost算法优化及应用研究
2
作者 李欣玲 李莉莉 周楷贺 《青岛大学学报(自然科学版)》 CAS 2023年第4期35-40,共6页
为提高XGBoost算法预测精度,采用布谷鸟搜索算法全局优化XGBoost的超参数包括学习率、输出结点分裂的最小损失、树模型的最大深度和弱学习器的数量,构建CS-XGBoost模型训练数据集。实验结果表明,基于CS-XGBoost的收入分类模型的准确率... 为提高XGBoost算法预测精度,采用布谷鸟搜索算法全局优化XGBoost的超参数包括学习率、输出结点分裂的最小损失、树模型的最大深度和弱学习器的数量,构建CS-XGBoost模型训练数据集。实验结果表明,基于CS-XGBoost的收入分类模型的准确率、精确率、F1分数和AUC等指标分别为95.67%、97.17%、95.56%和97.96%,均优于Logistic回归、支持向量机、随机森林、XGBoost算法和基于网格搜索的XGBoost算法;基于CS-XGBoost的房价预测模型的决定系数、均方根误差及平均绝对误差分别为0.9055、2.9435及2.1654,预测精度较XGBoost算法得到显著提升。 展开更多
关键词 XGBoost 布谷鸟搜索 分类预测 回归预测
下载PDF
基于主成分分析法的两步子抽样算法及应用研究
3
作者 王玉 李莉莉 周楷贺 《青岛大学学报(自然科学版)》 CAS 2023年第4期13-17,共5页
针对大数据中高维变量多重共线性问题,结合Logistic模型提出两种基于主成分分析法的两步子抽样算法,分别为基于A-最优准则的最小均方误差(minimum Mean Square Error,mMSE)抽样和基于L-最优准则的最小方差协方差(minimum Variance covar... 针对大数据中高维变量多重共线性问题,结合Logistic模型提出两种基于主成分分析法的两步子抽样算法,分别为基于A-最优准则的最小均方误差(minimum Mean Square Error,mMSE)抽样和基于L-最优准则的最小方差协方差(minimum Variance covariance,mVc)抽样。实证结果表明,相较于随机抽样,mMSE抽样和mVc抽样能大幅降低模型参数估计的均方误差,提升模型的查准率、召回率、F1分数、特异度等分类评价指标。 展开更多
关键词 大数据 主成分分析法 两步子抽样算法 信用风险预测
下载PDF
基于两步子抽样算法的多目标抽样统计推断研究
4
作者 李莉莉 周楷贺 杜梅慧 《数理统计与管理》 北大核心 2023年第6期1037-1060,共24页
针对海量数据,子抽样算法是当前一种流行的简化计算和降低计算成本的方法。现阶段的研究主要集中于单目标变量的估计上。多目标抽样也是现实生活中经常遇到的问题。本文提出基于广义线性模型,多目标抽样的均值两步子抽样算法。两步子抽... 针对海量数据,子抽样算法是当前一种流行的简化计算和降低计算成本的方法。现阶段的研究主要集中于单目标变量的估计上。多目标抽样也是现实生活中经常遇到的问题。本文提出基于广义线性模型,多目标抽样的均值两步子抽样算法。两步子抽样算法是Wang等(2018)[1]提出的基于L-最优和A-最优的思想,确定每个抽样单元的入样概率。本文在此基础上,定义多目标抽样的各单元的入样概率,并推导模型参数估计量的渐近性质,最后用模拟数据和实际例子对均值两步子抽样算法和多目标两步子抽样方法进行比较。结果表明,在样本量相同时,A-最优准则下均值两步子抽样算法在估计精度上优于基于两步子抽样算法的MPPS抽样和L-最优准则下均值多目标两步子抽样算法。在计算效率上也较全样本估计有显著的提高,节约了计算时间。 展开更多
关键词 大数据 两步子抽样算法 广义线性模型
原文传递
基于岭回归模型大数据最优子抽样算法研究 被引量:9
5
作者 李莉莉 靳士檑 周楷贺 《系统科学与数学》 CSCD 北大核心 2022年第1期50-63,共14页
随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型... 随着大数据时代的来临,为了提高计算效率,Wang等(2018)提出基于logistic回归的最优子抽样算法,在保证参数估计精度的前提下,节省了大量的运算时间.为解决变量间的多重共线性,文章提出基于岭回归模型的最优子抽样算法,并证明岭回归模型中参数估计的一致性与渐近正态性.利用数值模拟与实证分析对最优子抽样算法进行评估,结果表明,利用最优子抽样构建的模型与全样本构建的模型在参数估计的精度相近,并大幅减少了运算时间. 展开更多
关键词 大数据 最优子抽样算法 岭回归
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部