-
题名随机约束Liu回归的局部影响分析
- 1
-
-
作者
田维琦
王孟孟
郑智泉
-
机构
贵州民族大学数据科学与信息工程学院
-
出处
《应用数学进展》
2021年第11期3783-3795,共13页
-
文摘
在进行回归诊断时,影响点的检测一直是统计学者们研究的一个热点问题,而大多数情况下变量之间会存在自相关性即复共线性,再利用普通最小二乘估计进行影响点的检测会掩盖或掩没一些影响点,得到某些误导性结论。因此,本文考虑利用随机约束Liu估计克服数据间存在复共线时对检测带来的影响,在随机约束Liu回归模型下通过Cook似然距离和Tsai、Billor和Loynes (TBL)的另一种似然距离两种局部影响分析方法来检测影响点,分别在三种扰动模型下得到了影响矩阵、影响曲率和梯度所需的计算公式。最后,通过Longley数据集说明了两种方法都能检测影响点。
-
关键词
局部影响分析
随机约束Liu
影响曲率
影响矩阵
梯度
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名不同缺失率下的数据填补算法稳定性研究
被引量:8
- 2
-
-
作者
郑智泉
陈妍
王孟孟
田维琦
-
机构
贵州民族大学数据科学与信息工程学院
-
出处
《统计与决策》
CSSCI
北大核心
2023年第8期12-17,共6页
-
基金
贵州省科技计划项目(黔科合基础-ZK[2021]一般340)
贵州民族大学“部校共建”专项项目(GZMDBXSZM1908)。
-
文摘
为了研究数据缺失填补算法的准确性和稳定性,文章基于完全随机缺失对完整数据集按不同缺失率进行挖空处理,然后使用6种算法对缺失数据进行填补,并重复执行多次,对比分析其准确性和稳定性,给出相应的置信区间。结果表明,混合迭代填补法准确性优于K近邻、缺失森林、加权K近邻等算法,其稳定性仅次于缺失森林;随着缺失率的增大,该算法准确性高的优势更加显著;当缺失率小于5%时,该算法的准确性和稳定性达到最佳。
-
关键词
数据缺失
缺失率
K近邻
缺失森林
混合迭代填补
-
Keywords
data missing
miss rate
K-nearest neighbor
missing forest
hybrid iterative filling
-
分类号
O212.1
[理学—概率论与数理统计]
-
-
题名基于加权K近邻算法的缺失数据填补研究
被引量:5
- 3
-
-
作者
郑智泉
王孟孟
田维琦
-
机构
贵州民族大学数据科学与信息工程学院
-
出处
《智能计算机与应用》
2021年第11期31-33,42,共4页
-
基金
贵州民族大学“部校共建”专项项目(GZMDBXSZM1908)
-
文摘
针对数据缺失问题,本文在完全随机缺失的前提下,对完整数据集进行不同比例的挖空处理,并使用K近邻算法进行缺失值填补;采用交叉验证法优化K值;最后借用高斯函数,对传统K近邻算法进行加权处理,提出加权K近邻算法。实验结果表明,不论K取值多大,加权K近邻算法填补效果均优于传统K近邻算法;且K=2时,两种算法填补效果达到最佳。
-
关键词
数据缺失
K近邻
交叉验证
高斯函数
加权K近邻
-
Keywords
missing data
K-Nearest Neighbor
cross validation
Gaussian function
Weighted K-Nearest Neighbor
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Pena距离的KL估计的影响分析
- 4
-
-
作者
王孟孟
田维琦
-
机构
贵州民族大学数据科学与信息工程学院
-
出处
《应用数学进展》
2021年第4期923-930,共8页
-
文摘
利用Pena距离对KL估计的影响分析进行讨论,得到了KL估计的Pena统计量的表达式,并对其性质进行讨论分析,从而得到高杠异常点的判别方法。本文对Pena统计量与Cook统计量的性质进行了比较,得出在一定条件下Pena统计量是优于Cook统计量的结论。通过实例对比分析,得到研究结果表明本文提出的理论和方法是科学合理的。
-
关键词
KL估计
Pena距离
影响分析
-
分类号
F20
[经济管理—国民经济]
-