目的比较删除法(deletion methods,DM)、基于对数线性模型的多重填补法(multiple imputation of category variables using log-linear model,M ILL)及基于潜在类别模型的多重填补法(multiple imputation based on latent class model,M...目的比较删除法(deletion methods,DM)、基于对数线性模型的多重填补法(multiple imputation of category variables using log-linear model,M ILL)及基于潜在类别模型的多重填补法(multiple imputation based on latent class model,M ILC)处理分类变量缺失数据的效果,并将M ILC应用于实例数据的分析。方法利用R语言产生不同缺失机制、缺失率和样本含量的多变量缺失模拟数据,运用DM、MILL和MILC处理形成完整数据集并进行logistic回归分析,通过回归系数的偏倚、均方根误差、稳定度和标准误偏倚评价各方法的处理效果。结果模拟实验表明当缺失率为5%时,三种方法处理效果均较好;随着缺失率的增大,MILL和MILC的各项评价指标均优于DM,且MILC的准确度高于MILL。三种方法处理效果均表现为完全随机缺失优于随机缺失、样本含量1000优于样本含量500。应用MILC对实例数据填补后标准误减小,回归系数估计更准确。结论本文应用MILL和MILC两种多重填补方法处理分类变量缺失数据均可减少缺失导致的参数估计偏倚。当缺失率>5%、样本含量1000时,建议应用MILC处理分类变量缺失数据。展开更多
针对多变量时序(Multivariate Time Series,MTS)分类中长序列数据难以捕捉时序特征的问题,提出一种基于双向稀疏Transformer的时序分类模型BST(Bidirectional Sparse Transformer),提高了MTS分类任务的准确度.BST模型使用Transformer框...针对多变量时序(Multivariate Time Series,MTS)分类中长序列数据难以捕捉时序特征的问题,提出一种基于双向稀疏Transformer的时序分类模型BST(Bidirectional Sparse Transformer),提高了MTS分类任务的准确度.BST模型使用Transformer框架,构建了一种基于活跃度得分的双向稀疏注意力机制.基于KL散度构建活跃度评价函数,并将评价函数的非对称问题转变为对称权重问题.据此,对原有查询矩阵、键值矩阵进行双向稀疏化,从而降低原Transformer模型中自注意力机制运算的时间复杂度.实验结果显示,BST模型在9个长序列数据集上取得最高平均排名,在临界差异图中领先第2名35.7%,对于具有强时序性的乙醇浓度数据集(Ethanol Concentration,EC),分类准确率提高30.9%.展开更多
文摘目的比较删除法(deletion methods,DM)、基于对数线性模型的多重填补法(multiple imputation of category variables using log-linear model,M ILL)及基于潜在类别模型的多重填补法(multiple imputation based on latent class model,M ILC)处理分类变量缺失数据的效果,并将M ILC应用于实例数据的分析。方法利用R语言产生不同缺失机制、缺失率和样本含量的多变量缺失模拟数据,运用DM、MILL和MILC处理形成完整数据集并进行logistic回归分析,通过回归系数的偏倚、均方根误差、稳定度和标准误偏倚评价各方法的处理效果。结果模拟实验表明当缺失率为5%时,三种方法处理效果均较好;随着缺失率的增大,MILL和MILC的各项评价指标均优于DM,且MILC的准确度高于MILL。三种方法处理效果均表现为完全随机缺失优于随机缺失、样本含量1000优于样本含量500。应用MILC对实例数据填补后标准误减小,回归系数估计更准确。结论本文应用MILL和MILC两种多重填补方法处理分类变量缺失数据均可减少缺失导致的参数估计偏倚。当缺失率>5%、样本含量1000时,建议应用MILC处理分类变量缺失数据。