样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vici...样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.展开更多
流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针...流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation,ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。展开更多
文摘样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.
文摘流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation,ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。