样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vici...样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.展开更多
流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针...流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation,ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。展开更多
概率预报是由集合预报衍生、包含不确定性信息的客观产品,对业务决策服务有重要的参考价值。传统的邻域集合概率法中,邻域半径固定不变,不符合实际天气过程中牵涉甚广的尺度谱。为此引入基于集合匹配尺度的邻域集合概率法(Neighborhood ...概率预报是由集合预报衍生、包含不确定性信息的客观产品,对业务决策服务有重要的参考价值。传统的邻域集合概率法中,邻域半径固定不变,不符合实际天气过程中牵涉甚广的尺度谱。为此引入基于集合匹配尺度的邻域集合概率法(Neighborhood Ensemble Probability based on Ensemble Agreement Scale,EAS_NEP),并在中国南方典型的梅雨锋暴雨中开展准确性和预报技巧的定量检验评估,以期验证该方法在此类过程中的适用性,并促进其在实际业务中的推广使用。联合扰动初始场、侧边界和物理过程所得到的集合预报能较好地表征实际的预报不确定性,进一步在此基础上比较了格点概率法、不同半径的邻域集合概率法以及EAS_NEP的优劣。试验结果表明,EAS_NEP能根据集合成员间的一致性程度,自适应地调整邻域半径,其在集中型降水中所确定的邻域半径通常大于分散型降水。动态调整的邻域半径既避免了半径过大时的过度平滑与关键信息丢失,又消除了半径较小所带来的奇异点,其空间分布呈阶梯型,空间连续性更优。此外,BS(布莱尔评分)、FSS(分数技巧评分)和ROC曲线(相对作用特征曲线)等定量评估结果也体现出EAS_NEP相比传统方法正的预报技巧,尤其是在分散型降水和高阈值检验时优势更明显。以上结果表明,EAS_NEP在梅雨锋暴雨的预报中具有较好的应用前景,运用在业务中能有效提升概率预报质量。展开更多
文摘样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.
文摘流特征选择指从以流形式到来的特征数据中选出最优特征子集,现有方法大多在模型训练中需要事先学习领域信息并预设给定参数值。实际应用中,由于不同的数据集数据结构和来源不同,在模型学习过程中研究人员无法提前获取相关领域知识且针对不同类型数据集指定一个统一参数存在巨大挑战。基于此,提出一种基于自适应密度邻域关系的多标签在线流特征选择方法(multi-label online stream feature selection based on adaptive density neighborhood relation,ML-OFS-ADNR),基于邻域粗糙集理论,所提方法在特征依赖计算时无需任何先验领域信息。此外,提出了一种新的自适应密度邻域关系,使用周围实例的密度信息,可以在流特征选择过程中自动选择适当数量的邻域,不需要事先指定任何参数。通过模糊等价约束,ML-OFS-ADNR可以选择高依赖低冗余度的特征。实验表明在10种不同类型的数据集上,所提方法在特征数量相同的情况下优于传统特征选择方法和先进的在线流特征选择方法。
文摘概率预报是由集合预报衍生、包含不确定性信息的客观产品,对业务决策服务有重要的参考价值。传统的邻域集合概率法中,邻域半径固定不变,不符合实际天气过程中牵涉甚广的尺度谱。为此引入基于集合匹配尺度的邻域集合概率法(Neighborhood Ensemble Probability based on Ensemble Agreement Scale,EAS_NEP),并在中国南方典型的梅雨锋暴雨中开展准确性和预报技巧的定量检验评估,以期验证该方法在此类过程中的适用性,并促进其在实际业务中的推广使用。联合扰动初始场、侧边界和物理过程所得到的集合预报能较好地表征实际的预报不确定性,进一步在此基础上比较了格点概率法、不同半径的邻域集合概率法以及EAS_NEP的优劣。试验结果表明,EAS_NEP能根据集合成员间的一致性程度,自适应地调整邻域半径,其在集中型降水中所确定的邻域半径通常大于分散型降水。动态调整的邻域半径既避免了半径过大时的过度平滑与关键信息丢失,又消除了半径较小所带来的奇异点,其空间分布呈阶梯型,空间连续性更优。此外,BS(布莱尔评分)、FSS(分数技巧评分)和ROC曲线(相对作用特征曲线)等定量评估结果也体现出EAS_NEP相比传统方法正的预报技巧,尤其是在分散型降水和高阈值检验时优势更明显。以上结果表明,EAS_NEP在梅雨锋暴雨的预报中具有较好的应用前景,运用在业务中能有效提升概率预报质量。