针对单一的不平衡数据分类算法合成样本质量不佳、未考虑类内样本分布等局限性,提出一种不平衡数据中基于权重的边界混合采样(boundary mixed sampling based on weight selection in imbalanced data,BWBMS)。剔除噪声样本并引入边界...针对单一的不平衡数据分类算法合成样本质量不佳、未考虑类内样本分布等局限性,提出一种不平衡数据中基于权重的边界混合采样(boundary mixed sampling based on weight selection in imbalanced data,BWBMS)。剔除噪声样本并引入边界因子概念,把原样本空间分成边界集和非边界集;考虑类内样本分布,对于边界集中每个少数类样本赋予支持度权重和密度权重并增加采样比重将其划分为两类,对两类样本子集采用不同的过采样算法和过采样倍率;考虑不同区域样本重要性的不同,根据多数类样本距离其最近的k个异类近邻的平均距离来删减部分非边界集多数类样本点。实验结果表明,结合SVM分类器的BWBMS算法在不同数据集上的性能指标得到了提升,验证了其有效性。展开更多
针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题,提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering,ADHSBHD).首先引入HDBSCA...针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题,提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering,ADHSBHD).首先引入HDBSCAN聚类算法,将少数类和多数类分别聚类,将全局离群点和局部离群点的交集视为噪声集,在剔除噪声样本之后对原数据集进行处理,其次,根据少数类样本中每簇的平均距离,采用覆盖面更广的采样方法自适应合成新样本,最后删除一部分多数类样本集中的对分类贡献小的点,使数据集均衡.ADHSBHD算法在7个真实数据集上进行评估,结果证明了其有效性.展开更多
文摘针对单一的不平衡数据分类算法合成样本质量不佳、未考虑类内样本分布等局限性,提出一种不平衡数据中基于权重的边界混合采样(boundary mixed sampling based on weight selection in imbalanced data,BWBMS)。剔除噪声样本并引入边界因子概念,把原样本空间分成边界集和非边界集;考虑类内样本分布,对于边界集中每个少数类样本赋予支持度权重和密度权重并增加采样比重将其划分为两类,对两类样本子集采用不同的过采样算法和过采样倍率;考虑不同区域样本重要性的不同,根据多数类样本距离其最近的k个异类近邻的平均距离来删减部分非边界集多数类样本点。实验结果表明,结合SVM分类器的BWBMS算法在不同数据集上的性能指标得到了提升,验证了其有效性。
文摘针对非平衡数据存在的类内不平衡、噪声、生成样本覆盖面小等问题,提出了基于层次密度聚类的去噪自适应混合采样算法(adaptive denoising hybrid sampling algorithm based on hierarchical density clustering,ADHSBHD).首先引入HDBSCAN聚类算法,将少数类和多数类分别聚类,将全局离群点和局部离群点的交集视为噪声集,在剔除噪声样本之后对原数据集进行处理,其次,根据少数类样本中每簇的平均距离,采用覆盖面更广的采样方法自适应合成新样本,最后删除一部分多数类样本集中的对分类贡献小的点,使数据集均衡.ADHSBHD算法在7个真实数据集上进行评估,结果证明了其有效性.