虚拟样本是一种在学习过程中引入先验知识的有效手段,一定程度上提高了分类器的性能。然而由于生成的虚拟样本集的数据分布与原始训练集的分布不一致,因此利用虚拟样本扩充后的训练样本集进行学习的分类器分类性能上存在波动。针对这种...虚拟样本是一种在学习过程中引入先验知识的有效手段,一定程度上提高了分类器的性能。然而由于生成的虚拟样本集的数据分布与原始训练集的分布不一致,因此利用虚拟样本扩充后的训练样本集进行学习的分类器分类性能上存在波动。针对这种不足,提出一种基于权重选择虚拟样本的新分类算法。该方法首先利用TrAdaBoost算法对扩充后的样本集进行预处理,然后选取权重大于某一给定阈值的样本构造新训练样本集,最后根据新样本集进行训练得到分类器。由于排出了不重要的样本,因此在新样本集上得到的分类器具有更高的精度。在部分UCI标准数据集与KDD cup 99网络入侵检测数据集上的对比实验说明了该算法较不产生虚拟样本的直接分类算法和利用虚拟样本全集进行训练的分类算法具有更高的精度。展开更多
文摘虚拟样本是一种在学习过程中引入先验知识的有效手段,一定程度上提高了分类器的性能。然而由于生成的虚拟样本集的数据分布与原始训练集的分布不一致,因此利用虚拟样本扩充后的训练样本集进行学习的分类器分类性能上存在波动。针对这种不足,提出一种基于权重选择虚拟样本的新分类算法。该方法首先利用TrAdaBoost算法对扩充后的样本集进行预处理,然后选取权重大于某一给定阈值的样本构造新训练样本集,最后根据新样本集进行训练得到分类器。由于排出了不重要的样本,因此在新样本集上得到的分类器具有更高的精度。在部分UCI标准数据集与KDD cup 99网络入侵检测数据集上的对比实验说明了该算法较不产生虚拟样本的直接分类算法和利用虚拟样本全集进行训练的分类算法具有更高的精度。