不平衡类问题在现实生活中普遍存在,表现为一个类的实例数明显多于另一个类的实例数,其类分布不平衡这一特征导致了传统的分类方法不能很好地处理该类问题.本文将k-means和逻辑回归模型相结合,提出一种叫做ILKL(Imbalanced Learning bas...不平衡类问题在现实生活中普遍存在,表现为一个类的实例数明显多于另一个类的实例数,其类分布不平衡这一特征导致了传统的分类方法不能很好地处理该类问题.本文将k-means和逻辑回归模型相结合,提出一种叫做ILKL(Imbalanced Learning based on K-means and Logistic Regression)的算法处理不平衡类问题.首先,ILKL使用聚簇方法将多数类划分成一个个子簇,以重新平衡数据集,然后在相对的平衡的数据集上学习逻辑回归模型.UCI数据集上的实验结果显示,与传统方法相比,本文方法在召回率、g-mean和f-measure等指标上表现出更好的性能.展开更多
针对不平衡分类问题,提出了逻辑判别式算法.该算法使用拟牛顿法迭代求解模型参数,考虑模型的准确率和召回率,构造了新损失函数(Likelihood Estimation and Recall Metric,LERM);设计了用于不平衡类问题的逻辑判别式算法(Logistic Discri...针对不平衡分类问题,提出了逻辑判别式算法.该算法使用拟牛顿法迭代求解模型参数,考虑模型的准确率和召回率,构造了新损失函数(Likelihood Estimation and Recall Metric,LERM);设计了用于不平衡类问题的逻辑判别式算法(Logistic Discrimination Algorithms for Imbalance,LDAI).16个数据集上的实验结果表明,与传统的逻辑判别式、基于过采样和欠采样的逻辑判别式相比,LDAI模型在召回率、f-measure、g-mean等指标上都表现出明显优势.展开更多
针对现有的海量非平衡数据集中少数类别样本入侵检测率低的问题,提出一种类平衡算法与卷积神经网络相结合的网络入侵检测方法。该方法使用ROS(Random Over Sampler)对少数类样本进行过采样,利用高斯混合模型GMM(Gaussian Mixture Model...针对现有的海量非平衡数据集中少数类别样本入侵检测率低的问题,提出一种类平衡算法与卷积神经网络相结合的网络入侵检测方法。该方法使用ROS(Random Over Sampler)对少数类样本进行过采样,利用高斯混合模型GMM(Gaussian Mixture Model)对多数类样本进行聚类欠采样,进而在平衡的数据集上通过CNN来学习网络流量数据中的高维特征,利用Softmax回归对数据进行分类。利用原始的未经平衡处理的数据集以及经过不同类平衡算法处理的CICIDS2017数据集分别对模型进行验证测试。结果表明,该方法在保持较高的整体检测率的同时,对少数类别样本的检测率有了更高的提升,从而验证了该方法具有较好的实用价值。展开更多
针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其...针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。展开更多
文摘不平衡类问题在现实生活中普遍存在,表现为一个类的实例数明显多于另一个类的实例数,其类分布不平衡这一特征导致了传统的分类方法不能很好地处理该类问题.本文将k-means和逻辑回归模型相结合,提出一种叫做ILKL(Imbalanced Learning based on K-means and Logistic Regression)的算法处理不平衡类问题.首先,ILKL使用聚簇方法将多数类划分成一个个子簇,以重新平衡数据集,然后在相对的平衡的数据集上学习逻辑回归模型.UCI数据集上的实验结果显示,与传统方法相比,本文方法在召回率、g-mean和f-measure等指标上表现出更好的性能.
文摘针对不平衡分类问题,提出了逻辑判别式算法.该算法使用拟牛顿法迭代求解模型参数,考虑模型的准确率和召回率,构造了新损失函数(Likelihood Estimation and Recall Metric,LERM);设计了用于不平衡类问题的逻辑判别式算法(Logistic Discrimination Algorithms for Imbalance,LDAI).16个数据集上的实验结果表明,与传统的逻辑判别式、基于过采样和欠采样的逻辑判别式相比,LDAI模型在召回率、f-measure、g-mean等指标上都表现出明显优势.
文摘针对现有的海量非平衡数据集中少数类别样本入侵检测率低的问题,提出一种类平衡算法与卷积神经网络相结合的网络入侵检测方法。该方法使用ROS(Random Over Sampler)对少数类样本进行过采样,利用高斯混合模型GMM(Gaussian Mixture Model)对多数类样本进行聚类欠采样,进而在平衡的数据集上通过CNN来学习网络流量数据中的高维特征,利用Softmax回归对数据进行分类。利用原始的未经平衡处理的数据集以及经过不同类平衡算法处理的CICIDS2017数据集分别对模型进行验证测试。结果表明,该方法在保持较高的整体检测率的同时,对少数类别样本的检测率有了更高的提升,从而验证了该方法具有较好的实用价值。
文摘针对多类不平衡数据分类准确率低的问题,提出一种基于空间扩展的支持向量机学习算法(support vector machine algorithm based on space spreading,SS-SVM)。根据空间扩展原理,在多维欧式空间中通过空间扩展对少类数据进行上采样,使其处理数据时减少小区块的影响;降低数据不平衡度以优化分类器组;在扩展的数据集上训练SVM分类器。标准数据集上的实验结果表明,与几种经典的算法相比,SS-SVM在多类不平衡数据分类上可获得令人满意的分类结果,对少类数据分类精度要求较高的问题尤为有效。