针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法。根据入侵检测数据集的特征分布,对特征值进行系统化处理。首先对Proto、Service和State 3个类别特征,合并每类特征中样本数较少的取...针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法。根据入侵检测数据集的特征分布,对特征值进行系统化处理。首先对Proto、Service和State 3个类别特征,合并每类特征中样本数较少的取值,以降低独热编码的维度;然后依据数值分布将其中18个极端分布的数值特征进行对数处理后再执行Z-score标准化。设计了Nearmiss-1欠采样与SMOTE(Synthetic Minority Over-sampling Technique)过采样相结合的类别不平衡处理技术,将训练集中每类样本按照Proto、Service和State类别特征分成子类,对每个子类进行等比例欠采样或过采样。建立了入侵检测模型PSSNS-RF(Nearmiss and SMOTE based on Proto,Service,State-Random Forest),在UNSW-NB15数据集上的多分类检出率达到97.02%,解决了数据不平衡问题,显著提高了少数类的检出率。展开更多
文摘针对入侵检测数据集存在类别不平衡问题,提出了系统化数据预处理与混合采样相结合的网络入侵检测算法。根据入侵检测数据集的特征分布,对特征值进行系统化处理。首先对Proto、Service和State 3个类别特征,合并每类特征中样本数较少的取值,以降低独热编码的维度;然后依据数值分布将其中18个极端分布的数值特征进行对数处理后再执行Z-score标准化。设计了Nearmiss-1欠采样与SMOTE(Synthetic Minority Over-sampling Technique)过采样相结合的类别不平衡处理技术,将训练集中每类样本按照Proto、Service和State类别特征分成子类,对每个子类进行等比例欠采样或过采样。建立了入侵检测模型PSSNS-RF(Nearmiss and SMOTE based on Proto,Service,State-Random Forest),在UNSW-NB15数据集上的多分类检出率达到97.02%,解决了数据不平衡问题,显著提高了少数类的检出率。