不平衡数据分类方法及其在入侵检测中的应用研究被引量：8

Imbalanced Data Classification Method and its Application Research for Intrusion Detection

下载PDF

导出

摘要直接将传统的分类方法应用于不平衡数据集时,往往导致少数类的分类精度低下。提出一种基于K-S统计的不平衡数据分类方法,以有效提高少数类的识别率。利用K-S统计评估分类与特征之间的关系,去除冗余特征,并且构建K-S决策树获得数据分片,调整数据的不平衡度;最后对分片数据双向抽样调整,进行分类学习。该方法使用的K-S统计假设条件极易满足,其效率高且适用性强。通过KDD99入侵检测数据的分析对比表明,对于不平衡的数据集,该方法对多数类及少数类都具有较高的分类精度。 The traditional classification algorithms always have low classification accuracy rate especially for the minorityclass when they are directly employed on classifying imbalanced datasets.A K-S statistic based new classification method for imbalanced data was proposed to enhance the performance of minority class recognition.At first,the K-S statistic was employed as a correlation measure to remove redundant variables.Then a K-S based decision tree was built to segment the training data into several subsets.Finally,two-way resampling methods,forward and backward,were used to rebuild the segmentation datasets as to implement more reasonable classification learning.The proposed K-S based method,with a realistic assumption,is very high efficient and widely applicable.The KDD99 intrusion detection experimental analysis proves that the method has high classification accuracy rate of both minority and majority class for imbalanced datasets.

作者江颉王卓芳 GONG Rong-sheng 陈铁明

机构地区浙江工业大学计算机科学与技术学院美国辛辛那提大学智能系统实验室

出处《计算机科学》 CSCD 北大核心 2013年第4期131-135,共5页 Computer Science

基金国家自然科学基金(61103044) 浙江省自然科学基金(Y1110567) 浙江省科技厅计划项目(2010C31126 2011C21046)资助

关键词不平衡数据 K-S统计逻辑回归入侵检测 Imbalanced data K-S statistic Logistic regression Intrusion detection

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献15

1Ling C X, Li C. Data mining for direct marketing:Problems and solutions[C]//Proceedings of the 4th international conference on knowledge discovery and data mining. New York, NY, 1998: 73-79.
2Sun Yan-min, Kamel M S, Wong A K C, et aL Cost-Sensitive Boosting for Classification of Imbalanced Data[J]. Pattern Re- cognition, 2007,40(12) : 3358-3378.
3Estabrooks A,Jo T,Japkowicz N. A multiple resampling method for learning from imbalanced data sets [J]. Computational Intel- ligence, 2004,20(1) : 18-36.
4Japkowicz N, Stephen S. The class imbalance problem: A sys- tematic study[J]. Inte/ligent Data Analysis, 2002, 6 (5): 429- 450.
5Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: Synthetic minority over-sampling techniques [J].Journal of Artificial Re- search, 2002,16 : 321-357.
6Drummond C, Holte R C. C4. 5, Class imbalance, and cost sensi- tivity:Why under-sampling beats over-sampling [C] //Procee- dings of the ICML'03 Workshop on Learning from Irnbalanced Data Sets. 2003.
7Kubat M,Matwin S. Addressing the curse of imbalanced train- ing sets:one-sided selection [C]//Proceedings of the 14th Inter- national Conference on Machine Learning. 1997:179-186.
8Holte R C, Acker L E, Porter B W. Concept learning and the problem of small disj uncts[C]//Proceedings of the 11 th joint in- ternational conference on artificial intelligence. ]989:813-818.
9Weiss G M. Mining with rarity: A unifying framework [J]. ACM SIGKDD Explorations Newsletter-Special Issue on Lear- ning from Imbalaneed Datasets, 2004,6 (1) : 7-19.
10Quinlan J R. Improved estimates for the accuracy of small dis- juncts [J]. Machine Learning, 1991,6(1) : 93-98.

共引文献1

1黄泽洋,邵哲平,潘家财,纪贤标,马峰.基于AIS的大型船舶靠泊航速分布规律[J].中国航海,2016,39(2):55-58. 被引量：9

同被引文献58

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
2肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究[J].计算机应用,2006,26(5):1125-1126. 被引量：12
3何琳,侯汉清,白振田,张雪英.基于标引经验和机器学习相结合的多层自动分类[J].情报学报,2006,25(6):725-729. 被引量：19
4搜狗实验室.文本分类语料库[DB/OL].2008[2009-04-20].http://www.sogou.com/labs/dl/c.html.
5张华平.ICTCLAS汉语分词系统[EB/OL].http://ictclas.org,检索日2008-07.
6张清华,王国胤,胡军.多粒度知识获取与不确定性度量[M].北京:科学出版社,2013.
7Wang J. An Extensive Study on Automated Dewey Decimal Classification [J]. Journal of the American Society for Information Science & Technology, 2009, 60(11): 2269-2286.
8Garcia V, Alejo R, Sanchez J S, et al. Combined Effects of Class Imbalance and Class Overlap on Instance-Based Classification [A] // Intelligent Data Engineering and Automated Learning-IDEAL 2006 [M]. Berlin, Heidelberg: Springer, 2006: 371-378.
9Orriols A, Bernado-Mansilla E. The Class Imbalance Problem in Learning Classifier Systems: A Preliminary Study [C]. In: Proceedings of the 2005 Workshops on Genetic and Evolutionary Computation. ACM, 2005: 74-78.
10Japkowicz N, Stephen S. The Class Imbalance Problem: A Systematic Study [J]. Intelligent Data Analysis, 2002, 6(5): 429-449.

引证文献8

1李湘东,何海红,曹环,黄莉.针对训练集分布偏斜问题的数字资源文本分类方法[J].现代图书情报技术,2014(7):24-33. 被引量：2
2刘云,向婵.基于虚构理论对不平衡数据集中少数类关联规则挖掘的研究[J].云南大学学报（自然科学版）,2017,39(1):33-38. 被引量：9
3袁磊,季梦遥.基于随机平衡采样的不平衡数据集分类算法研究[J].海南大学学报（自然科学版）,2017,35(3):228-233. 被引量：2
4潘晓君,张佑春.属性数据融合算法在分布式入侵检测系统中的应用研究[J].通化师范学院学报,2017,38(10):78-81. 被引量：1
5季梦遥,袁磊.不平衡数据的随机平衡采样bagging算法分类研究[J].贵州大学学报（自然科学版）,2017,34(6):54-58. 被引量：6
6王莉,陈红梅.基于NKSMOTE算法的非平衡数据集分类方法[J].计算机科学,2018,45(9):260-265. 被引量：6
7张忠林,吴挡平.基于概率阈值Bagging算法的不平衡数据分类方法[J].计算机工程与科学,2019,41(6):1086-1094. 被引量：15
8王莉,陈红梅,王生武.新的基于代价敏感集成学习的非平衡数据集分类方法NIBoost[J].计算机应用,2019,39(3):629-633. 被引量：11

二级引证文献50

1车敏诗,聂春燕,范如俊,杨承金,阮新磊.一种基于混沌特征及优化CHAID决策树的情绪识别方法[J].计算机应用研究,2020,37(S02):105-107. 被引量：3
2杨明生,张春光,杨晓东.醒脑通腑液治疗急性期脑出血30例观察[J].实用中医药杂志,2000,16(2):6-6.
3刘述昌,张忠林.基于中心向量的多级分类KNN算法研究[J].计算机工程与科学,2017,39(9):1758-1764. 被引量：10
4王宇,刘斌.基于中心向量法与万有引力模型相结合的文本分类[J].微电子学与计算机,2017,34(11):119-123. 被引量：1
5刘云,黄亚飞.扩展算法在频繁行为模式分析中的优化研究[J].云南大学学报（自然科学版）,2018,40(2):236-242. 被引量：1
6常晓雪,于立涛,撖奥洋,安树怀,张智晟.基于Bagging算法和Elman-NN融合的短期负荷预测模型[J].青岛大学学报（工程技术版）,2018,33(3):87-91. 被引量：5
7王嘉强,范延滨.基于LSTM模型的人体情景多标签识别研究[J].青岛大学学报（工程技术版）,2018,33(4):40-44. 被引量：1
8刘云,黄亚飞.可替代封闭模式对生产数据的优化分析[J].西北大学学报（自然科学版）,2018,48(2):191-198.
9袁磊,季梦遥.概念漂移不平衡数据流随机平衡采样分类算法[J].湖北大学学报（自然科学版）,2019,41(1):95-100.
10郭冰楠,吴广潮.改进的随机平衡采样Bagging算法的网络贷款研究[J].计算机与现代化,2019(4):11-16. 被引量：1

1陈兴稣,王雪峰.一种基于聚类的不平衡数据分类算法[J].信息技术,2013,37(8):57-60. 被引量：1
2唐新宇,陈晓明.基于合成新样本的不平衡数据集上采样算法[J].科技通报,2013,29(8):127-129.
3严正香,张强善.时基媒体数据分布系统及方法研究[J].微计算机应用,2011,32(12):35-40.
4晁学鹏.一种基于K均值聚类的下采样算法[J].科技通报,2013,29(8):73-75. 被引量：3
5李震梅,杨爱军,谷笑娜.基于虚拟仪器的电能质量监测和分析的软件设计[J].山东理工大学学报（自然科学版）,2004,18(5):8-12. 被引量：5
6文艾.移动互联网下基于RS编码的文件传输软件设计与实现[J].电脑知识与技术（过刊）,2014,20(10X):6834-6838. 被引量：1
7徐尽.引入偏置选择变量的不平衡数据集重采样方法[J].科技通报,2013,29(8):139-141.
8苑玮琦,滕红艳.眼睛疲劳程度判定方法研究[J].计算机工程与应用,2013,49(17):199-203. 被引量：11
9王大庆,姜文潭.电子计算机机房电能质量问题的探讨[J].大连轻工业学院学报,2006,25(1):69-71.
10毛瑞,李晓洁,郭春英.基于Labview的数据库访问技术在电力参数管理中的应用[J].科技资讯,2014,12(32):24-24. 被引量：1

计算机科学

2013年第4期

浏览历史

内容加载中请稍等...

不平衡数据分类方法及其在入侵检测中的应用研究被引量：8

参考文献15

共引文献1

同被引文献58

引证文献8

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

不平衡数据分类方法及其在入侵检测中的应用研究 被引量：8

参考文献15

共引文献1

同被引文献58

引证文献8

二级引证文献50

相关作者

相关机构

相关主题

浏览历史

不平衡数据分类方法及其在入侵检测中的应用研究被引量：8