分类不平衡协议流的机器学习算法评估与比较被引量：26

Machine Learning Algorithms for Classifying the Imbalanced Protocol Flows:Evaluation and Comparison

下载PDF

导出

摘要网络协议流不平衡环境下,流样本分布的变化对基于机器学习的流量分类器准确性及稳定性有较大的影响.选择合适的机器学习算法以适应网络协议流不平衡环境下的在线流量分类,显得格外重要.为此,首先通过单因子实验设计,验证了C4.5决策树、贝叶斯核估计(NBK)和支持向量机(SVM)这3种分类算法统计TCP连接开始的前4个数据包足以分类流量.接着,比较了上述3种分类算法的性能,发现C4.5决策树的测试时间最短,SVM分类算法最稳定.然后,将Bagging算法应用到流量分类中.实验结果表明,Bagging分类算法的稳定性与SVM相似,且测试时间与建模时间接近于C4.5决策树,因此更适于在线分类流量. In the case of the imbalanced protocol flows, the changes of flow distribution have a huge impact on the accuracy and stability of traffic classifiers that use machine learning algorithms. It is very important to select a suitable machine learning algorithm to classify the imbalanced protocol flows on line. By means of single-factor experiment design, this paper verifies that it is possible for C4.5 decision tree, Naive Bayes with kernel density estimation （NBK） and support vector machine （SVM） to classify traffic with the first four packets of the TCP connection. After comparing the performances of the three classifiers abovementioned, the study finds that the testing time of C4.5 decision tree is the shortest and SVM is the most stable. Finally, Bagging algorithm is applied to classify traffic. The experimental results show that, the stability of Bagging is similar to SVM and the testing time and modeling time of Bagging is close to C4.5 decision tree. Therefore, Bagging classifier is the most suitable to classify traffic on line.

作者张宏莉鲁刚

机构地区哈尔滨工业大学计算机科学与技术学院计算机网络与信息安全技术研究中心

出处《软件学报》 EI CSCD 北大核心 2012年第6期1500-1516,共17页 Journal of Software

基金国家自然科学基金(60903166) 国家重点基础研究发展计划(973)(2007CB311101 2011CB302605) 国家高技术研究发展计划(863)(2010AA012504 2011AA010705)

关键词不平衡特征选择流量分类集成学习单因子实验 imbalance feature selection traffic classification ensemble learning single-factor experiment

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：171
2徐鹏,刘琼,林森.基于支持向量机的Internet流量分类研究[J].计算机研究与发展,2009,46(3):407-414. 被引量：59

二级参考文献29

1Madhukar A, Williamson C. A longitudinal study of P2P traffic classification [C]//Proc of the 14th IEEE Int Syrup on Modeling, Analysis, and Simulation. Washington, DC IEEE Computer Society, 2006:179-188
2Moore A W, Papagiannaki K. Toward the accurate identification of network applications [G]//Dovrolis C. LNCS 3431: Proc of the PAM 2005. Heidelberg: Springer, 2005:41-54
3Karagiannis T, Papagiannaki K, Faloutsos M. BLINC: Multilevel traffic classification in the dark [C]//Proc of ACM SIGCOMM. New York: ACM, 2005.. 229-240
4Roughan M, Sen S, Spatscheck O, et al. Class of service mapping for QoS: A statistical signature-hased approach to IP traffic classification [C]//Proc of ACM SIGCOMM Internet Measurement Conf 2004. New York: ACM, 2004: 135-148
5Zuev D. Moore A W. Traffic classification using a statistical approach [G]//Dovrolis C. LNCS 3431: Proc of the PAM. Heidelberg, Germany: Springer, 2005:321-324
6Moore A W, Zuev D. Internet traffic classification using Bayesian analysis techniques [C] //Proc of the 2005 ACM SIGMETRICS Int Conf on Measurement and Modeling of Computer Systems. New York: ACM, 2005: 50-60
7Tan P N, Steinbach M, Kumar V. Introduction to Data Mining [M]. Boston: Addison Wesley, 2006
8Moore A W, Zuev D, Crogan M. Discriminators for use in flow-based classification, RR-05-13 [R]. London: Queen Mary University of London, 2005
9Witten I H, Frank E. Data Mining: Practical Machine Learning Tools and Techniques [M]. 2nd ed. Amsterdam: Elsevier Inc. , 2005
10Chang C C, Lin C J. LIBSVM: A library for support vector machines[EB/OL]. 2001 [2007-08-06]. http://www.csie. ntu. edu. tw/-ejlin/libsvm

共引文献211

1高文才,曹帅.基于MRF-FCM算法的矿井运动目标图像优化[J].工矿自动化,2024,50(S01):69-73.
2邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：39
3代志康,吴秋新,程希明.一种基于ResNet的网络流量识别方法[J].北京信息科技大学学报（自然科学版）,2020,35(1):82-88. 被引量：5
4陈陆颖,丛蓉,杨洁,于华.P2P Streaming Traffic Classification in High-Speed Networks[J].China Communications,2011,8(5):70-78. 被引量：1
5赵树鹏,陈贞翔,彭立志.基于流中前5个包的在线流量分类特征[J].济南大学学报（自然科学版）,2012,26(2):156-160. 被引量：3
6孟姣,王丽宏,熊刚,姚垚.基于机器学习的SSH应用分类研究[J].计算机研究与发展,2012,49(S2):153-159. 被引量：2
7熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望[J].集成技术,2012,1(1):32-42. 被引量：24
8许孟晋,张博锋.基于机器学习的Internet流量分类[J].计算机应用,2010,30(A01):80-82. 被引量：5
9徐鹤,王锁萍,王汝传,赵丹.基于神经网络集成的P2P流量识别研究[J].南京邮电大学学报（自然科学版）,2010,30(3):79-83. 被引量：3
10胡婷,王勇,陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学学报,2010,30(3):216-219. 被引量：4

同被引文献232

1张海荣,朱信忠,赵建民,徐慧英.一种优化的基于用户聚类的过滤推荐策略[J].计算机系统应用,2008,17(11):95-97. 被引量：6
2熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望[J].集成技术,2012,1(1):32-42. 被引量：24
3林舒杨,李翠华,江弋,林琛,邹权.不平衡数据的降采样方法研究[J].计算机研究与发展,2011,48(S3):47-53. 被引量：31
4司成祥,孟晓烜,许鲁.基于性能隔离的缓存优化技术研究[J].计算机研究与发展,2011,48(S1):298-305. 被引量：1
5蒋盛益,谢照青,余雯.基于代价敏感的朴素贝叶斯不平衡数据分类研究[J].计算机研究与发展,2011,48(S1):387-390. 被引量：21
6张燕平,张铃,吴涛.机器学习中的多侧面递进算法MIDA[J].电子学报,2005,33(2):327-331. 被引量：26
7唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
8谢宏,程浩忠,牛东晓.基于信息熵的粗糙集连续属性离散化算法[J].计算机学报,2005,28(9):1570-1574. 被引量：134
9白耀辉,陈明,王举群.利用朴素贝叶斯方法实现异常检测[J].计算机工程与应用,2005,41(34):131-132. 被引量：8
10王皓,孙宏斌,张伯明,郭庆来.基于混合互信息的特征选择方法及其在静态电压稳定评估中的应用[J].中国电机工程学报,2006,26(7):77-81. 被引量：29

引证文献26

1王刚.大数据在硝酸生产中的应用[J].自动化与仪器仪表,2016(7):242-244. 被引量：1
2赵家程,崔慧敏,冯晓兵.基于统计学习分析多核间性能干扰[J].软件学报,2013,24(11):2558-2570. 被引量：3
3马保雷,宋颖慧,刘亚维.基于概念漂移检测的自适应流量识别的研究[J].智能计算机与应用,2013,3(6):50-53. 被引量：1
4张劲松,江波.基于C4.5算法的民航客户价值细分研究[J].西安航空学院学报,2014,32(5):75-78. 被引量：1
5侯颖,郭云飞,黄海,王凯.基于同源组合布鲁姆过滤器的早期流量抽样算法[J].通信学报,2014,35(10):117-126. 被引量：2
6潘吴斌,程光,郭晓军,王艳.基于选择性集成策略的嵌入式网络流特征选择[J].计算机学报,2014,37(10):2128-2138. 被引量：10
7刘建粉,史永昌.基于用户兴趣分类优化的聚类模型仿真[J].微电子学与计算机,2014,31(5):171-174. 被引量：2
8李林林,张效义,张霞,李青.基于K均值和k近邻的半监督流量分类算法[J].信息工程大学学报,2015,16(2):234-239. 被引量：6
9李林林,张效义,张霞,李青.一种基于集成学习的流量分类算法[J].信息工程大学学报,2015,16(2):240-244. 被引量：4
10纪思捷,胡豪杰.基于机器学习算法的大数据处理[J].电子技术与软件工程,2015(23):202-202. 被引量：6

二级引证文献112

1薛益定,刘杨圣.基于机器学习的邮件信息处理技术的研究[J].信息安全与技术,2016,7(4):75-77.
2董跃华,刘力.基于权衡因子的决策树优化算法[J].江西理工大学学报,2015,36(5):90-97.
3黄璨,方旭昇,张朝泉.分片计数布隆过滤器及其在Hbase二级索引的应用[J].计算机系统应用,2016,25(3):119-123. 被引量：4
4王立宏,李强.旅行商问题的一种选择性集成求解方法[J].山东大学学报（工学版）,2016,46(1):42-48.
5郑建炜,黄琼芳,杨平,王万良,马文龙.特征加权组稀疏判别投影分析算法[J].自动化学报,2016,42(5):746-759. 被引量：7
6戴紫彬,刘航天.基于布鲁姆过滤器算法和三态内容寻址存储器的高效范围匹配方法[J].电子与信息学报,2016,38(8):1872-1879.
7潘吴斌,程光,郭晓军,黄顺翔.网络加密流量识别研究综述及展望[J].通信学报,2016,37(9):154-167. 被引量：68
8赵宇,陈锐,刘蔚.集成特征选择的最优化支持向量机分类器模型研究[J].计算机科学,2016,43(8):177-182. 被引量：6
9李冉,贺体刚,赵明.移动通信网络的流量监测仿真研究[J].计算机仿真,2016,33(10):153-156. 被引量：5
10李凯凯,宋礼鹏.基于社交网络的用户行为记忆性研究[J].微电子学与计算机,2017,34(3):133-135. 被引量：4

1万晓鸣.基于逻辑段划分算法统计的文本信息检索[J].电脑知识与技术（过刊）,2009,15(11X):9039-9040.
2韩亚伟,张有志,李庆涛,熊春彬.动态场景监控系统中人数统计算法的研究[J].计算机应用与软件,2011,28(2):260-262. 被引量：6
3卢惠林.基于加权Bayes分类器的流数据在线分类算法研究[J].计算机科学,2014,41(5):227-229. 被引量：3
4杨文柱,卢素魁,王思乐.基于多类支持向量机的棉花异性纤维分类方法[J].计算机应用,2011,31(12):3446-3448. 被引量：5
5杨会元,冯钟葵,李山山.基于Web的遥感影像在线分类实现技术研究[J].遥感信息,2015,30(1):101-106. 被引量：5
6孟然,王永强,于德敏,许增朴.基于机器视觉实现工业产品在线分类的一种有效方法[J].传感器世界,2005,11(5):11-13.
7王虎军.多总线多处理机的带宽有效性研究(英文)[J].华东船舶工业学院学报,1998,12(4):73-91.
8陈雪娇,王攀,刘世栋.网络应用流类别不平衡环境下的SSL加密应用流识别关键技术[J].电信科学,2015,31(12):83-89. 被引量：4
9付宏,管秋月,王扬,徐静,于建群.基于DEM和MBK耦合的CAE软件研制[J].计算机工程与设计,2015,36(3):747-752. 被引量：3
10孙娜,郭延锋.基于增量式学习的数据流实时分类模型[J].计算机工程与设计,2012,33(11):4225-4229. 被引量：5

软件学报

2012年第6期

浏览历史

内容加载中请稍等...

分类不平衡协议流的机器学习算法评估与比较被引量：26

参考文献2

二级参考文献29

共引文献211

同被引文献232

引证文献26

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

分类不平衡协议流的机器学习算法评估与比较 被引量：26

参考文献2

二级参考文献29

共引文献211

同被引文献232

引证文献26

二级引证文献112

相关作者

相关机构

相关主题

浏览历史

分类不平衡协议流的机器学习算法评估与比较被引量：26