基于Spark的网络流量分类方法研究被引量：5

Network traffic classification based on Spark frame

下载PDF

导出

摘要网络流量分类是网络监控、服务质量和网络安全的前提和基础。为了对海量网络流量进行迅速、准确地分类,利用相似性和权重对随机森林算法进行改进,通过计算决策树相似度,消除决策冗余以加强分类性能;再用分类性能为指标设定权重构建随机森林,并结合Spark平台设计实现并行算法提高分类效率。实验结果表明,该方法提高了网络流量分类性能,同时具有可扩展性和顽健性,能够响应海量流量分类任务。 Network traffic classification(NTC)is the premise and foundation of detecting network monitoring,Quality-of-Service(QoS)management and network security.In order to classify the vast network traffic quickly and accurately,the random forest classification algorithm based on similarity and weights was improved,which eliminate decision-making redundancy through the similarity.Then classification performance index enactment right heavy was used to build a random forest.Combined with Spark platform design and implement parallel algorithm.The experiments show that our method improves the classification accuracy,has scalability and robustness,and can respond to the massive traffic classification task.

作者刘兆禄赵英刘淑梅 LIU Zhaolu;ZHAO Ying;LIU Shumei(College of Information Science and Technology,Beijing University of Chemical Technology,Beijing 100029,China)

机构地区北京化工大学信息科学与技术学院

出处《通信学报》 EI CSCD 北大核心 2018年第A01期30-36,共7页 Journal on Communications

关键词海量流量分类相似性权重随机森林 SPARK network traffic classification correlation weight random forest Spark

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1赵英,陈骏君.基于流相关性的网络流量分类[J].计算机工程与应用,2015,51(21):25-29. 被引量：1
2徐鹏,林森.基于C4.5决策树的流量分类方法[J].软件学报,2009,20(10):2692-2704. 被引量：170
3黄珊,林玮玮,王长连,宋洪涛,焦正.基于决策树的万古霉素血药浓度解读及实践[J].中国药学杂志,2016,51(19):1710-1713. 被引量：8
4赵英,谭杨.基于相关信息的网络流量贝叶斯分类法改进[J].计算机工程,2016,42(3):80-83. 被引量：4
5熊云波,李荣陆,胡运发.基于混淆矩阵的层次结构构造方法比较[J].模式识别与人工智能,2007,20(2):205-210. 被引量：6
6董师师,黄哲学.随机森林理论浅析[J].集成技术,2013,2(1):1-7. 被引量：146
7周剑峰,阳爱民,刘吉财.基于改进的C4.5算法的网络流量分类方法[J].计算机工程与应用,2012,48(5):71-74. 被引量：18

二级参考文献90

1熊刚,孟姣,曹自刚,王勇,郭莉,方滨兴.网络流量分类研究进展与展望[J].集成技术,2012,1(1):32-42. 被引量：23
2袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
3万昊,任勇,山秀明.基于混淆矩阵的全方位角雷达目标识别[J].微电子学与计算机,2005,22(3):136-139. 被引量：5
4张静,宋锐,郁文贤,夏胜平,胡卫东.基于混淆矩阵和Fisher准则构造层次化分类器[J].软件学报,2005,16(9):1560-1567. 被引量：27
5张华伟,王明文,甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报（理学版）,2006,41(3):5-9. 被引量：58
6Moore AW, Zuev D. Internet traffic classification using Bayesian analysis techniques. In: Proc. of the 2005 ACM SIGMETRICS Int'l Conf. on Measurement and Modeling of Computer Systems, Banff, 2005. 50-60. http://www.cl.cam.ac.uk/-awm22 /publications/moore2005internet.pdf.
7Madhukar A, Williamson C. A longitudinal study of P2P traffic classification. In: Proc. of the 14th IEEE Int'l Syrup. on Modeling, Analysis, and Simulation. Monterey, 2006. http://ieeexplore.ieee.org/xpl/ffeeabs_all.jsp?arnumber=1698549.
8Moore AW, Papagiannaki K. Toward the accurate identification of network applications. In: Dovrolis C, ed. Proc. of the PAM 2005. LNCS 3431, Heidelberg: Springer-Verlag, 2005.41-54.
9Karagiannis T, Papagiannaki K, Faloutsos M. BLINC: Multilevel traffic classification in the dark. In: Proc. of the ACM SIGCOMM. Philadelphia, 2005. 229-240. http://conferences.sigcomm.org/sigcomm/2005/paper-KarPap.pdf.
10Roughan M, Sen S, Spatscheck O, Dutfield N. Class-of-Service mapping for QoS: A statistical signature-based approach to IP traffic classification. In: Proc. of the ACM SIGCOMM Internet Measurement Conf. Taormina, 2004. 135-148. http://www.imconf.net/imc-2004/papers/p 135-roughan.pdf.

共引文献343

1王仁超,朱品光.基于随机森林回归方法的爆破块度预测模型研究[J].水力发电学报,2020,39(1):89-101. 被引量：22
2曹长玲,翁郁华,李晓琼,王超蕾.基于机器学习的糖尿病视网膜病变合并症风险预测模型[J].生命科学仪器,2023,21(2):56-63. 被引量：1
3高文才,曹帅.基于MRF-FCM算法的矿井运动目标图像优化[J].工矿自动化,2024,50(S01):69-73.
4邓建国,张素兰,张继福,荀亚玲,刘爱琴.监督学习中的损失函数及应用研究[J].大数据,2020,6(1):60-80. 被引量：38
5代志康,吴秋新,程希明.一种基于ResNet的网络流量识别方法[J].北京信息科技大学学报（自然科学版）,2020,35(1):82-88. 被引量：5
6陈陆颖,丛蓉,杨洁,于华.P2P Streaming Traffic Classification in High-Speed Networks[J].China Communications,2011,8(5):70-78. 被引量：1
7赵树鹏,陈贞翔,彭立志.基于流中前5个包的在线流量分类特征[J].济南大学学报（自然科学版）,2012,26(2):156-160. 被引量：3
8孟姣,王丽宏,熊刚,姚垚.基于机器学习的SSH应用分类研究[J].计算机研究与发展,2012,49(S2):153-159. 被引量：2
9胡婷,王勇,陶晓玲.网络流量分类方法的比较研究[J].桂林电子科技大学学报,2010,30(3):216-219. 被引量：4
10李文,苗夺谦,卫志华,王炜立.基于阻塞先验知识的文本层次分类模型[J].模式识别与人工智能,2010,23(4):456-463. 被引量：4

同被引文献39

1张玲,白中英,罗守山,谢康,崔冠宁,孙茂华.基于粗糙集和人工免疫的集成入侵检测模型[J].通信学报,2013,34(9):166-176. 被引量：41
2李慧,李正,佘堃.一种基于综合不放回抽样的随机森林算法改进[J].计算机工程与科学,2015,37(7):1233-1238. 被引量：15
3鲁刚,余翔湛,张宏莉,郭荣华.基于集成聚类的流量分类架构[J].软件学报,2016,27(11):2870-2883. 被引量：11
4李红亚,彭昱忠,邓楚燕,龚道庆.GA与PSO的混合研究综述[J].计算机工程与应用,2018,54(2):20-28. 被引量：41
5王勇,周慧怡,俸皓,叶苗,柯文龙.基于深度卷积神经网络的网络流量分类方法[J].通信学报,2018,39(1):14-23. 被引量：65
6张志禹,吉元元,满蔚仕.改进随机森林算法的图像分类应用[J].计算机系统应用,2018,27(9):193-198. 被引量：3
7徐继伟,杨云.集成学习方法:研究综述[J].云南大学学报（自然科学版）,2018,40(6):1082-1092. 被引量：128
8王攀,陈雪娇.基于堆栈式自动编码器的加密流量识别方法[J].计算机工程,2018,44(11):140-147. 被引量：17
9王若愚,张凌,刘珍.子空间流式分类方法在校园网IPv6流量上的应用研究[J].通信学报,2018,39(A01):44-52. 被引量：3
10彭徵,王灵矫,郭华.基于随机森林的文本分类并行化[J].计算机科学,2018,45(12):148-152. 被引量：13

引证文献5

1郭丽,刘磊.基于多层感知器的流量分类方法研究[J].电子测量与仪器学报,2019,0(7):56-64. 被引量：6
2张玲,张建伟,桑永宣,王博,侯泽翔.基于随机森林与人工免疫的入侵检测算法[J].计算机工程,2020,46(8):146-152. 被引量：10
3段文杰,童孟军.一种基于Spark的改进随机森林算法[J].计算机应用与软件,2021,38(8):275-279. 被引量：3
4林丽星.Spark环境下网络数据安全监测技术[J].安阳师范学院学报,2021(5):37-40. 被引量：2
5李波.应用计算机技术实现临床医学信息分析的方法[J].信息技术,2021,45(12):118-123.

二级引证文献21

1刘福刚.K-means聚类算法在网络安全检测中的应用研究[J].绥化学院学报,2023,43(11):157-160. 被引量：2
2舒天豪,陈卓,唐广镇.基于改进NSGA-Ⅲ的入侵检测特征选择研究[J].电子技术与软件工程,2020(19):241-242.
3杨仕堂,罗磊,时轮.基于特征提取与MLP神经网络的电池包密封性检测建模方法[J].机械设计与研究,2020,36(6):139-142. 被引量：5
4杨晓敏.改进灰狼算法优化支持向量机的网络流量预测[J].电子测量与仪器学报,2021,35(3):211-217. 被引量：35
5王帅,孙喜民,高亚斌,孙博.基于神经协同过滤的个性化商品推荐方法[J].信息技术,2021,45(6):143-147. 被引量：3
6刘元生,王胜,白云鹏,夏晓峰.面向智能变电站的威胁与风险评价模型研究与实现[J].重庆大学学报,2021,44(7):64-74. 被引量：6
7伊新,吴瑕.基于模糊随机森林算法的电子商务网络安全监测[J].电脑编程技巧与维护,2022(4):170-172. 被引量：2
8彭雪梅,黄建军.基于机器学习技术的光网络资源动态分配研究[J].激光杂志,2022,43(7):144-148. 被引量：2
9盛展,陈琳.基于随机森林的集成学习入侵检测方法[J].电脑知识与技术,2022,18(19):87-88.
10相旭东,赵璇.基于DBSCAN算法的大数据时代信息安全研究[J].无线互联科技,2022,19(20):140-142.

1王若愚,张凌,刘珍.子空间流式分类方法在校园网IPv6流量上的应用研究[J].通信学报,2018,39(A01):44-52. 被引量：3
2张文,谭晓阳.基于Attention的弱监督多标号图像分类[J].数据采集与处理,2018,33(5):801-808. 被引量：2
3王劲松,李军燕,张洪玮,宫良一.基于IPv6的大规模网络异常流量检测系统设计[J].计算机工程,2018,44(10):14-21. 被引量：10
4韦海宇,王勇,柯文龙,俸皓.基于改进极端随机树的异常网络流量分类[J].计算机工程,2018,44(11):33-39. 被引量：28
5陈卫卫.基于智能化技术下的计算机网络监控系统设计分析[J].自动化技术与应用,2018,37(10):155-158. 被引量：6
6王攀,陈雪娇.基于堆栈式自动编码器的加密流量识别方法[J].计算机工程,2018,44(11):140-147. 被引量：17
7马建阳,张宝鹏.基于多任务学习的多源数据分类研究[J].计算机应用研究,2018,35(11):3228-3231. 被引量：4
8陈鸿,黄洁,李毅,柳森.一种基于动态区域分解的SPH并行算法研究及应用[J].系统仿真学报,2018,30(10):3717-3723.
9谢宗彦,黎巎,周纯洁.基于word2vec的酒店评论情感分类研究[J].北京联合大学学报,2018,32(4):34-39. 被引量：7
10袁皓.“心理账户”理论在管理会计中的应用——基于行为经济学的思考[J].财会研究,2018,0(9):30-33. 被引量：1

通信学报

2018年第A01期

浏览历史

内容加载中请稍等...

基于Spark的网络流量分类方法研究被引量：5

参考文献7

二级参考文献90

共引文献343

同被引文献39

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Spark的网络流量分类方法研究 被引量：5

参考文献7

二级参考文献90

共引文献343

同被引文献39

引证文献5

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Spark的网络流量分类方法研究被引量：5