基于Spark的大规模网络流量准实时分类方法被引量：5

Quasi-realtime Classification Method for Large-Scale Network Traffic Based on Spark

导出

摘要大数据时代催生了互联网流量的指数级增长,为了有效地管控网络资源,提高网络安全性,需要对网络流量进行快速、准确的分类,这就对流量分类技术的实时性提出了更高的要求。目前,国内外的网络流量分类研究大多是在单机环境下进行的,计算资源有限,难以应对高速网络中的(准)实时流量分类任务。本文在充分借鉴已有研究成果的基础上,吸收当前最新的思想和技术,基于Spark平台,有机结合其流处理框架Spark Streaming与机器学习算法库MLlib,提出一种大规模网络流量准实时分类方法。实验结果表明,该方法在保证高分类准确率的同时,也具有很好的实时分类能力,可以满足实际网络中流量分类任务的实时性需求。 In big data era, the internet traffic presents an exponential growth. In order to effectively control network resources and improve network security, internet traffic should be classified quickly and accurately, which leads to a higher requirement for real time performance of the traffic classification technology. At present, the classification of network traffic were carried out in the stand-alone environment for most of researches, so the computing resources were too limited to respond to real-time or quasi-realtime classification of internet traffic in the high-speed network. In this paper, with reference to the existing research results and the latest theories and technologies, based on the Spark platform, combining the flow processing framework Spark Streaming with machine learning algorithm library MLlib, a quasi-realtime classification method of large scale network traffic was proposed. The experimental result showed that the proposed method guarantees high classification accuracy, and it has a good capacity of real-time classification, which meets the real-time requirements of the traffic classification in real network.

作者杨晨光马永征

机构地区中国科学院大学中国科学院计算机网络信息中心

出处《科研信息化技术与应用》 2016年第2期25-34,共10页 E-science Technology & Application

关键词 SPARK 流量分类大规模准实时机器学习 Spark traffic classification large-scale quasi-realtime machine learning

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Callado A, Kamienski C. A survey on internet traffic identification[J]. IEEE Communications Surveys and Tutorials, 2009, 11(3): 37-52.
2Nguyen T T T, Armitage G. A survey of techniques for internet traffic classification using machine learning[J]. IEEE Communications Surveys and Tutorials, 2008, 10(4): 56-76.
3柏骏,夏靖波,吴吉祥,任高明,赵小欢.实时网络流量分类研究综述[J].计算机科学,2013,40(9):8-15. 被引量：14
4Pentreath N, Machine Learning with Spark[M]. [S.1.]: Packt Publishing, 2014.
5M Zaharia, Das T, Li H, et al. Discretized streams: fault- tolerant streaming computation at scale[C]. The 24th ACM Symposium on Operating Systems Principles, Farmington, PA, 2013, 423-438.
6SUN Mei-feng CHEN Jing-tao.Research of the traffic characteristics for the real time online traffic classification[J].The Journal of China Universities of Posts and Telecommunications,2011,18(3):92-98. 被引量：5
7Li Jun, Zhang Shunyi, Lu Yanqing, et al. Real-time P2P traffic identificafion[C]. IEEE Global Telecommunications Conference, New Orleans, LA, 2008, 2474-2478.
8Li Zhu, Yuan Ruixi, Guan Xiaohong. Traffic classification- towards accurate real time network applications[J]. Lecture Notes in Computer Science, 2007, 4553: 67-76.
9Li W, Abdin K, Dann R, et al. Approaching real-time network traffic classification, RR-06-12[R]. London: Queen Mary University of London, 2006.
10Tavallaee M, Lu W, Ghorbani A A. Online classification of network flows[C]. The 7th Communication Networks and Services Research Conference, Moncton, NB, 2009, 78-85.

二级参考文献80

1MADI-IUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification[ C]//Proc of the 14th IEEE Int'l Symposium on Modeling, Analysis, and Simulation. 2006.
2CALLADO A, KAMIENSKI C, SZABO G, et al. A survey on internet traffic identification[ J]. IEEE Communications Surveys & Tutorials,2009,11 ( 3 ) : 37- 52.
3NGUYEN T, ARMITAGE G. A survey of techniques for Intemet traffic using machine learning[ J]. IEEE Communications Surveys & Tutorials, 2008,10 (4) : 56- 76.
4ROUGHAN M, SEN S, SPATSCHECK O, et al. Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification[ C ]//Proc of ACM/SIGCOMM Internet Measurement Conference (IMC). 2004.
5MOORE A W, ZUEV D. Internet traffic classification using Bayesian analysis techniques [ C ]//Proc of ACM International Conference on Measurement and Modeling of Computer Systems (SIGMETRICS). 2005.
6AULD T, MOORE A W, GULL S F. Bayesian neural networks for Intemet traffic classification[ J]. IEEE Trans on Neural Networks, 2007,18( 1 ) :223-239.
7ZANDER S, NGUYEN T, ARMITAGE G. Automated traffic classification and application identification using machine learning [ C ]// Proc of the 30th IEEE Conference on Local Computer Networks. 2005.
8ERMAN J, ARLITI" M, MAHANTI A. Traffic classification using clustering algorithms [ C ]//Proc of S]GCOMM Workshop ora Mining Network Data. New York :ACM Press, 2006:281-286.
9WIITEN I H, FRANK E. Data mining: practical machine learning tools and techniques[ M]. 2nd ed. Amsterdam: Elsevier Inc, 2005.
10ESCHRICH S, KE J, HALL L, et al. Fast accurate fuzzy clustering through data reduction [ J]. IEEE Trans on Fuzzy Syst, 2003,11 (2) : 262-270.

共引文献25

1苏林萍,韩淑宇.关于流量识别技术在新能源厂站中的研究[J].计算机应用研究,2020,37(S01):281-282.
2曾江洪,王庄志,崔晓云.基于SVM的中小企业集合债券融资个体信用风险度量研究[J].中南大学学报（社会科学版）,2013,19(2):8-11. 被引量：6
3裴杨,王勇,陶晓玲,李平红.基于SVM的并行网络流量分类方法[J].计算机工程与设计,2013,34(8):2646-2650. 被引量：7
4柏骏,夏靖波,吴吉祥,任高明,赵小欢.实时网络流量分类研究综述[J].计算机科学,2013,40(9):8-15. 被引量：14
5李琼,陈利,王维虎.基于SVM的手写体数字快速识别方法研究[J].计算机技术与发展,2014,24(2):205-208. 被引量：19
6李丹丹,田春伟,李佰洋,孙广路,康健.基于子空间聚类的网络流量分类方法[J].哈尔滨理工大学学报,2015,20(2):63-68. 被引量：3
7刘彤.海量非线性网络流量数据分类模型的仿真分析[J].计算机仿真,2015,32(12):255-258. 被引量：3
8谷跃,唐学文.一种多分类器联合的网络流量分类方法[J].重庆工商大学学报（自然科学版）,2016,33(4):74-78. 被引量：1
9吴珺,黄志雄,王春枝.基于上下文感知的云计算平台分析研究[J].华中师范大学学报（自然科学版）,2016,50(5):656-659.
10韦泽鲲,夏靖波,张晓燕,付凯,申健.基于随机森林的流量多特征提取与分类研究[J].传感器与微系统,2016,35(12):55-59. 被引量：10

同被引文献25

1易灿,刘彦姝.图谱建模基础下海量网络流量的数据挖掘[J].办公自动化,2021,26(10):24-25. 被引量：2
2柏骏,夏靖波,吴吉祥,任高明,赵小欢.实时网络流量分类研究综述[J].计算机科学,2013,40(9):8-15. 被引量：14
3夏俊鸾,邵赛赛.Spark Streaming：大规模流式数据处理的新贵[J].程序员,2014(2):44-47. 被引量：9
4罗军锋,徐菲.大数据时代的高校信息化框架[J].中国教育信息化（高教职教）,2014(2):11-13. 被引量：24
5蒋东兴,付小龙,袁芳,吴海燕,刘启新.大数据背景下的高校智慧校园建设探讨[J].华东师范大学学报（自然科学版）,2015(B03):119-125. 被引量：322
6姜开达,章思宇,孙强.基于Hadoop的校园网站日志系统的设计与实现[J].华东师范大学学报（自然科学版）,2015(B03):126-131. 被引量：10
7胡俊,胡贤德,程家兴.基于Spark的大数据混合计算模型[J].计算机系统应用,2015,24(4):214-218. 被引量：56
8左晓军,董立勉,曲武.基于Spark框架的分布式入侵检测方法[J].计算机工程与设计,2015,36(7):1720-1726. 被引量：5
9王震,陈亮.基于Kafka消息队列的电网设备准实时数据接入方法研究[J].山东电力技术,2015,42(6):41-43. 被引量：14
10张敏,张阳.基于大数据的民族高校学生资助工作方案研究与设计[J].西南民族大学学报（自然科学版）,2016,42(1):76-80. 被引量：7

引证文献5

1刘承启,熊艳,黄文海.浅谈校园网大数据分析[J].科技广场,2017(6):120-124. 被引量：2
2吴奔,李喜旺,周心圆.基于流计算的电力调度网络流量监测平台[J].计算机系统应用,2018,27(7):57-62. 被引量：2
3张艳升,李喜旺,李锦程.基于Spark的电网工控系统流量异常检测平台[J].计算机系统应用,2019,28(8):46-52. 被引量：2
4顾兆军,吴优,赵春迪,周景贤.流量的集成学习与重采样均衡分类方法[J].计算机工程与应用,2020,56(6):86-91. 被引量：3
5易灿.基于大规模图谱分析的移动流量数据识别算法研究[J].电子制作,2022,30(8):47-49.

二级引证文献9

1靳琳,赵任方,董钟.基于Spark Streaming的网络安全流式大数据态势感知研究及发展趋势分析[J].网络安全技术与应用,2020,0(2):62-65. 被引量：12
2刘福盛,张兰,卢学佳,李屹煊,高茜,魏宝林.基于信度网络推理的风电监控数据缺失值恢复算法[J].电力信息与通信技术,2019,17(4):48-55. 被引量：11
3李业谦,熊红云.基于校园网络负载特性的数据分析与研究[J].现代计算机,2019,25(34):3-7.
4石伟.大数据在提升政府治理能力方面的探索——以人员流动检测能力平台应用为例[J].智能计算机与应用,2020,10(5):104-108.
5杨航,刘益松,刘贵恒,周飞艳.基于网络流量异常检测的电网工控系统安全监测技术[J].电子技术与软件工程,2020(22):259-260. 被引量：6
6林鹏,翟江涛,许历隆,崔永富.一种面向类不平衡加密流量的端到端分类模型[J].电子测量技术,2021,44(20):142-149. 被引量：2
7王翀,周雨迪,蔡新雷.基于FARIMA模型的电网数据服务器流量异常识别[J].电子设计工程,2023,31(12):115-118. 被引量：3
8杜博雅,孙静春.基于DBSCAN聚类的不平衡数据集过采样方法[J].计算机仿真,2023,40(10):412-416.
9徐莎莎,胡靖,吕牡丹.基于ICA改进ICEEMD的UDS重采样数学模型[J].计算机仿真,2024,41(7):535-539.

1王海龙,杨岳湘.基于信息熵的大规模网络流量异常检测[J].计算机工程,2007,33(18):130-133. 被引量：14
2王海龙,杨岳湘,李强.基于子空间方法的大规模网络流量异常检测[J].计算机工程与应用,2007,43(11):153-156. 被引量：3
3朱剑,李辉.利用链路相关性进行网络流量异常检测[J].计算机应用与软件,2011,28(6):135-137. 被引量：1
4张朝辉,刘雪艳.64位计算促进网络安全防护[J].办公自动化,2007,0(12):21-21.
5刘泽燊,潘志松.基于Spark的大规模网络流量分类研究[J].计算机时代,2016(4):1-5. 被引量：1
6杨岳湘,王海龙,卢锡城.基于信息熵的大规模网络流量异常分类[J].计算机工程与科学,2007,29(2):40-43. 被引量：6
7易磊,潘志松,邱俊洋,薛胶,任会峰.在线学习的大规模网络流量分类研究[J].智能系统学报,2016,11(3):318-327. 被引量：3
8陈鹏,司健,于子桓,王蔚旻.基于信息熵的网络流异常监测和三维可视方法[J].计算机工程与应用,2015,51(12):88-93. 被引量：16
9陶晓玲,韦毅,王勇.一种基于本体的并行网络流量分类方法[J].电子科技大学学报,2016,45(3):417-422. 被引量：5
10张冬艳,殷丽华,胡铭曾,云晓春,郑秀荣.面向内容安全的多模精确匹配算法性能分析[J].通信学报,2004,25(7):128-136. 被引量：5

科研信息化技术与应用

2016年第2期

浏览历史

内容加载中请稍等...

基于Spark的大规模网络流量准实时分类方法被引量：5

参考文献18

二级参考文献80

共引文献25

同被引文献25

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Spark的大规模网络流量准实时分类方法 被引量：5

参考文献18

二级参考文献80

共引文献25

同被引文献25

引证文献5

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于Spark的大规模网络流量准实时分类方法被引量：5