NTCI-Flow:一种可扩展的高速网络流量处理框架被引量：10

NTCI-Flow:A Scalable High-speed Network Traffic Processing Framework

下载PDF

导出

摘要针对当前基于软/硬件的流导出技术存在的数据失真、不易扩展等问题,本文提出一种准确、通用、易扩展的高速网络流量处理框架NTCI-Flow。首先,基于PF_RING DNA实现了高性能的网络包抓取,采用基于网络包五元组的负载均衡策略对网络包进行分组分发,并利用批处理、无锁队列、多线程等技术将多个网络包封装为单条大消息并行发送,改进与优化网络包转发性能;然后,采用Kafka消息系统作为中间件接收并缓存网络包,从而实现网络包的分布式导入;接着,基于Storm搭建实时流处理平台,开发并部署分布式流重组应用,实现从Kafka中读取网络包,解析并抽取五元组、包大小、时间戳等信息后重组成网络流;最后,增加Hive流数据导入模块,将导出的网络流数据以Parquet格式实时存入HDFS,利用Hive Metastore存储并管理元数据,同时采用基于时间的动态分区机制以减少按时间检索时不必要的磁盘IO。实验结果表明:网络流量采集模块可实现万兆流量的准确采集与转发,即使在万兆流量均为最小包(60字节)的情况下,仍可保证仅有0.03%的丢包率;网络流量导入模块吞吐率与磁盘写入性能相关,在使用7块硬盘缓存数据时吞吐率可达775 MB/s;分布式流重组模块具有良好的通用性及扩展性,通过简单配置即可达到1.26×10~7包/s的吞吐率。目前,NTCI-Flow已用于采集与处理某机构的出口流量,该机构平均流量约3.5 Gbps,峰值带宽为6 Gbps,每秒包数最高可达百万级。在该实际应用中,NTCI-Flow运行情况良好,由其得到的流量数据比Net Stream更准确。 Currently,software-based and hardware-based network flow export technologies are lack of scalability and data accuracy.In order to solve these problems,an accurate,general,scalable and high-speed network traffic processing framework called NTCI-Flow was presented.Firstly,the high-performance network packet capture was realized based on PF_RING DNA and the network packets were grouped and distributed according to the load balancing strategy based on network packet five-tuple.By using batch,lock-free queue and multi-thread technology,multiple network packets were encapsulated into a single large message sent in parallel,which improved and optimized the packet forwarding performance.Secondly,Kafka message system were used as a middleware to receive and cache network packets,in order to achieve the network packet distributed import.Thirdly,based on Storm,the real-time stream processing platform was built and the distributed streaming application was developed and deployed.Network packets were read from Kafka and the five tuples,packet size,timestamp were parsed and extracted.Then the network flow reorganization were completed.Finally,the Hive stream data import module was added and the exported network flows were stored in HDFS in Parquet format.Meanwhile,the Hive Metastore was used to store and manage the metadata.Time-based dynamic partitioning mechanism was adopted to reduce unnecessary disk IO when retrieved by time.The experimental results showed that the network traffic acquisition module could achieve accurate acquisition and forwarding of 10 gigabit traffic,even in the case of the smallest packet(60 byte),it could guarantee only 0.03% packet loss rate;the throughput of the traffic import module was related to the disk writing performance.When using 7 hard disks,the throughput was up to 775 MB/s;the distributed stream reorganization module had good versatility and expansibility,and the ability of processing 1.26×10~7 packets could be achieved by simple configuration.At present,NTCI-Flow is being used to collect and deal with an agency's export traffic.The agency's average traffic is about 3.5 Gbps and the peak bandwidth is 6 Gbps.The maximum number of packets per second can be up to one million.In this practical application,NTCI-Flow is running well,and the traffic data obtained is more accurate than that of Net Stream.

作者王煜骢陈兴蜀罗永刚王岳

机构地区四川大学计算机学院

出处《四川大学学报（工程科学版）》 CSCD 北大核心 2017年第S1期168-174,共7页 Journal of Sichuan University (Engineering Science Edition)

基金国家自然科学基金资助项目(61272447)

关键词包抓取大数据分布式 STORM 流重组 packet capture big data distributed Storm flow restructuring

分类号 TB-55 [一般工业技术] TB [一般工业技术] N55 [自然科学总论]

引文网络
相关文献

参考文献1

1闫丽丽,涂天禄,周兴涛.Libpcap数据包捕获机制剖析与研究[J].网络安全技术与应用,2006(4):38-40. 被引量：12

二级参考文献1

1[美][D.E.科默]DouglasE.Comer,[美][D.L.史蒂文]DavidL.Stevens著,张娟,王海.用TCP/IP进行网际互连[M]电子工业出版社,1998.

共引文献11

1徐慧,姜恒,杨林.PF_RING高效数据包捕获技术研究与设计[J].计算机科学,2012,39(S2):88-89. 被引量：5
2刘斌,代素环.基于Libpcap的数据包捕获机制的实现[J].农业网络信息,2008(9):62-63. 被引量：3
3翟朔.基于WinPcap包捕获算法的实现[J].电脑知识与技术,2010,6(3):1588-1591. 被引量：1
4郭伟.网络监听技术的应用[J].十堰职业技术学院学报,2010,23(4):91-93. 被引量：2
5杨雪华,侯辉超,杨姝,蒋宁.SIP数据采集系统的设计与实现[J].沈阳师范大学学报（自然科学版）,2012,30(2):222-226. 被引量：2
6袁尚华.网络UDP数据包的捕获[J].电脑编程技巧与维护,2013(12):72-73.
7张鑫,李隐峰.基于流的校园局域网流量统计方案设计[J].电子科技,2013,26(9):7-9.
8刘文敏,张冬梅,李舒辰,汪莹.基于Netmap的网络监听技术研究[J].信息网络安全,2013(11):45-48. 被引量：4
9孙东霞,何兴高.基于嵌入式的内网监管系统的设计与实现[J].计算机与信息技术,2010(6):76-79.
10李汉青,孙丽丽.基于旁路镜像的GA/T 1400交互消息校验系统设计与实现[J].中国安防,2021(8):103-108.

同被引文献55

1于跃,朱程荣.基于Linux嵌入式嗅探器的设计与实现[J].计算机应用与软件,2007,24(6):162-164. 被引量：5
2诸葛建伟,韩心慧,周勇林,叶志远,邹维.僵尸网络研究[J].软件学报,2008,19(3):702-715. 被引量：157
3曾国鉴,鲁士文.分布式异常流量监测系统的设计[J].计算机应用与软件,2008,25(11):154-156. 被引量：2
4吴烁,林南晖.双栈环境下基于sFlow的网络流量采集研究[J].现代计算机,2010,16(2):11-14. 被引量：2
5方滨兴,崔翔,王威.僵尸网络综述[J].计算机研究与发展,2011,48(8):1315-1331. 被引量：63
6胡永利,孙艳丰,尹宝才.物联网信息感知与交互技术[J].计算机学报,2012,35(6):1147-1163. 被引量：220
7张广兴,邱峰,谢高岗,童红霞.一种高效的网络流记录表示方法[J].计算机研究与发展,2013,50(4):722-730. 被引量：5
8刘智慧,张泉灵.大数据技术研究综述[J].浙江大学学报（工学版）,2014,48(6):957-972. 被引量：475
9朱宏悦,陈彬,王小东,王戎骁,朱正秋,邱晓刚.化工园区三维场景建模研究与实现[J].系统仿真学报,2018,30(12):4610-4617. 被引量：10
10吴晓春.大数据技术在煤矿安全生产运营管理中的应用[J].煤矿安全,2018,49(12):239-241. 被引量：34

引证文献10

1金渝筌,谢彬,朱毅.基于通信相似度的僵尸网络节点检测方法[J].网络与信息安全学报,2018,4(10):31-38. 被引量：2
2童建林.可扩展的计算机网络设计软件的设计与实现[J].电脑与信息技术,2019,27(6):42-44.
3陈良国,阮树骅,陈兴蜀,罗永刚.一种面向网络安全分析的高速流重组优化方案[J].信息网络安全,2019(11):82-90. 被引量：5
4童建林.可扩展的计算机网络设计软件的设计与实现[J].电脑与信息技术,2020,28(1):30-33. 被引量：1
5刘丰年.基于不确定性理论的多维资源调度方法[J].北京服装学院学报（自然科学版）,2020,40(3):49-54.
6黄宏志,路懿,刘娜.IPv4/IPv6双栈+DHCP环境下的用户网络流量监测[J].现代计算机,2021,27(11):145-149. 被引量：2
7王翀,陈佳林.煤矿物联网大数据平台设计与关键技术研究[J].中国煤炭,2022,48(3):42-49. 被引量：7
8苏自鹏,袁磊,刘鹏,陈兴蜀,罗永刚,陈良国.高速网络流实时处理模型研究与实现[J].山东大学学报（理学版）,2022,57(9):25-32.
9余虹.高速网络流量采集关键问题及系统的完善[J].信息与电脑,2023,35(13):221-223.
10梁嘉诚,余江,王洪波,刘渊,王晓锋.基于RDMA的高性能单向数据采集技术研究[J].计算机工程,2023,49(10):31-40. 被引量：2

二级引证文献19

1罗震宇.一种基于流量的业务交互全路径性能评估技术研究[J].信息网络安全,2020(S02):110-113.
2夏凡,方方,丁中涛,刘宇为,杨剑锋,杨雪.基于机器学习的IPFIX的僵尸通信检测[J].信息技术与网络安全,2019,38(9):50-54. 被引量：1
3张建平,李洪敏,贾军,卢敏.一种基于流量与日志的专网用户行为分析方法[J].信息安全研究,2020,6(9):783-790. 被引量：5
4孙瑜.高速网络流量测量关键问题探讨[J].信息记录材料,2020,21(12):195-196. 被引量：1
5徐圣杰.探究计算机网络通讯技术故障分析与处理[J].电脑知识与技术,2021,17(29):48-50. 被引量：5
6王宏,嵇绍国.大数据分析的现实应用及发展趋势研究[J].信息网络安全,2021(S01):134-138. 被引量：3
7才让昂秀.一个用于网络主机智能识别的半监督学习模型[J].信息网络安全,2021(S01):203-207.
8黄艳.基于面向物联网的海量数据处理研究[J].电子元器件与信息技术,2022,6(5):58-61. 被引量：2
9邱子贤,徐月云,王晓伟,胡满江,秦洪懋.露天矿山智能调度管理系统可靠性研究[J].控制与信息技术,2022(5):122-129.
10郑永奇.基于双向循环卷积神经网络的网络异常流量监测[J].信息记录材料,2022,23(11):198-200. 被引量：1

1宋文吉,肖睿,冯自平.TBAB包络化合物浆的非牛顿流变特性研究[J].工程热物理学报,2012,33(11):1916-1919. 被引量：1
2关于转发中国科协2004年学术年会的通知[J].制冷技术,2004(2):58-58.
3党耀国,王俊杰,康文芳.灰色预测技术研究进展综述[J].上海电机学院学报,2015,18(1):1-7. 被引量：17
4华珺.海纳百川——万兆IP SAN的价值[J].信息方略,2009(4):51-53.
5王少强,陈守虎,吴立新,王慧文.南中国海流数据分析及内波频谱特征[J].声学技术,2004,23(z1):23-25.
6吴建宏,陈林森.矩形带通反射全息的实验研究[J].光学学报,1996,16(5):662-665. 被引量：2
7佟贵新,于真珍.立式金属罐计量差量的分析[J].中国计量,2012(8):117-119. 被引量：2
8李忠东.漫话E-mail[J].安徽科技,2005(4):56-56.
9系统类[J].网友世界,2006(2):91-91.
10詹玲,方协云,李大平,万继光.基于Ceph文件系统的元数据缓存备份[J].计算机工程,2017,34(4):67-72. 被引量：6

四川大学学报（工程科学版）

2017年第S1期

浏览历史

内容加载中请稍等...

NTCI-Flow:一种可扩展的高速网络流量处理框架被引量：10

参考文献1

二级参考文献1

共引文献11

同被引文献55

引证文献10

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

NTCI-Flow:一种可扩展的高速网络流量处理框架 被引量：10

参考文献1

二级参考文献1

共引文献11

同被引文献55

引证文献10

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

NTCI-Flow:一种可扩展的高速网络流量处理框架被引量：10