期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
NTCI-Flow:一种可扩展的高速网络流量处理框架 被引量:10
1
作者 王煜骢 陈兴蜀 +1 位作者 罗永刚 王岳 《四川大学学报(工程科学版)》 CSCD 北大核心 2017年第S1期168-174,共7页
针对当前基于软/硬件的流导出技术存在的数据失真、不易扩展等问题,本文提出一种准确、通用、易扩展的高速网络流量处理框架NTCI-Flow。首先,基于PF_RING DNA实现了高性能的网络包抓取,采用基于网络包五元组的负载均衡策略对网络包进行... 针对当前基于软/硬件的流导出技术存在的数据失真、不易扩展等问题,本文提出一种准确、通用、易扩展的高速网络流量处理框架NTCI-Flow。首先,基于PF_RING DNA实现了高性能的网络包抓取,采用基于网络包五元组的负载均衡策略对网络包进行分组分发,并利用批处理、无锁队列、多线程等技术将多个网络包封装为单条大消息并行发送,改进与优化网络包转发性能;然后,采用Kafka消息系统作为中间件接收并缓存网络包,从而实现网络包的分布式导入;接着,基于Storm搭建实时流处理平台,开发并部署分布式流重组应用,实现从Kafka中读取网络包,解析并抽取五元组、包大小、时间戳等信息后重组成网络流;最后,增加Hive流数据导入模块,将导出的网络流数据以Parquet格式实时存入HDFS,利用Hive Metastore存储并管理元数据,同时采用基于时间的动态分区机制以减少按时间检索时不必要的磁盘IO。实验结果表明:网络流量采集模块可实现万兆流量的准确采集与转发,即使在万兆流量均为最小包(60字节)的情况下,仍可保证仅有0.03%的丢包率;网络流量导入模块吞吐率与磁盘写入性能相关,在使用7块硬盘缓存数据时吞吐率可达775 MB/s;分布式流重组模块具有良好的通用性及扩展性,通过简单配置即可达到1.26×10~7包/s的吞吐率。目前,NTCI-Flow已用于采集与处理某机构的出口流量,该机构平均流量约3.5 Gbps,峰值带宽为6 Gbps,每秒包数最高可达百万级。在该实际应用中,NTCI-Flow运行情况良好,由其得到的流量数据比Net Stream更准确。 展开更多
关键词 包抓取 大数据 分布式 STORM 流重组
下载PDF
基于垃圾回收的MapReduce作业内存调优 被引量:2
2
作者 罗永刚 陈兴蜀 王煜骢 《四川大学学报(工程科学版)》 EI CAS CSCD 北大核心 2015年第6期104-112,共9页
针对合理管理MapReduce作业内存资源困难的问题,提出评估方法并给出优化配置建议。首先分析Java虚拟机的内存分配与垃圾回收的原理,给出垃圾回收重要指标;其次提出内存分配合理性评估的3种指标和评估方法;最后根据评估结果给出2种优化... 针对合理管理MapReduce作业内存资源困难的问题,提出评估方法并给出优化配置建议。首先分析Java虚拟机的内存分配与垃圾回收的原理,给出垃圾回收重要指标;其次提出内存分配合理性评估的3种指标和评估方法;最后根据评估结果给出2种优化配置建议:一是通过使用聚类算法和统计信息来估计晋升对象大小阈值,优化Java虚拟机的对象分配和垃圾回收性能;二是使用回归模型和搜索算法来预测作业合理的内存配置。实验结果表明,提出的方法能自动发现作业内存配置的不足并给出优化的配置建议。与采用机器学习方法相比,提出的方法不需要运行大量的测试,因此该方法能很好适用于MapReduce的生产集群环境。 展开更多
关键词 MAPREDUCE HADOOP JAVA虚拟机 垃圾回收 资源优化
下载PDF
Hadoop日志压缩算法的研究与实现
3
作者 王煜骢 《现代计算机》 2017年第6期134-136,共3页
Hadoop集群由于规模增大、运行时间增长使得日志量持续增加,导致存储压力过大。为了节约存储资源,研究并实现一种高效的Hadoop日志无损压缩算法。实验结果表明,该压缩算法与传统的LZW压缩算法的压缩比基本相同,但压缩和解压操作的耗时... Hadoop集群由于规模增大、运行时间增长使得日志量持续增加,导致存储压力过大。为了节约存储资源,研究并实现一种高效的Hadoop日志无损压缩算法。实验结果表明,该压缩算法与传统的LZW压缩算法的压缩比基本相同,但压缩和解压操作的耗时均小于LZW压缩算法且受文件大小影响更小。 展开更多
关键词 HADOOP 日志 压缩
下载PDF
基于Storm的协议还原框架 被引量:1
4
作者 陈兴蜀 王岳 +1 位作者 罗永刚 王煜骢 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2018年第1期1-5,21,共6页
针对现有的高速网络环境下,网络安全分析框架缺乏协议还原过程,导致准确性差和整体架构不易扩展的问题,提出一个基于Storm的协议还原框架.该框架使用高性能数据包捕获工具抓取数据包,并且基于其上实现分布式的实时网络流量处理模块,完... 针对现有的高速网络环境下,网络安全分析框架缺乏协议还原过程,导致准确性差和整体架构不易扩展的问题,提出一个基于Storm的协议还原框架.该框架使用高性能数据包捕获工具抓取数据包,并且基于其上实现分布式的实时网络流量处理模块,完整地还原了网络会话.此外通过使用内存管理和基于树状布隆过滤器的传输控制协议(TCP)还原策略提高其系统运行效率及准确率.最后通过验证得出:该系统可以实现万兆流量的捕获及采集,扩展性良好,易于在大规模集群中部署,而且准确率高. 展开更多
关键词 分布式 大数据 包抓取 传输控制协议 协议还原
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部