面向大规模网络流量数据的实时汇聚查询关键技术研究被引量：17

Research on Key Technologies of Real-time Data Collection and Retrieval for Very Large Scale Network Flow

下载PDF

导出

摘要随着互联网发展,用户面临网络流量数据规模大、处理时效要求高的挑战,需解决数据采集、实时处理、存储组织和查询检索中的关键问题,为此,本文提出一种分布式的数据汇聚查询平台,通过半同步半异步模式的分级架构,支持采集超大规模流量数据;利用多分区队列的消息缓存、并行分布式流处理和基于属性划分的数据加载等手段优化组合,实现高效的实时处理;采用基于抽象数据访问驱动的虚分区式数据存储来对异构数据统一管理,具备良好扩展性;通过异步构建的分级索引架构,实现对数据报文的快速检索,最终为用户提供低延迟、高吞吐、快查询的一体化系统.实验证明平台有良好性能和可扩展性,主要环节有数倍以上不同程度的性能提升,并已应用于实际系统. With the continuous development and explosive grow th of the Internet,users are facing the challenges of massive network flowand strict requirements of real-time processing.Hence,key problems in data collection,real-time processing,storage organization and query retrieval in massive network flowis required to be addressed to solve the aforementioned challenges.This paper proposes a distributed real-time data aggregation query platform.It collects large scale network flow through a hierarchical structure of semi-synchronous and semi-asynchronous mode.It realizes efficient real-time processing by optimized message caching for multi-partition queues,parallel distributed stream processing and data loading based on attribute partition.The scalability of the proposed platform is established by using virtual partition data storage base on abstract data access driver.It also achieves rapid retrieval of massive data through asynchronous construction of hierarchical index,and ultimately provides users an integrated system with low latency,high throughput and fast query.Experiments show that the platform has convincing performance and scalability,and the performance has been improved significantly.The proposed platform has been applied in several practical systems.

作者郭庆朱一凡谢莹莹张榆陈小兵 GUO Qing;ZHU Yi-fan;XIE Ying-ying;ZHANG Yu;CHEN Xiao-bing(School of Computer Science and Technology,Beijing Institute of Technology,Beijing 100081,China;Bigdata Department,Daw ning Information Industry Co.,Ltd.,Beijing 100193,China)

机构地区北京理工大学计算机学院中科曙光大数据事业部

出处《小型微型计算机系统》 CSCD 北大核心 2020年第6期1314-1320,共7页 Journal of Chinese Computer Systems

基金国家重点研发计划项目(2016YFC0802602)资助.

关键词网络流量数据大规模数据采集实时处理抽象数据访问驱动分级索引 network flow large scale data collect real-time process abstract data access driver hierarchical index

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2391
2王佰玲,方滨兴,云晓春.零拷贝报文捕获平台的研究与实现[J].计算机学报,2005,28(1):46-52. 被引量：67
3张榆,韦安垒.大规模网络安全处理分析平台架构设计[J].网络空间安全,2018,9(5):59-63. 被引量：2
4陈恩红,于剑.大数据分析专刊前言[J].软件学报,2014,25(9):1887-1888. 被引量：5
5杜小勇,卢卫,张峰.大数据管理系统的历史、现状与未来[J].软件学报,2019,30(1):127-141. 被引量：62
6李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657. 被引量：1604
7韦海宇,王勇,柯文龙,俸皓.基于改进极端随机树的异常网络流量分类[J].计算机工程,2018,44(11):33-39. 被引量：28
8覃雄派,王会举,杜小勇,王珊.大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45. 被引量：386
9赵颖,王权,黄叶子,吴青,张胜.多视图合作的网络流量时序数据可视分析[J].软件学报,2016,27(5):1188-1198. 被引量：29
10宋怀明,安明远,王洋,袁春阳,孙凝晖.大规模数据密集型系统中的去重查询优化[J].计算机研究与发展,2010,47(4):581-588. 被引量：6

二级参考文献313

1杨松岸,杨华,杨宇航.用于TCP/IP减荷的智能网卡的设计与实现[J].计算机工程,2004,30(14):178-180. 被引量：5
2王佰玲,方滨兴,云晓春.零拷贝报文捕获平台的研究与实现[J].计算机学报,2005,28(1):46-52. 被引量：67
3Mehta M,DeWitt D.Data placement in shared-nothing parallel database systems[J].The VLDB Journal,1997,6(1):53-72.
4DeWitt D,Gray J.Parallel database systems:The future of high performance database systems[J].Communications of ACM,1992,35(6):85-98.
5Bitton D,Dewitt D J.Duplication record elimination in large data files[J].ACM Trans on Database Systems,1983,8(2):255-265.
6Wang Xiaoyu,Cherniack Mitch.Avoid sorting and grouping in processing queries[C]//Proc of the 29th Int Conf on VLDB.San Francisco:Morgan Kaufmann,2003:826-837.
7Claussen J,Kemper A,Kossmann D,et al.Exploiting early sorting and early partitioning for decision support query processing[J].The VLDB Journal,2000,9(3):190-213.
8Graefe G,Cole R L.Fast algorithms for universal quantification in large databases[J].ACM Trans on Database Systems,1995,20(2):187-236.
9Kitsuregawa M,Ogawa Y.Bucket spreading parallel hash:A new,robust,parallel hash join method for data skew in the super database computer(SDC)[C]//Proc of the 16th Int Conf on VLDB.San Francisco:Morgan Kaufmann,1990:210-221.
10Ung Kyu Park,Hwang Kyu Choi,Tag Gon Kim.Uniform partitioning of relations using histogram equalization framework:An efficient parallel hash-based join[J].Information Processing Letters,1995,55(5):283-289.

共引文献4475

1万瑞霖,杨言鑫(指导).大数据环境下的市场营销方式改革发展新方向[J].中外企业家,2020,0(16):83-83. 被引量：8
2韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009.
3李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
4孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
5闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
6叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：1
7许有准.统一社会信用代码数据管理模式研究——以厦门市为例[J].中国标准化,2021(7):42-45.
8张人戈,于平.运用信息技术改造传统产业正当时——大数据与实体经济融合的必要性分析[J].时代金融,2019,0(32):13-14.
9卢艺.数据治理在热轧边缘中的应用研究[J].冶金自动化,2023,47(S01):383-386. 被引量：1
10刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1

同被引文献159

1伍衡,林志波,于海波,高媛.基于大数据技术的配电网综合分析应用关键技术研究[J].科技通报,2020,36(2):36-38. 被引量：7
2邓玲敏,张鹏,朱继勇,吴涛,丁聪,沈田(指导).基于LabVIEW的智能灌溉上位机数据监测子系统的设计[J].信息通信,2019,32(11):113-115. 被引量：4
3郑小乐.大数据环境下的数据安全研究[J].电子世界,2020,0(5):13-14. 被引量：5
4袁晨,傅强.“T+1”交易制度下非线性证券价格动态模型及实证[J].管理科学学报,2011,14(3):83-96. 被引量：11
5郑玲,郑晓天.基于WebSocket的电力系统实时数据更新研究[J].计算机与现代化,2013(1):85-87. 被引量：13
6孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：312
7周耿,姜雨潇,范从来,王宇伟.T+1制度对中小投资者保护效果的实验研究[J].中国经济问题,2018(6):60-75. 被引量：9
8崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述[J].计算机研究与发展,2015,52(2):318-332. 被引量：50
9汤晓燕.基于C#的KD产品重量检测软件设计与实现[J].山东工业技术,2015(7):155-155. 被引量：1
10陈炜,苏厚勤,柴炯.基于WebSocket技术水文资源监管系统的研究与实现[J].计算机应用与软件,2016,33(3):104-108. 被引量：10

引证文献17

1沙梦钒,徐兰梅,滕庆勇,王小林.面向互联网应用的大规模数据实时查询优化方法研究[J].软件工程,2020,23(11):17-20.
2聂静,常涛,刘维,吕小红,王晨,杨知方.基于聚类分析的个性化异构数据发布[J].科学技术与工程,2021,21(14):5813-5821. 被引量：3
3安建民,周一波,彭送庭.基于流计算的保险大宽表系统的应用研究[J].现代计算机,2021,27(31):51-55. 被引量：1
4孙洁茹,陈晓宁,王健,潘瑞娟.基于Qt的探测器温控上位机软件设计[J].安徽大学学报（自然科学版）,2022,46(1):61-67. 被引量：16
5聂文芳,石建华.基于海量数据的学生行为分析平台设计与应用[J].信息与电脑,2022,34(3):162-164. 被引量：4
6涂志炜.基于“互联网+”时代背景下智慧医院管理智能化、信息化建设与实践[J].通讯世界,2022,29(7):128-130.
7王波,卫培培.基于蚁群算法的通信网络流量分析[J].长江信息通信,2023,36(3):103-106.
8孟小燕.基于局部差分隐私的增强矩阵分解推荐算法[J].计算机工程与设计,2023,44(7):2070-2079.
9高海燕,高晋阳,郑志华.基于聚类结构编码的差分隐私异构数据发布[J].计算机应用与软件,2023,40(7):18-25. 被引量：1
10聂祯,郭子琛,高明,蔡都.基于机器学习的移动通信网络切片安全部署系统[J].电子设计工程,2023,31(17):173-177. 被引量：3

二级引证文献30

1李际贵.基于长期监测数据的桥梁局部时变可靠度分析[J].科学技术与工程,2021,21(31):13529-13535. 被引量：7
2李金科,宋洁.基于数据采集系统的上位机软件设计[J].信息技术与信息化,2022(5):110-112. 被引量：9
3石碧瑶.Hadoop MapReduce海量数据处理方法分析与研究[J].西安交通工程学院学术研究,2022,7(1):56-59.
4宋万强.基于数字化技术的市政道路运维管理实践[J].项目管理技术,2022,20(7):92-95. 被引量：2
5刘旺盛,马国旺,江雨瑶,曾艳.多出/入口仓库的货位优化研究[J].科学技术与工程,2022,22(26):11459-11464. 被引量：2
6陈勇.电动机智能保护控制器与上位机的通信策略[J].消费电子,2022(8):32-34.
7陈超,杨琪,李智斌.焊条保温桶智能检测系统设计[J].仪器仪表用户,2023,30(1):17-21.
8刘宏伟.基于Qt的多通道振动信号采集仪上位机软件设计[J].现代信息科技,2023,7(3):24-28. 被引量：7
9侯清,王浩全,李凯丰.基于Qt的空耦超声探伤系统上位机软件设计[J].工业控制计算机,2023,36(2):35-37. 被引量：1
10曹刚,刘扬,陆文佳,姚庆璐,黄诚.基于Qt自定义委托通用框架的实现[J].工业控制计算机,2023,36(2):100-101.

1杨磊,钟远军,万宝林.基于矢量瓦片技术的国土资源数据快速更新服务研究[J].测绘与空间地理信息,2019,42(11):159-163. 被引量：5
2刘芳莉.高校图书馆智慧化建设途径思考与探索——以贵州医科大学为例[J].兰台内外,2020(22):55-57. 被引量：2
3王欣,陈铄.“一带一路”倡议与中国企业投资效率[J].金融经济学研究,2020,35(1):45-56. 被引量：7
4何化玲,陆桂明.基于GPRS的冰层厚度自动测量仪设计[J].信息技术与信息化,2020(3):60-63.
5任畑.浅析地理时空大数据管理与应用云平台建设[J].世界有色金属,2019,44(22):278-278.
6徐大华,宋人杰,屠娟,章东,何玉冰,陆倩.基于超声射频信号的肩袖损伤识别[J].数据采集与处理,2020,35(1):188-194. 被引量：2
7唐丽,尹婷婷,刘卫国.湖南省城市绿色空间差异分析[J].黑龙江农业科学,2020,0(4):82-87.
8史晓鸣,朱长江,姜寅.双馈风电机组异步模式控制策略研究[J].机械工程与自动化,2020(3):19-21. 被引量：1
9无.加速发展工业大数据,打造全面生态体系——解读《关于工业大数据发展的指导意见》[J].智能制造,2020(6):23-27.
10靳娜,张爱军.青年网络政治参与的多元诉求与内在张力——基于中青网的大数据分析[J].中国青年社会科学,2020,39(3):59-66. 被引量：11

小型微型计算机系统

2020年第6期

浏览历史

内容加载中请稍等...

面向大规模网络流量数据的实时汇聚查询关键技术研究被引量：17

参考文献11

二级参考文献313

共引文献4475

同被引文献159

引证文献17

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

面向大规模网络流量数据的实时汇聚查询关键技术研究 被引量：17

参考文献11

二级参考文献313

共引文献4475

同被引文献159

引证文献17

二级引证文献30

相关作者

相关机构

相关主题

浏览历史

面向大规模网络流量数据的实时汇聚查询关键技术研究被引量：17