分布式流数据加载和查询技术优化被引量：7

Optimization on Distributed Stream Data Loading and Querying

下载PDF

导出

摘要分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。 Distributed stream query is a kind of real-time query computation method based on data stream, which has been widely concerned and developed rapidly in recent years. This paper summarized the research results of the distribu- ted stream processing framework in real-time relational query. There is an in-depth comparison of some products, inclu- ding the distributed data loading framework, distributed stream computing framework and distributed stream query sys- tems. The paper proposed a distributed stream query model based on Spark Streaming and Apache Kafka, and designed a fast data loading technology based on virtual memory file system, which gets the data loading speed one time faster compare to Apache Flume. On the basis of Spark Streaming, a distributed stream query interface based on Spark SQL was realized,and a method for parsing SQL queries was proposed to implement distributed query in data stream. The experiment results demonstrate that, in the case of complex SQL queries, the method of analyzing SQL by writing code by oneself has obvious advantages.

作者易佳薛晨王树鹏

机构地区中国科学院信息工程研究所国家计算机网络与信息安全管理中心

出处《计算机科学》 CSCD 北大核心 2017年第5期172-177,共6页 Computer Science

基金国家自然科学基金(61271275 61202067)资助

关键词大数据流处理系统分布式流查询查询优化 Kafka快速加载 Big data, Stream processing system,Distributed stream query, Query optimization,Kafka fast loading

分类号 TP274 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献1

1王春凯,孟小峰.分布式数据流关系查询技术研究[J].计算机学报,2016,39(1):80-96. 被引量：21

二级参考文献90

1Big data: Science in the petabyte era. Nature, 2008, 465 (7209) : 1-136.
2Carney D, Cetintemel U, Cherniack M, et al. Monitoring streams A new class of data management applications// Proceedings of the 28th International Conference on Very Large Data Bases (VLDB2002). Hong Kong, China, 2002: 215-226.
3Chandrasekaran S, Cooper O, Deshpande A, et al. TelegraphCQ: Continuous dataflow processing for an uncertain world//Pruceedings of the 1st Biennial Conference on Innovative Data Systems Research (CIDR 2003). Asilomar, USA, 2003:269-280.
4Arasu A, Babcock B, Babu S, et al. STREAM: The stanford stream data manager. IEEE Data Engineering Bulletin, 2003, 26(1): 19-26.
5Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI 2004). San Francisco, USA, 2004:137-150.
6Li Feng, Ooi B C, Ozsu M T, Wu S. Distributed data management using MapReduce. ACM Computing Surveys, 2014, 46(3): 31:1-31:42.
7Neumeyer L, Robbins B, Nair A, Kesari A. S4: Distributed stream computing platform//Proceedings of the 2010 Industrial Conference on Data Mining Workshops (ICDM2010). Berlin, Germany, 2010:170-177.
8Toshniwal A, Taneja S, Shukla A, et al. Storm@Twitter// Proceedings of the 2014 International Conference on Management of Data (SIGMOD 2014). Snowbird, USA, 2014: 147-156.
9Zhang H, Chen G, Ooi B C, et al. In-memory big data management and processing: A survey. IEEE Transactions on Knowledge and Data Engineering, 2015, 27 (7) : 1920- 1948.
10Lin Q, Ooi B C, Wang Z, Yu C. Scalable distributed stream join proeessing//Proceedings of the 2015 International Conference on Management of Data (SIGMOD 2015 ). Melbourne, Australia, 2015:811-825.

共引文献20

1祝锡永,庞培培.大数据流式计算系统综述[J].成组技术与生产现代化,2016,33(4):49-54. 被引量：3
2赵尔平,党红恩,刘炜.虚拟旅游中海量3D点云数据的细节层次索引技术研究[J].计算机科学,2017,44(10):171-176. 被引量：1
3单鹏宇,颜晓雯.网络中三维景观图像样品优化查询仿真[J].计算机仿真,2017,34(12):313-317. 被引量：3
4孟庆强,胡牧,孙立华,郑浩泉.面向电力大数据的多数据流实时处理技术研究[J].计算机与数字工程,2018,46(5):987-991. 被引量：8
5谢小丽,卢山.基于Storm的实时海量轨迹数据查询系统设计[J].计算机与数字工程,2018,46(8):1580-1584. 被引量：1
6刘引涛.基于Storm的大数据在线学习平台数据处理的设计与实现[J].物联网技术,2018,8(10):113-115.
7杨莹鹃.数据库管理系统中查询优化的设计与实现[J].电脑知识与技术,2018,14(9):14-16. 被引量：2
8秦东明,喻剑,张波,赵勤.基于分布式无共享架构的海量数据并行查询平台[J].计算机科学,2019,46(4):44-49. 被引量：9
9国冰磊,于炯,杨德先,廖彬.面向关系数据库查询的能耗建模及计划评价[J].计算机研究与发展,2019,56(4):810-824. 被引量：3
10杨立鹏,张仰森,张雯,王建,曾健荣.基于Storm实时流式计算框架的网络日志分析方法[J].计算机科学,2019,46(9):176-183. 被引量：5

同被引文献50

1袁晨,傅强.“T+1”交易制度下非线性证券价格动态模型及实证[J].管理科学学报,2011,14(3):83-96. 被引量：11
2于晓鹏,陈建孝,李永丽.基于消息队列的分布式系统数据一致性方法研究[J].吉林大学学报（信息科学版）,2011,29(3):258-262. 被引量：6
3孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2384
4郑玲,郑晓天.基于WebSocket的电力系统实时数据更新研究[J].计算机与现代化,2013(1):85-87. 被引量：13
5孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,25(4):839-862. 被引量：312
6周耿,姜雨潇,范从来,王宇伟.T+1制度对中小投资者保护效果的实验研究[J].中国经济问题,2018(6):60-75. 被引量：9
7吴晓玲,邱珍珍.基于云存储架构的分布式大数据安全容错存储算法[J].中国电子科学研究院学报,2018,13(6):720-724. 被引量：20
8程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908. 被引量：736
9崔星灿,禹晓辉,刘洋,吕朝阳.分布式流处理技术综述[J].计算机研究与发展,2015,52(2):318-332. 被引量：50
10马苗,朱岩.基于CCSDS标准的卫星数据处理软件设计[J].电子设计工程,2015,23(1):16-20. 被引量：12

引证文献7

1李浩光.大数据网络分布式独立内存分配算法研究[J].科技通报,2021,37(4):37-41.
2单鹏宇,颜晓雯.网络中三维景观图像样品优化查询仿真[J].计算机仿真,2017,34(12):313-317. 被引量：3
3谭亮,周静.基于Spark Streaming的实时交通数据处理平台[J].计算机系统应用,2018,27(10):133-139. 被引量：13
4张文彬,王春梅,王静,陈托,智佳.基于Spark的有效载荷参数解析处理方法[J].计算机工程与设计,2020,41(2):587-591. 被引量：4
5汪丽娟,钱育蓉,张猛,英昌甜,赵燚.基于Flink平台的资源感知任务调度策略[J].东北师大学报（自然科学版）,2020,52(2):66-72. 被引量：2
6颜晓莲,章刚,邱晓红.Kafka中改进型Partition过载优化算法[J].计算机技术与发展,2020,30(12):88-91. 被引量：3
7安建民,周一波,彭送庭.基于流计算的保险大宽表系统的应用研究[J].现代计算机,2021,27(31):51-55. 被引量：1

二级引证文献26

1洪燕云.创新思维与创新技法的应用[J].茶叶机械杂志,2000(2):1-2. 被引量：2
2褚少鹤,周洁,王敬平.基于HBase的交通大数据存储查询平台的设计及实现[J].软件,2019,40(2):138-140.
3吴恩慈.广播机制解决Shuffle过程数据倾斜的方法[J].计算机系统应用,2019,28(6):189-197. 被引量：4
4刘琴.大数据分析下分布式数据流处理技术研究[J].软件工程,2019,22(12):44-46. 被引量：6
5张文彬,王春梅,王静,陈托,智佳.基于Spark的有效载荷参数解析处理方法[J].计算机工程与设计,2020,41(2):587-591. 被引量：4
6杨卫宁,邹维宝.基于Spark的出租车轨迹处理与可视化平台[J].计算机系统应用,2020,29(3):64-72. 被引量：3
7彭大为,史惠存.水利自动化实时流式大数据的处理研究[J].江西科学,2020,38(2):252-256. 被引量：1
8樊俊泽,冯瑞芳.基于iPad运行环境的景观设计虚拟平台APP界面设计[J].现代电子技术,2020,43(16):69-72.
9张乐.基于GML的户外交互空间景观三维可视化设计[J].齐齐哈尔大学学报（自然科学版）,2020,36(6):62-66.
10曾雯,宋卫章.基于微波光子的复杂景观三维场景重构设计[J].激光杂志,2020,41(11):167-170. 被引量：2

1雷芳,张伟.用内存文件映射实现两进程间的内存共享[J].重庆邮电学院学报（自然科学版）,2000,12(4):59-61.
2张立平,于泽波.为WIN XP系统“减减肥”[J].滨州职业学院学报,2004,0(2):50-53.
3杜建春.WS内存文件的恢复方法[J].新浪潮,1991(5):46-47.
4杜建春.WS内存文件恢复[J].中国计算机用户,1991(4):14-16.
5杨颖,杨磊.分布式流数据频繁项发现算法的研究[J].计算机应用,2008,28(1):136-139. 被引量：1
6如何快速加载QQ最近联系人[J].电脑迷,2010(21):92-92.
7陆礼红,尹焕亭.基于CPLD技术的FPGA快速加载方案研究[J].电子技术与软件工程,2013(22):43-43. 被引量：4
8王结,魏振钢.Android平台下快速加载图文信息的研究与实现[J].计算机系统应用,2016,25(12):245-249. 被引量：3
9卫兵,郭玉堂,张磊,李斌.嵌入式系统中UBI设备分区快速加载方案的设计与研究[J].阜阳师范学院学报（自然科学版）,2015,32(4):74-79.
10李响.三维城市仿真模型动态调度研究[J].科技风,2012(9):23-24.

计算机科学

2017年第5期

浏览历史

内容加载中请稍等...

分布式流数据加载和查询技术优化被引量：7

参考文献1

二级参考文献90

共引文献20

同被引文献50

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

分布式流数据加载和查询技术优化 被引量：7

参考文献1

二级参考文献90

共引文献20

同被引文献50

引证文献7

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

分布式流数据加载和查询技术优化被引量：7