-
题名分布式数据流关系查询技术研究
被引量:21
- 1
-
-
作者
王春凯
孟小峰
-
机构
中国人民大学信息学院
-
出处
《计算机学报》
EI
CSCD
北大核心
2016年第1期80-96,共17页
-
基金
国家自然科学基金(61379050
91224008)
+2 种基金
国家"八六三"高技术研究发展计划项目基金(2013AA013204)
高等学校博士学科点专项科研基金(20130004130001)
中国人民大学科学研究基金(11XNL010)资助
-
文摘
随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生.大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如S4、Storm、Spark Streaming等.然而,为提升处理系统的易用性和处理能力,需要在其之上构建具有抽象查询语言的关系查询系统,以构筑完整的分布式数据流管理系统.如何设计并实现高效易用的关系查询系统是一个亟待解决的问题.文中首先概述了分布式数据流查询处理的典型应用、数据特征和实现目标.进而,提出了分布式数据流关系查询系统的基础架构,并基于此架构深入分析了用户自定义函数查询、查询优化、驱动方式、编译技术、算子管理、调度管理和并行管理等关键技术.然后,对比分析了SPL、StreamingSQL、Squall和DBToaster这4种具有代表性的查询系统实例.最后,指明了该技术在优化技术、执行策略、实时精准查询和复杂查询分析等方面所面临的挑战和今后的研究工作.
-
关键词
大数据
数据流
流处理系统
流查询系统
关系查询技术
-
Keywords
big data
data stream
stream processing system
stream query system
relationalquery technique
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-