-
题名一种数据流上基于滑动窗口的点连接查询处理算法
被引量:3
- 1
-
-
作者
杨仁凯
王坤朋
木伟民
王伟平
-
机构
中国科学院大学
中国科学院信息工程研究所
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2014年第S1期161-168,共8页
-
基金
国家"八六三"高技术研究发展计划基金项目(2013AA013204
2012AA01A401)
+1 种基金
"核高基"国家科技重大专项基金项目(2013ZX01039-002-001-001)
中科院"战略性先导专项"项目(XDA06030200)
-
文摘
连接是数据库研究中至关重要的一环,在没有边界、连续的数据流模型中,由于存储有限和实时性需求,连接算法主要基于滑动窗口作近似处理.主要研究数据流上一种特殊的连接,命名为点连接.点连接是指对于任意r∈R(称为主流),有唯一的s∈S(称为副流)与之对应,其中s.a=r.a且s.time最接近r.time(time称为时间特征).因此,流R与流S上的数据属于n∶1的关系.而在真实的分布式环境下,因为网络等原因,流数据到达的时间和顺序往往不一致,导致连接成功率下降.提出一种新的连接查询处理算法,能够在复杂的网络环境下获取更多的连接输出.实验模拟了2种网络环境,分别在数据有序到达和数据乱序到达2种情况下对算法验证,证明此算法比已有算法更优.
-
关键词
数据流
数据库研究
点连接
滑动窗口
时间特征
-
Keywords
data stream
database research
point-join
sliding window
temporal characteristics
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于MR的高可靠分布式数据流统计模型
被引量:2
- 2
-
-
作者
朱蔚林
木伟民
金宗泽
王伟平
-
机构
中国科学院信息工程研究所
中国科学院大学
-
出处
《计算机技术与发展》
2018年第1期6-10,16,共6页
-
基金
国家自然科学基金(61402473)
-
文摘
结合流数据独有的特点,以数据流上基于窗口模型的连续分组统计为应用场景,结合现今主流的流数据处理平台Storm和Spark Streaming的优点,提出了一个高吞吐、低延迟、高可扩展性的分布式数据流统计模型Mars,解决由于流数据易失、时效性强造成的吞吐量压力大、数据延迟低等问题。在容错方面,Mars提供了at-least-once语义支持以防出现重大错误。采用真实实验环境对Mars进行测试,与目前流行的分布式流处理平台Spark Streaming和Storm相比,Mars对数据的实时性操作延迟介于二者之间,但就不同的集群规模而言,Mars的吞吐率明显优于二者1到2倍,就语义准确性而言,Mars实现了与Storm同级别的语义限制。
-
关键词
数据流
分组统计
连续查询
分布式系统
实时处理
-
Keywords
data stream
grouping statistic
continuous query
distributed system
real-time processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-