期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
一种数据流上基于滑动窗口的点连接查询处理算法 被引量:3
1
作者 杨仁凯 王坤朋 +1 位作者 木伟民 王伟平 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期161-168,共8页
连接是数据库研究中至关重要的一环,在没有边界、连续的数据流模型中,由于存储有限和实时性需求,连接算法主要基于滑动窗口作近似处理.主要研究数据流上一种特殊的连接,命名为点连接.点连接是指对于任意r∈R(称为主流),有唯一的s∈S(称... 连接是数据库研究中至关重要的一环,在没有边界、连续的数据流模型中,由于存储有限和实时性需求,连接算法主要基于滑动窗口作近似处理.主要研究数据流上一种特殊的连接,命名为点连接.点连接是指对于任意r∈R(称为主流),有唯一的s∈S(称为副流)与之对应,其中s.a=r.a且s.time最接近r.time(time称为时间特征).因此,流R与流S上的数据属于n∶1的关系.而在真实的分布式环境下,因为网络等原因,流数据到达的时间和顺序往往不一致,导致连接成功率下降.提出一种新的连接查询处理算法,能够在复杂的网络环境下获取更多的连接输出.实验模拟了2种网络环境,分别在数据有序到达和数据乱序到达2种情况下对算法验证,证明此算法比已有算法更优. 展开更多
关键词 数据流 数据库研究 点连接 滑动窗口 时间特征
下载PDF
基于MR的高可靠分布式数据流统计模型 被引量:2
2
作者 朱蔚林 木伟民 +1 位作者 金宗泽 王伟平 《计算机技术与发展》 2018年第1期6-10,16,共6页
结合流数据独有的特点,以数据流上基于窗口模型的连续分组统计为应用场景,结合现今主流的流数据处理平台Storm和Spark Streaming的优点,提出了一个高吞吐、低延迟、高可扩展性的分布式数据流统计模型Mars,解决由于流数据易失、时效性强... 结合流数据独有的特点,以数据流上基于窗口模型的连续分组统计为应用场景,结合现今主流的流数据处理平台Storm和Spark Streaming的优点,提出了一个高吞吐、低延迟、高可扩展性的分布式数据流统计模型Mars,解决由于流数据易失、时效性强造成的吞吐量压力大、数据延迟低等问题。在容错方面,Mars提供了at-least-once语义支持以防出现重大错误。采用真实实验环境对Mars进行测试,与目前流行的分布式流处理平台Spark Streaming和Storm相比,Mars对数据的实时性操作延迟介于二者之间,但就不同的集群规模而言,Mars的吞吐率明显优于二者1到2倍,就语义准确性而言,Mars实现了与Storm同级别的语义限制。 展开更多
关键词 数据流 分组统计 连续查询 分布式系统 实时处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部