-
题名面向大数据流的分布式索引构建
被引量:4
- 1
-
-
作者
杨良怀
卢晨曦
范玉雷
朱镇洋
潘建
-
机构
浙江工业大学计算机学院
浙江工业大学之江学院
-
出处
《软件学报》
EI
CSCD
北大核心
2021年第11期3576-3595,共20页
-
基金
国家重点研发计划(2020YFB1707700)。
-
文摘
大数据流的高效存储与索引是当今数据领域的一大难点.面向带有时间属性的数据流,根据其时间属性,将数据流划分为连续的时间窗口,提出了基于双层B+树的分布式索引结构WB-Index.下层B+树索引基于窗口内流数据构建,索引构建过程结合基于排序的批量构建技术,进一步对时间窗口分片,将数据流接收、分片数据排序以及B+树构建并行化,提高了构建性能.上层B+树索引基于各时间窗口构建,结合时间窗口时间戳的递增性和无限性,提出了避免节点分裂的构建方法,减少了B+树分裂移动开销,提高了空间利用率和更新效率.WB-Index架构中,将流数据和索引分离,同时利用内存缓存尽可能多的双层B+索引和热点数据来提高查询性能.理论和实验结果表明,该分布式索引架构能够支持高效的实时数据流写入以及流数据查询,能够很好地应用于具有时间属性的数据流场景.
-
关键词
大数据
数据流
分布式索引
B+树
-
Keywords
big data
data stream
distributed index
B+tree
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-