-
题名列存储数据库关键技术综述
被引量:24
- 1
-
-
作者
李超
张明博
邢春晓
胡劲松
-
机构
清华大学信息技术研究院
-
出处
《计算机科学》
CSCD
北大核心
2010年第12期1-7,17,共8页
-
基金
国家863计划(编号2009AA01Z143)
铁道部-清华大学科技研究基金(编号:J2008X009)资助
-
文摘
随着互联网技术的发展、硬件的不断更新、企业及政府信息化的不断深入,应用的复杂性要求越来越高,推动着数据存储技术向着海量数据、分析数据、智能数据的方向发展,以便为数据仓库、在线分析提供高效实时的技术支持。基于行存储的数据库技术面临新的问题,已经出现了技术瓶颈。近些年来,一种新的数据存储理念,即基于列存储的关系型数据库(简称列数据库,下同)应运而生。列数据库能够快速发展,主要原因是其复杂查询效率高,读磁盘少,存储空间少,以及由此带来的技术、管理和应用优势。对列数据库技术的基本现状、关键支撑技术以及应用优势进行了介绍和分析。
-
关键词
列数据库
列存储
数据压缩
延时物化
成组迭代
不可见连接
数据仓库
商业智能
tpch
-
Keywords
Column-oriented database
Compression
Block iteration
Late materialization
Invisible join
Data warehouse
Business intelligence
tpch
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Trevni行列混合的分布式嵌套存储研究
- 2
-
-
作者
文卫东
李鸯
李文海
-
机构
软件工程国家重点实验室
武汉大学计算机学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2018年第18期74-81,共8页
-
基金
国家自然科学基金(No.61572373
No.61472290
+1 种基金
No.60903035)
国家重点研发计划(No.2017YFC08038)
-
文摘
为提升树形结构模式和级联关系模式下的查询执行效率,提出一种行列混合式存储方法。通过在列存中引入分组概念,形成逻辑上完整但局部上独立的列组物理单元。研究分析了现有单纯行存储和列存储的优势和潜在不足,并在此基础上通过模式驱动对这一存储方法进行物理设计,使得研究能够适用主流的列存架构。基于开源框架Avro的列存内核Trevni,研究对所提方法予以实现以期显著降低列存到元组转换过程中的开销,同时保证数据交换仅限于查询所需的列。为提高在复杂模式下的可用性,基于union对存储结构进行优化,使得访问能够集中于有效的单元中,并基于空值支持关系查询场景中不满足外关键字约束的模式。实验基于十亿条TPCH数据进行,通过构建三层嵌套分组模式执行查询。结果表明,所提方法较传统行列存储方法效率有显著提升。
-
关键词
嵌套模式
列存
分组策略
tpch
数据库
-
Keywords
nested schema
column storage
grouping strategy
tpch
DBMS
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-