-
题名列存储数据仓库中基于概率的保序字符串压缩方法
- 1
-
-
作者
夏小玲
李海燕
王梅
-
机构
东华大学计算机科学与技术学院
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第8期1674-1682,共9页
-
基金
"核高基"国家科技重大专项基金项目(2010ZX01042-001-003-004)
国家自然科学基金项目(61070031
+2 种基金
61070032
61103046)
上海市自然科学基金项目(11ZR1401200)
-
文摘
数据仓库中采用按列存储的方式更有利于数据的压缩,保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性,然而现有做法很难兼顾字符串出现的概率对压缩效率的影响,影响了压缩性能.因此,提出一种基于概率的保序字符串压缩方法.首先,提出一种扩展的共用叶子结构,使得编码索引和解码索引共享同一个码表,大大减少了编码和解码索引的维护时间.同时在该结构中,记录字符串出现的概率,并根据概率的高低建立解码索引,有效降低了高频字符串的解压时间.进一步,根据列存储的特点,将用于列连接的行号信息保存在扩展的叶子结构中,从而有效减少了列值索引的存储空间和创建时间.实验结果验证了该方法的有效性.
-
关键词
列存储
字符串压缩
保序轻量级压缩
共享叶子
字符串出现次数
-
Keywords
column-oriented
string compression
order-preserving lightweight compression
sharedleaf
string occurence
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-