期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
列存储数据仓库中基于概率的保序字符串压缩方法
1
作者 夏小玲 李海燕 王梅 《计算机研究与发展》 EI CSCD 北大核心 2013年第8期1674-1682,共9页
数据仓库中采用按列存储的方式更有利于数据的压缩,保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性,然而现有做法很难兼顾字符串出现的概率对压缩效率的影响,影响了压缩性能.因此,提出一种基于概率的保序字符串压缩方法... 数据仓库中采用按列存储的方式更有利于数据的压缩,保留顺序的轻量级压缩方法对列存储的字符串属性压缩显示其优越性,然而现有做法很难兼顾字符串出现的概率对压缩效率的影响,影响了压缩性能.因此,提出一种基于概率的保序字符串压缩方法.首先,提出一种扩展的共用叶子结构,使得编码索引和解码索引共享同一个码表,大大减少了编码和解码索引的维护时间.同时在该结构中,记录字符串出现的概率,并根据概率的高低建立解码索引,有效降低了高频字符串的解压时间.进一步,根据列存储的特点,将用于列连接的行号信息保存在扩展的叶子结构中,从而有效减少了列值索引的存储空间和创建时间.实验结果验证了该方法的有效性. 展开更多
关键词 列存储 字符串压缩 保序轻量级压缩 共享叶子 字符串出现次数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部