期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
行列混合存储的数据压缩策略研究
1
作者 魏玲 郭新朋 《小型微型计算机系统》 CSCD 北大核心 2017年第6期1267-1272,共6页
大数据技术不断深入发展,对于数据压缩技术的要求也在不断提高.为此,构建叠加式行列混合存储结构,提出动态编码选择数据压缩策略.首先,依据数据类型,选取对应处理效果最佳的编码方式;然后,设计基于行列存储的页式存储结构对数据属性缓... 大数据技术不断深入发展,对于数据压缩技术的要求也在不断提高.为此,构建叠加式行列混合存储结构,提出动态编码选择数据压缩策略.首先,依据数据类型,选取对应处理效果最佳的编码方式;然后,设计基于行列存储的页式存储结构对数据属性缓冲区中的数据进行处理,确定可压缩的属性数据并存储于属性块;最后设计并实现动态编码选择数据压缩算法,对属性块中的数据进行压缩处理,计算数据压缩比.应用大规模数据集SSB中的数据表进行数据压缩处理,实验结果验证了基于行列混合存储的动态编码选择数据压缩策略在数据压缩比、数据压缩时间方面性能优于单一行、列存储下的数据压缩方式,提高了压缩效率. 展开更多
关键词 行列混合存储 页式存储 数据压缩 数据压缩比
下载PDF
行列混合存储数据库系统的研究 被引量:3
2
作者 孙林超 陈群 +1 位作者 肖玉泽 白松 《计算机应用研究》 CSCD 北大核心 2013年第2期480-482,486,共4页
通过研究列存储技术的特点,提出了一种行列混合存储数据库系统的设计方案。该方案在存储层设立独立的行存储引擎和列存储引擎,采用早物化技术在数据读出之后将列表转换成行表,然后以行的形式完成后续处理。因此,该方法既获得了列存储的... 通过研究列存储技术的特点,提出了一种行列混合存储数据库系统的设计方案。该方案在存储层设立独立的行存储引擎和列存储引擎,采用早物化技术在数据读出之后将列表转换成行表,然后以行的形式完成后续处理。因此,该方法既获得了列存储的读优势又复用了行数据库系统的成熟部件,降低了开发的风险和复杂度。基于PostgreSQL的原型开发与测试证明了该方案的可行性和有效性。 展开更多
关键词 数据库管理系统 行列混合存储 存储引擎
下载PDF
混合存储下的MapReduce启发式多表连接优化 被引量:3
3
作者 王梅 邢露露 孙莉 《计算机科学与探索》 CSCD 2014年第11期1334-1344,共11页
对Map Reduce下的多表连接查询进行了研究,发现由于Map Reduce框架本身的局限性,造成执行效率较低。针对此问题,提出了Map Reduce启发式多表连接优化方法(Map Reduce based heuristic multi-join optimization,MHMO),为不同的连接模式... 对Map Reduce下的多表连接查询进行了研究,发现由于Map Reduce框架本身的局限性,造成执行效率较低。针对此问题,提出了Map Reduce启发式多表连接优化方法(Map Reduce based heuristic multi-join optimization,MHMO),为不同的连接模式启发式地推荐不同的执行算法。特别的,对于混合连接,首先将其分组为多个简单连接模式,进而定义代价模型确定各分组的最优执行顺序。结合列存储的延迟物化技术,大大提高了Map Reduce下多表连接的执行性能。最后,在数据仓库基准测试数据集TPCH上进行了实验,验证了MHMO的有效性。 展开更多
关键词 MAPREDUCE 行列混合存储 延迟物化 多表连接优化
下载PDF
基于可信云计算的非集中式元数据存储结构优化 被引量:1
4
作者 杨阔 李海涛 张雪梅 《计算技术与自动化》 2023年第1期183-187,共5页
在非集中式元数据的存储调用过程中,在硬件结构复杂、负载量大的情况下,参数设置优化步骤复杂,导致带宽达不到存储应用的期望,为此设计了一种基于可信云计算的非集中式元数据存储结构优化方法。设计非集中式元数据存储结构总体框架,计... 在非集中式元数据的存储调用过程中,在硬件结构复杂、负载量大的情况下,参数设置优化步骤复杂,导致带宽达不到存储应用的期望,为此设计了一种基于可信云计算的非集中式元数据存储结构优化方法。设计非集中式元数据存储结构总体框架,计算最优元数据存储结构,通过能量检测对存储分区进行筛选,建立基于可信云计算的存储度量模型,设计可信度量存储报告机制,引入行列混合存储,设计内部结构分布图,实现结构优化。测试结果显示:在不同优化方法下,设计的优化方法所得到的存储结构下并行读写的写入带宽不会受到服务器数量变化的影响,高负载读写下的聚集带宽也较优。 展开更多
关键词 可信云计算 存储结构 存储框架 并行读写 行列混合存储结构
下载PDF
基于GPU加速的超精简型编码数据库系统 被引量:7
5
作者 骆歆远 陈刚 伍赛 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期362-376,共15页
在数据爆发式增长的今天,特别是通信、金融、互联网等领域产生的大规模数据,在存储和查询方面给业界带来了前所未有的压力.在这种背景下,当前的数据库和数据仓库系统通过对数据进行压缩编码,在节约空间的同时减少了数据表查询时所需的I... 在数据爆发式增长的今天,特别是通信、金融、互联网等领域产生的大规模数据,在存储和查询方面给业界带来了前所未有的压力.在这种背景下,当前的数据库和数据仓库系统通过对数据进行压缩编码,在节约空间的同时减少了数据表查询时所需的I/O,获得性能上的提升,但大部分系统在面对实际大规模企业数据应用时依然无法在压缩比、导入时间或查询性能上完全满足企业需求.通过基于一定的规则对数据重新进行编码和精简,实现了一种新型超精简型编码的数据库系统HEGA-STORE.采用行列混合存储的架构;提出基于列内和列间规则挖掘和编码的数据导入存储计划;同时在规则挖掘和编码中使用GPU作为协处理器并行处理算法从而提高效率.通过开发编解码原型系统,对大规模网易易信通信记录数据和网易后台日志数据的导入和查询分别进行了测试,并与其他压缩编码算法和数据库、数据仓库产品进行比较.对比实验结果表明,相比同类数据库和数据仓库产品,原型系统拥有极高的压缩比,并且在导入速度和全表扫描查询速度也处于领先地位,同时使用GPU和CPU协作进行数据处理时也能进一步提高系统性能,验证了提出的超精简型编码数据库系统的实际应用价值. 展开更多
关键词 数据库系统 行列混合存储 编码 规则挖掘 GPU CUDA
下载PDF
MR-DC:基于MapReduce的轻量级数据压缩策略 被引量:3
6
作者 田波 丁祥武 《智能计算机与应用》 2015年第1期77-80,83,共5页
大数据平台Hadoop为追求通用性,牺牲了对结构化大数据的处理性能。为此,提出了一种Hadoop平台上的针对结构化数据的压缩存储策略。首先,针对多种不同的数据类型,结合轻量级压缩算法的特点,设计了多种数据类型的压缩数据页;然后,设计了基... 大数据平台Hadoop为追求通用性,牺牲了对结构化大数据的处理性能。为此,提出了一种Hadoop平台上的针对结构化数据的压缩存储策略。首先,针对多种不同的数据类型,结合轻量级压缩算法的特点,设计了多种数据类型的压缩数据页;然后,设计了基于HDFS的页式行列混合存储结构;最后,设计并实现了基于MapReduce的MR-DC数据压缩策略,将数据压缩存储到设计的存储结构中。在大规模数据仓库基准数据集上的实验结果验证了提出的策略能够显著减少结构化数据的存储量,从而为提高后续的数据分析处理性能打下基础。 展开更多
关键词 数据压缩 HADOOP 压缩数据页 行列混合存储结构
下载PDF
一种基于SSD的高性能Hadoop系统的设计与应用 被引量:1
7
作者 陈丽 王锐 胡刚 《广东水利电力职业技术学院学报》 2016年第1期39-44,共6页
在大数据平台中,随第一代Hadoop出现的基于磁盘的批处理计算框架Map Reduce的局限日益显现:数据读入和中间结果数据均依赖于大量磁盘I/O,性能有限。基于内存计算的Spark成为当前重点,对比Map Reduce性能可提升10-100倍,但内存使用的成... 在大数据平台中,随第一代Hadoop出现的基于磁盘的批处理计算框架Map Reduce的局限日益显现:数据读入和中间结果数据均依赖于大量磁盘I/O,性能有限。基于内存计算的Spark成为当前重点,对比Map Reduce性能可提升10-100倍,但内存使用的成本依旧高昂。采用超高速且相对廉价的SSD作为大数据的缓存解决方案,阐述了SSD和HDD的混合存储架构;同时,结合高效的Spark计算引擎和行列混合式文件结构等优化技术,设计了一种基于SSD的高性能Hadoop系统,能有效地解决大数据计算系统的性能问题和存储空间问题,实验结果显示取得数倍性能提升。 展开更多
关键词 大数据 HADOOP SPARK SSD 行列混合存储
下载PDF
基于Hadoop的大数据计算技术 被引量:18
8
作者 查礼 《科研信息化技术与应用》 2012年第6期26-33,共8页
大数据计算面对的是传统IT技术无法处理的数据量超大规模、服务请求高吞吐量和和数据类型异质多样的挑战。得益于国内外各大互联网公司的实际应用和开源代码贡献,源于Google的Apache Hadoop软件已成为PB量级大数据处理的成熟技术和事实... 大数据计算面对的是传统IT技术无法处理的数据量超大规模、服务请求高吞吐量和和数据类型异质多样的挑战。得益于国内外各大互联网公司的实际应用和开源代码贡献,源于Google的Apache Hadoop软件已成为PB量级大数据处理的成熟技术和事实标准。本文介绍了大数据计算系统中存储和索引两项研究工作,RCFile和CCIndex,分别有效解决了大数据计算系统的存储空间问题和查询性能问题。 展开更多
关键词 大数据 HADOOP 行列混合式数据存储 互补式聚簇索引 云计算
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部