由于无损备份会记录每次变更的数据,因此产生的备份数据量非常大,导致备份过程过长,使得数据存储效果并不理想。为了优化大数据背景下的数据存储方式,提出考虑带宽限制的无损数据库分布式增量备份。引入相似度计算原理,提取数据库内缺...由于无损备份会记录每次变更的数据,因此产生的备份数据量非常大,导致备份过程过长,使得数据存储效果并不理想。为了优化大数据背景下的数据存储方式,提出考虑带宽限制的无损数据库分布式增量备份。引入相似度计算原理,提取数据库内缺陷数据的相似属性邻近数据,结合自适应多级决策树优化(Group Method of Data Handling,GMDH)算法构建最优复杂度计算结构,对缺陷数据插补。通过无损数据压缩(Lempel-Ziv-Welch,LZW)算法,压缩插补后的数据。用不同维度的数据特征向量描述数据的类别,结合重采样(Bootstrap resampling,Bootstrap)算法与概率理论判断数据类别,将不同类别数据备份至增量备份树的不同分支内,在数据更新条件下,通过增量备份树分支节点数据的查询,实现非重复性数据的增量备份。实验表明,所提方法能够在低带宽占用条件下,实现数据的高效增量备份,对应用数据的保护具有重要意义。展开更多
文摘由于无损备份会记录每次变更的数据,因此产生的备份数据量非常大,导致备份过程过长,使得数据存储效果并不理想。为了优化大数据背景下的数据存储方式,提出考虑带宽限制的无损数据库分布式增量备份。引入相似度计算原理,提取数据库内缺陷数据的相似属性邻近数据,结合自适应多级决策树优化(Group Method of Data Handling,GMDH)算法构建最优复杂度计算结构,对缺陷数据插补。通过无损数据压缩(Lempel-Ziv-Welch,LZW)算法,压缩插补后的数据。用不同维度的数据特征向量描述数据的类别,结合重采样(Bootstrap resampling,Bootstrap)算法与概率理论判断数据类别,将不同类别数据备份至增量备份树的不同分支内,在数据更新条件下,通过增量备份树分支节点数据的查询,实现非重复性数据的增量备份。实验表明,所提方法能够在低带宽占用条件下,实现数据的高效增量备份,对应用数据的保护具有重要意义。