基于重复数据删除的远程备份系统被引量：1

Remote backup system based on data de-duplication

下载PDF

导出

摘要针对传统远程备份中大量冗余数据导致备份效率低下和存储空间浪费的问题,设计并实现了一个基于重复数据删除的远程备份系统。首先根据文件的内容用Rabin指纹将备份文件划分为变长的数据块,把每个数据块的相关信息发送到备份中心,在备份中心利用Google Bigtable及Leveldb的索引算法辅以布隆过滤器对数据块进行判重,最后只传输和存储不重复的数据块。实验结果表明,采用该系统备份相似的数据集能够有效删除其中的重复数据。对数据集进行增量备份,在增量数据变化不大时,相比Rsync备份有更少的网络流量。 To the problem that a large number of redundant data caused inefficient backup and storage waste in traditional remote backup, a remote backup system based on data de-duplication is designed and implemented. Backup files are divided into variable length chunks based on Rabin fingerprint of contents. Chunks＇ information is sent to backup centre where duplicate chunks are sought by using Google Bigtable and Leveldb index algorithm along with bloom filter. Finally, it only transmitted and stored unique chunks. Experimental results show that, it can remove duplicate data effectively to backup similar data sets. Compared with Rsync backup, it has less network flow when it does a incremental backup which has small incremental data.

作者姜涛刘晓洁

机构地区四川大学计算机学院

出处《计算机工程与设计》 CSCD 北大核心 2012年第12期4546-4550,共5页 Computer Engineering and Design

基金国家自然科学基金项目(61173159) 教育部重大项目培育基金项目(708075)

关键词重复数据删除变长分块磁盘索引远程备份数据容灾 data de-duplication variable-length chunking disk index remote backup data tolerant

分类号 TP309.3 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1赵宇,周玉洁.SHA1 IP的设计及速度优化[J].信息安全与通信保密,2006,28(12):125-127. 被引量：2
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
3敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119

二级参考文献51

1黄舒怀,蔡敏.超前进位加法器的一种优化设计[J].半导体技术,2004,29(8):65-68. 被引量：5
2杨天奇,周晔.一种增量式并行Web信息采集方法[J].计算机工程,2006,32(20):97-99. 被引量：5
3蒋宗礼,赵钦,肖华,王蕊.高性能并行爬行器[J].计算机工程与设计,2006,27(24):4762-4766. 被引量：7
4Bhagwat D,Pollack K,Long DDE,Schwarz T,Miller EL,P-ris JF.Providing high reliability in a minimum redundancy archival storage system.In:Proc.of the 14th Int'l Symp.on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems (MASCOTS 2006).Washington:IEEE Computer Society Press,2006.413-421.
5Zhu B,Li K.Avoiding the disk bottleneck in the data domain deduplication file system.In:Proc.of the 6th Usenix Conf.on File and Storage Technologies (FAST 2008).Berkeley:USENIX Association,2008.269-282.
6Bhagwat D,Eshghi K,Mehra P.Content-Based document routing and index partitioning for scalable similarity-based searches in a large corpus.In:Berkhin P,Caruana R,Wu XD,Gaffney S,eds.Proc.of the 13th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining (KDD 2007).New York:ACM Press,2007.105-112.
7You LL,Pollack KT,Long DDE.Deep store:An archival storage system architecture.In:Proc.of the 21st Int'l Conf.on Data Engineering (ICDE 2005).Washington:IEEE Computer Society Press,2005.804-815.
8Quinlan S,Dorward S.Venti:A new approach to archival storage.In:Proc.of the 1st Usenix Conf.on File and Storage Technologies (FAST 2002).Berkeley:USENIX Association,2002.89-102.
9Sapuntzakis CP,Chandra R,Pfaff B,Chow J,Lam MS,Rosenblum M.Optimizing the migration of virtual computers.In:Proc.of the 5th Symp.on Operating Systems Design and Implementation (OSDI 2002).New York:ACM Press,2002.377-390.
10Rabin MO.Fingerprinting by random polynomials.Technical Report,CRCT TR-15-81,Harvard University,1981.

共引文献126

1张砚波,刘正伟,文中领,王永海.一种高效存储解决方案的分析与研究[J].计算机研究与发展,2012,49(S1):180-184. 被引量：9
2马井玮,王克宾,赵彬,马良,王刚,刘晓光.基于重复数据删除的连续数据保护系统的快速回滚[J].计算机研究与发展,2012,49(S1):196-200.
3陆游游,敖莉,舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,49(S1):206-210. 被引量：5
4彭成,王树鹏,贾志凯.基于纠删码的数据消冗存储系统可靠性增强研究[J].计算机研究与发展,2011,48(S1):1-6. 被引量：3
5刘厚贵,邢晶,霍志刚,安学军.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(S2):64-70. 被引量：5
6龚秋艳,陈良育,曾振柄.简单高效的URL消重的方法[J].计算机应用,2010,30(A01):49-50. 被引量：2
7尹玉冰,孙竞,余宏亮.一种广域网环境下的分布式冗余删除存储系统[J].中兴通讯技术,2010,16(5):20-23. 被引量：1
8申彦舒.重复数据删除技术在数字图书馆中的应用[J].图书馆学刊,2011,33(7):123-125. 被引量：2
9邓亮,胡晓勤,梁刚.基于重复数据删除技术的SQL Server数据库备份系统[J].计算机安全,2011(7):9-12. 被引量：1
10张鑫,丁志刚,郑树泉.基于Cortex-M3的M2M监控终端[J].计算机应用,2011,31(11):3165-3168. 被引量：7

同被引文献16

1陆游游,敖莉,舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,49(S1):206-210. 被引量：5
2韩德志,谢长生,李怀阳.存储备份技术探析[J].计算机应用研究,2004,21(6):1-4. 被引量：49
3郭天杰,曹强,谢长生.远程镜像技术和方法研究[J].计算机工程与科学,2006,28(10):38-41. 被引量：6
4Plumleigh M. Digital audio tape : New fuel stokes the smoldering hometaping fire[J].UCLA L. Rev, 1989,37:733.
5Lignos D. Digital linear tape (DLT) Technology and product family o-verview[C]//NASA CONFERENCE PUBLICATION. NASA, 1995:211 -211.
6Bobbarjung D R, Jagannathan S, Dubnicki C. Improving duplicate elim-ination in storage systems [ J ]. ACM Transactions on Storage ( TOS),2006,2(4) :424-448.
7Walter Santos,Thiago Teixeira,Carla Machado,et al. A Scalable Paral-lel Deduplication Algorithm [ C ]//19th International Symposium onComputer Architecture and High Performance Computing, 2007 : 79-86.
8Tin Thein Thwel,Ni Lar Thein. An Efficient Indexing Mechanism forData Deduplication [ C ] //International Conference on Intelligent Com-putation Technology and Automation,2010: 114 - 117.
9Andrew Tridgell. Efficient Algorithms for Sorting and Synchronization[D] . The Australian National Univereity ,1999.
10Liu C,Lu Y,Shi C,et al. ADMAD:Application-Driven Metadata AwareDe-duplication Archival Storage System [ C ]//Storage Network Archi-tecture and Parallel l/0s,2008. SNAPI’ 08. Fifth IEEE InternationalWorkshop on. IEEE ,2008;29 -35.

引证文献1

1孙爱玲,冉禄纯.一种基于重复数据删除的网络文件备份系统设计与实现[J].计算机应用与软件,2014,31(10):86-90. 被引量：8

二级引证文献8

1王晓红.基于CommVault Simpana技术的企业存储备份及恢复系统的应用研究[J].电脑与电信,2015(12):66-69. 被引量：1
2郑亚光,潘久辉.一种基于滑动分块的重复数据检测算法[J].计算机工程,2016,42(2):38-44. 被引量：7
3杨帆,沈来信.基于C/S架构的电子教室管理系统[J].计算机技术与发展,2016,26(3):168-171. 被引量：4
4戚永丰.探讨网络备份中重复数据删除技术研究[J].电子技术与软件工程,2016(9):188-188.
5周斌,朱容波,张莹.基于位串内容感知的数据分块算法[J].计算机工程与科学,2016,38(10):1967-1973.
6李霞.一种基于双机热备的大型服务器程序数据备份还原机制的实现[J].科技创新导报,2017,14(19):162-163. 被引量：1
7姚瑶.基于客户-服务器双端去重的Web预取新方法[J].计算机技术与发展,2019,29(4):181-186. 被引量：1
8陈思佳,温蜜,陈珊.基于重复数据删除技术的雾存储数据去冗余方案[J].计算机应用与软件,2020,37(2):18-24. 被引量：4

1刘靖宇,杨雷,赵秀平,李娟,武优西.DeduBS:一种基于Hash匹配的数据消重远程备份系统[J].河北工业大学学报,2015,44(4):32-37.
2李强,张艳,李舟军.用于灾难恢复的远程备份系统的模型与算法[J].计算机工程与科学,2005,27(5):68-72. 被引量：5
3马旸,蔡冰.大数据环境下Lucene性能优化方法研究[J].南京理工大学学报,2015,39(3):260-265. 被引量：2
4李小军.粗波分复用在远程备份系统中的应用[J].电子工程师,2006,32(4):53-55.
5吕大淦.用于灾难恢复的远程备份系统研究[J].管理观察,2009(13):244-244.
6刘小龙,谢长生,李晓钰.基于IP存储网络的备份系统实现与性能优化[J].计算机工程与应用,2003,39(31):174-176. 被引量：2
7毅,方滨兴,云晓春,胡振宇.基于P2P的网络恶意代码检测技术研究[J].高技术通讯,2008,18(10):1029-1034. 被引量：2
8周大,梁智超,孟小峰.HF-Tree:一种闪存数据库的高更新性能索引结构[J].计算机研究与发展,2010,47(5):832-840. 被引量：13
9朱烜璋,李娅菲.MSSQL数据库远程备份系统的设计与实现[J].湖南科技学院学报,2008,29(8):95-96. 被引量：3
10刘杰,程学旗.高速网络环境下的垃圾邮件快速检测技术[J].计算机工程,2006,32(4):139-141. 被引量：1

计算机工程与设计

2012年第12期

浏览历史

内容加载中请稍等...

基于重复数据删除的远程备份系统被引量：1

参考文献3

二级参考文献51

共引文献126

同被引文献16

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于重复数据删除的远程备份系统 被引量：1

参考文献3

二级参考文献51

共引文献126

同被引文献16

引证文献1

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于重复数据删除的远程备份系统被引量：1