用户感知的重复数据删除算法被引量：7

User-Aware De-Duplication Algorithm

下载PDF

导出

摘要通过大量的实验分析发现：在云桌面场景下,数据拥有者之间的工作相关度越大,则该用户之间存在重复数据的概率越大.基于该实验结果,提出了用户感知的重复数据删除算法.该算法打破了数据空间局部性特征的限制,实现了以用户为单位的更粗粒度的查重计算,可以在不影响重删率的前提下,减少5-10倍常驻内存指纹的数量,并可将每次查重计算的指纹检索范围控制在一个常数范围内,不随数据总量的增加而线性增加,从而有效避免了因为数据总量增加而导致内存不足的问题.除此之外,该算法还能根据存储系统的负载情况自动调整重复指纹检索范围,在性能与重删率之间加以平衡,从而更好地满足主存储场景的需要.原型验证表明,该算法可以很好地解决云计算场景下海量数据的重复数据删除性能问题.与Open Dedup算法相比,当数据指纹总量超出内存可用空间时,该算法可以表现出巨大的优势,减少200%以上的读磁盘操作,响应速度提升3倍以上. By doing a lot of experiments, if two users have more cross-project then they will own more duplication data at a virtual desktop instrument system. So, according to this finding, this paper proposes a user-aware de-duplication algorithm. This algorithm breaks the rule of data locality and can work at the new rule of user locality. According to the new rule, it just need load one user＇s finger print data into memory for each user group. So it can reduce 5x-10x memory requirements than other algorithm and it can control the searching scope in a limited number for each checking besides. So this algorithm can avoid a lot of read I/O operations. Meanwhile, this algorithm can adjust the searching scope dynamically according to the current workload of VDI system. Because it always tries to get the best de-duplication rate but not affect the response time of VDI system. The prototype experimental results show that it can improve the performance of de-duplication algorithm, especially when it used in a massive data storage system. Compared with OpenDedup, the algorithm can reduce more than 200% read I/O operations and can accelerate the response time more than 3x fast when the finger print data is bigger than available memory.

作者张沪寅周景才陈毅波查文亮

机构地区武汉大学计算机学院深圳华为技术有限公司IT标准与专利部国网湖南省电力公司信息通信公司

出处《软件学报》 EI CSCD 北大核心 2015年第10期2581-2595,共15页 Journal of Software

基金国家自然科学基金(61272454) 高等学校博士学科点专项科研基金(20130141110022)

关键词重复数据删除云计算虚拟桌面云 I/O性能瓶颈数据局部性 data deduplication cloud computing virtual desktop instrument I/O performance bottleneck data locality

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1付印金,肖侬,刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展,2012,49(1):12-20. 被引量：64
2付印金,肖侬,刘芳,鲍先强.基于重复数据删除的虚拟桌面存储优化技术[J].计算机研究与发展,2012,49(S1):125-130. 被引量：12
3张俊丽,常艳丽,师文.标签传播算法理论及其应用研究综述[J].计算机应用研究,2013,30(1):21-25. 被引量：42
4孙竞,余宏亮,郑纬民.支持分布式存储删冗的相似文件元数据集合索引[J].计算机研究与发展,2013,50(1):197-205. 被引量：5
5敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119

二级参考文献159

1Bhagwat D,Pollack K,Long DDE,Schwarz T,Miller EL,P-ris JF.Providing high reliability in a minimum redundancy archival storage system.In:Proc.of the 14th Int'l Symp.on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems (MASCOTS 2006).Washington:IEEE Computer Society Press,2006.413-421.
2Zhu B,Li K.Avoiding the disk bottleneck in the data domain deduplication file system.In:Proc.of the 6th Usenix Conf.on File and Storage Technologies (FAST 2008).Berkeley:USENIX Association,2008.269-282.
3Bhagwat D,Eshghi K,Mehra P.Content-Based document routing and index partitioning for scalable similarity-based searches in a large corpus.In:Berkhin P,Caruana R,Wu XD,Gaffney S,eds.Proc.of the 13th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining (KDD 2007).New York:ACM Press,2007.105-112.
4You LL,Pollack KT,Long DDE.Deep store:An archival storage system architecture.In:Proc.of the 21st Int'l Conf.on Data Engineering (ICDE 2005).Washington:IEEE Computer Society Press,2005.804-815.
5Quinlan S,Dorward S.Venti:A new approach to archival storage.In:Proc.of the 1st Usenix Conf.on File and Storage Technologies (FAST 2002).Berkeley:USENIX Association,2002.89-102.
6Sapuntzakis CP,Chandra R,Pfaff B,Chow J,Lam MS,Rosenblum M.Optimizing the migration of virtual computers.In:Proc.of the 5th Symp.on Operating Systems Design and Implementation (OSDI 2002).New York:ACM Press,2002.377-390.
7Rabin MO.Fingerprinting by random polynomials.Technical Report,CRCT TR-15-81,Harvard University,1981.
8Rivest R.The MD5 message-digest algorithm.1992.http://www.python.org/doc/current/lib/module-md5.html.
9U.S.National Institute of Standards and Technology (NIST).Federal Information Processing Standards (FIPS) Publication 180-1:Secure Hash Standard.1995.http://www.itl.nist.gov/fipspubs/fip180-1.htm.
10U.S.National Institute of Standards and Technology (NIST).Federal Information Processing Standards (FIPS) Publication 180-2:Secure Hash Standard.2002.http://csrc.nist.gov/publications/fips/fips180-2/fips180-2.pdf.

共引文献206

1张砚波,刘正伟,文中领,王永海.一种高效存储解决方案的分析与研究[J].计算机研究与发展,2012,49(S1):180-184. 被引量：9
2马井玮,王克宾,赵彬,马良,王刚,刘晓光.基于重复数据删除的连续数据保护系统的快速回滚[J].计算机研究与发展,2012,49(S1):196-200.
3陆游游,敖莉,舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,49(S1):206-210. 被引量：5
4彭成,王树鹏,贾志凯.基于纠删码的数据消冗存储系统可靠性增强研究[J].计算机研究与发展,2011,48(S1):1-6. 被引量：3
5刘厚贵,邢晶,霍志刚,安学军.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(S2):64-70. 被引量：5
6尹玉冰,孙竞,余宏亮.一种广域网环境下的分布式冗余删除存储系统[J].中兴通讯技术,2010,16(5):20-23. 被引量：1
7申彦舒.重复数据删除技术在数字图书馆中的应用[J].图书馆学刊,2011,33(7):123-125. 被引量：2
8邓亮,胡晓勤,梁刚.基于重复数据删除技术的SQL Server数据库备份系统[J].计算机安全,2011(7):9-12. 被引量：1
9张鑫,丁志刚,郑树泉.基于Cortex-M3的M2M监控终端[J].计算机应用,2011,31(11):3165-3168. 被引量：7
10马建庭,杨频.基于重复数据删除的多用户文件备份系统[J].计算机工程与设计,2011,32(11):3586-3589. 被引量：2

同被引文献37

1刘厚贵,邢晶,霍志刚,安学军.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(S2):64-70. 被引量：5
2康潇文,杨英杰,杜鑫.面向容灾的备份数据透明加密机制[J].计算机工程,2009,35(20):131-133. 被引量：4
3敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
4王灿,秦志光,冯朝胜,彭静.面向重复数据消除的备份数据加密方法[J].计算机应用,2010,30(7):1763-1766. 被引量：4
5王佳隽,吕智慧,吴杰,钟亦平.云计算技术发展分析及其应用探讨[J].计算机工程与设计,2010,31(20):4404-4409. 被引量：154
6付印金,肖侬,刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展,2012,49(1):12-20. 被引量：64
7蒋鹏,吴建峰,吴斌,董林玺,王达.基于自适应最优消零的无线传感器网络数据压缩算法研究[J].通信学报,2013,34(2):1-7. 被引量：11
8朱永强,秦志光,江雪.基于Sunday算法的改良单模式匹配算法[J].计算机应用,2014,34(1):208-212. 被引量：3
9谢平.存储系统重复数据删除技术研究综述[J].计算机科学,2014,41(1):22-30. 被引量：25
10马发勇,厉启鹏,马志斌,叶飞,米为民,李军良,王恒.电力调度SCADA系统中历史数据压缩及存储策略[J].电网技术,2014,38(4):1109-1114. 被引量：34

引证文献7

1熊金波,张媛媛,李凤华,李素萍,任君,姚志强.云环境中数据安全去重研究进展[J].通信学报,2016,37(11):169-180. 被引量：26
2马柄腾,刘丹.私有云下基于相似度聚类的重删算法研究[J].微电子学与计算机,2017,34(9):67-70. 被引量：1
3林鑫.云环境对学术信息资源安全保障的影响[J].情报理论与实践,2017,40(11):17-21. 被引量：3
4王青松,葛慧.相似聚类的二级索引重复数据删除算法[J].小型微型计算机系统,2017,38(12):2797-2801. 被引量：2
5胡宁玉,赵青杉,张静.基于重复数据删除的快速恢复方案研究[J].忻州师范学院学报,2017,33(5):34-38.
6刘赛,聂庆节,刘军,王超,李静.基于聚类的重复数据去冗算法的研究[J].计算机技术与发展,2018,28(2):125-129. 被引量：4
7王青松,葛慧.Winnowing指纹串匹配的重复数据删除算法[J].计算机应用,2018,38(3):677-681. 被引量：6

二级引证文献41

1高继梅.隐私保护数据库中自适应重复数据删除仿真[J].计算机仿真,2019,36(1):239-242. 被引量：1
2石宇,胡昌平.云计算环境下学术信息资源共享全面安全保障机制[J].图书情报工作,2019,63(3):54-59. 被引量：13
3任君,熊金波,姚志强.基于差分隐私模型的云数据副本安全控制方案[J].网络与信息安全学报,2017,3(5):38-46. 被引量：3
4张键红,孟宏欣.云存储中一种基于链表的动态去重方案研究[J].信息网络安全,2017(8):14-18.
5付安民,宋建业,苏铓,李帅.云存储中密文数据的客户端安全去重方案[J].电子学报,2017,45(12):2863-2872. 被引量：6
6王青松,葛慧.Winnowing指纹串匹配的重复数据删除算法[J].计算机应用,2018,38(3):677-681. 被引量：6
7熊金波,张媛媛,田有亮,应作斌,李琦,马蓉.基于角色对称加密的云数据安全去重[J].通信学报,2018,39(5):59-73. 被引量：11
8康玉虎.服务器虚拟化环境下的数据备份[J].电子技术与软件工程,2018(19):175-175. 被引量：2
9熊金波,李素萍,张媛媛,李璇,叶阿勇,姚志强.共享所有权证明:协作云数据安全去重新方法[J].通信学报,2017,38(7):18-27. 被引量：6
10沙乐天,肖甫,陈伟,孙晶,王汝传.基于多属性决策及污点跟踪的大数据平台敏感信息泄露感知方法[J].通信学报,2017,38(7):56-69. 被引量：10

1阮闯.Internet技术讲座第四章电子商务技术[J].广东通信技术,1998,18(4):29-33.
2周斌,王晶奇,张莹.布隆过滤器在重复数据删除中的应用[J].电脑知识与技术（过刊）,2014,0(3X):1793-1795. 被引量：2
3万钢,何明一.基于Vega的桌面虚拟场景应用研究[J].微处理机,2007,28(3):111-113.
4杨廉萍,李志.SEP6200的嵌入式指纹检索系统设计[J].单片机与嵌入式系统应用,2014,14(6):46-49.
5周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
6张睿涵.索引文档检测技术应用分析[J].信息系统工程,2016,29(3):94-94.
7周斌.一种基于布隆过滤的快速冗余数据块发现算法[J].中南民族大学学报（自然科学版）,2016,35(3):130-134. 被引量：1
8郑轲,俞婷.网络备份中重复数据消重技术研究[J].科技创新与应用,2016,6(4):61-61. 被引量：3
9刘仲,李凯.一种归档存储系统结构[J].计算机工程,2010,36(7):27-29. 被引量：2
10郭蕊,张雪锋.基于指纹细节点柱形码的参数自适应选取算法[J].计算机应用研究,2017,34(4):1063-1066.

软件学报

2015年第10期

浏览历史

内容加载中请稍等...

用户感知的重复数据删除算法被引量：7

参考文献5

二级参考文献159

共引文献206

同被引文献37

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

用户感知的重复数据删除算法 被引量：7

参考文献5

二级参考文献159

共引文献206

同被引文献37

引证文献7

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

用户感知的重复数据删除算法被引量：7