基于聚类的重复数据去冗算法的研究被引量：4

Research on Deduplication Algorithm Based on K-medoids Clustering

下载PDF

导出

摘要数据的损坏和丢失会带来无法弥补的损失,数据备份系统可以将损失降到最低程度。随着收集的数据量的迅速增加,备份系统需要备份与恢复的数据也迅速增加,然而备份文件之间的相似度超过60%,全部存储在硬盘上十分浪费存储空间,故提出了一种基于K-medoids聚类的DELTA压缩方法,用来去除备份数据中的重复数据。该方法首先对文件进行切割分块,通过对文件块进行两两DELTA压缩,得出各自压缩文件的大小,作为两个文件块之间的相似度。通过得到的相似度进行K-medoids聚类,作为DELTA压缩前的预处理步骤。然后根据K-medoids的聚类结果,合并小文件块之后再进行DELTA压缩。测试结果表明,该方法提高了压缩率,并减少了DELTA压缩中查找指纹的次数,降低了压缩时间。 Data damage and loss will lead the irreparable losses which can be minimized by data backup system. With the increasing amountof data collection,data backup system has to deal with more and more data of backup and recovery,but the similarity between the variousbackup files is more than 60% so that all the data stored in the hard disk will be a waste of storage space. For this,we propose a DELTAcompression method based on K-medoids clustering to remove duplicate data from the backup data. It firstly segments and blocks the files,and then obtains the size of each compression file by means of DELTA compression between the two blocks as the similarity of them. K-medoids clustering is performed by the similarity obtained as preprocessing steps before DELTA compression. According to the K-medoidsclustering,we merge the small similar file blocks before DELTA compression. The tests show that the proposed method can improve thecompression rate,reduce the number of fingerprints in DELTA compression and shorten the compression time.

作者刘赛聂庆节刘军王超李静

机构地区南瑞集团公司南京航空航天大学计算机学院

出处《计算机技术与发展》 2018年第2期125-129,共5页 Computer Technology and Development

基金国家电网公司总部科技项目(0711-150TL173)

关键词 DELTA压缩数据压缩聚类 K-medoids DELTA compression data compression clustering K-medoids

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1蒋鹏,吴建峰,吴斌,董林玺,王达.基于自适应最优消零的无线传感器网络数据压缩算法研究[J].通信学报,2013,34(2):1-7. 被引量：11
2毛波,叶阁焰,蓝琰佳,张杨松,吴素贞.一种基于重复数据删除技术的云中云存储系统[J].计算机研究与发展,2015,52(6):1278-1287. 被引量：14
3马发勇,厉启鹏,马志斌,叶飞,米为民,李军良,王恒.电力调度SCADA系统中历史数据压缩及存储策略[J].电网技术,2014,38(4):1109-1114. 被引量：34
4付印金,肖侬,刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展,2012,49(1):12-20. 被引量：64
5刘厚贵,邢晶,霍志刚,安学军.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(S2):64-70. 被引量：5
6张沪寅,周景才,陈毅波,查文亮.用户感知的重复数据删除算法[J].软件学报,2015,26(10):2581-2595. 被引量：7
7屈志伟.无线传感器网络数据压缩算法综述[J].科技创新与应用,2015,5(32):90-90. 被引量：1
8王灿,秦志光,冯朝胜,彭静.面向重复数据消除的备份数据加密方法[J].计算机应用,2010,30(7):1763-1766. 被引量：4
9康潇文,杨英杰,杜鑫.面向容灾的备份数据透明加密机制[J].计算机工程,2009,35(20):131-133. 被引量：4
10祁兰,毛燕琴,沈苏彬.一种传感数据的压缩和高效存储方案[J].计算机技术与发展,2016,26(11):177-181. 被引量：1

二级参考文献110

1付印金,肖侬,刘芳,鲍先强.基于重复数据删除的虚拟桌面存储优化技术[J].计算机研究与发展,2012,49(S1):125-130. 被引量：12
2谢长生,黄建忠,刘朝斌.堆叠式文件系统的研究及其在NAS整合中的实现[J].小型微型计算机系统,2005,26(3):515-518. 被引量：4
3吕利娟,李静.霍夫曼算法在降低WSN系统功耗中的应用研究[J].电脑知识与技术,2007(5):735-735. 被引量：2
4Menezes A J.应用密码学手册[M].北京:电子工业出版社,2005.
5Mazieres D, Kaminsky M, Kaashoek M F, et al. Separating Key Management from File System Security[C]//Proc. of the 17th ACM Symposium on Operating Systems Principles. Kiawah Island Resort, SC, USA: [s. n.], 1999.
6Cattaneo G, Catuogno L, Sorbo A D, et al. The Design and Implementation of a Transparent Cryptographic Filesystem for UNIX[C]//Proc. of the Annual USENIX Technical Conference. Boston, Massachusetts, USA: [s. n.], 2001.
7Wright C R Martino M C, Zadok E. NCryptfs: A Secure and Convenient Cryptographic File System[C]//Proc. of General Track of the USENIX 2003 Annual Technical Conference. San Antonio, Texas, USA: [s. n.], 2003.
8Backes M, Cachin C, Oprea A. Lazy Revocation in Cryptographic File Systems[C]//Proc. of SISW'05. San Francisco, USA: [s. n.], 2005.
9MEISTER D,BRINKMANN A.Multi-level comparison of data deduplication in a backup scenario[C] // Proceedings of SYSTOR 2009:The Israeli Experimental Systems Conference.New York:ACM,2009:623-629.
10QUINLAN S,DORWARD S.Venti:A new approach to archival storage[C] // Proceedings of the 1st USENIX Conference on File and Storage Technologies.Berkeley:USENIX Association,2002:89-101.

共引文献130

1王灿,秦志光,王娟,蔡博.基于文件相似性分簇的重复数据消除模型[J].计算机应用研究,2012,29(5):1684-1689. 被引量：2
2许建真,焦阳,冉九红.一种带身份验证和灾备功能的数据同步模型[J].计算机工程,2012,38(16):74-76.
3李超,王树鹏,云晓春,周晓阳,陈明.一种基于流水线的重复数据删除系统读性能优化方法[J].计算机研究与发展,2013,50(1):90-100. 被引量：2
4孙虎威,靳嘉伟,张晶,龚鸣.重复数据删除算法在VTL系统中的应用研究[J].微型机与应用,2013,32(6):82-85. 被引量：1
5朱惠民,赵俊阁.基于信息系统容灾技术的数据存储脆弱性分析[J].计算机与数字工程,2013,41(5):794-796. 被引量：1
6徐凌,闫红霞,刘嘉焜.基于小波包最优基的网络数据的压缩[J].河南科学,2013,31(8):1188-1192.
7王灿,秦志光,杨磊,杨皓.基于改进Sparse Indexing的多负载消冗方法[J].电子科技大学学报,2013,42(5):734-739.
8朱惠民,赵俊阁.基于文件系统容灾备份数据的透明加密机制设计[J].科学技术与工程,2013,21(35):10691-10696.
9谢平.存储系统重复数据删除技术研究综述[J].计算机科学,2014,41(1):22-30. 被引量：25
10张志杰,何利力.烟草工业数据灾备中重复数据删除技术研究[J].工业控制计算机,2013,26(12):22-23.

同被引文献39

1辛耀中,石俊杰,周京阳,高宗和,陶洪铸,尚学伟,翟明玉,郭建成,杨胜春,南贵林,刘金波.智能电网调度控制系统现状与技术展望[J].电力系统自动化,2015,39(1):2-8. 被引量：290
2李滨,杜孟远,祝云,韦化.基于准实时数据的智能配电网状态估计[J].电工技术学报,2016,31(1):34-44. 被引量：49
3王虹,孙红.基于混合聚类算法的客户细分策略研究[J].电子科技,2016,29(1):29-32. 被引量：10
4罗恩韬,王国军,李超良.大数据环境中多维数据去重的聚类算法研究[J].小型微型计算机系统,2016,37(3):438-442. 被引量：19
5朱亚东,高翠芳.基于PSO的云计算环境中大数据优化聚类算法[J].计算机技术与发展,2016,26(9):178-182. 被引量：7
6李柏青,刘道伟,秦晓辉,严剑峰.信息驱动的大电网全景安全防御概念及理论框架[J].中国电机工程学报,2016,36(21):5796-5805. 被引量：41
7甄昊涵,沈华.电能表现场检验数据挖掘研究[J].电子技术应用,2017,43(4):76-78. 被引量：15
8张地,胡峻洁,李明喜,罗群,雷敏.基于双活数据中心的电商平台网站数据保护及灾备恢复策略研究[J].网络安全技术与应用,2017(6):89-90. 被引量：2
9吴庆曦,彭晖,王瑾,靳晶,魏娜,赵家庆.电网调控集群分布式实时数据库的设计与关键技术[J].电力系统自动化,2017,41(22):89-95. 被引量：29
10倪鹏,包为民,张乾,陈伟东.基于主成分分析的系统聚类分析方法在洪水预报中的应用[J].三峡大学学报（自然科学版）,2018,40(1):1-4. 被引量：9

引证文献4

1王玙.基于聚类算法的企业管理系统的设计[J].电子设计工程,2019,27(4):47-51. 被引量：3
2朱毓.基于随机森林的社交网络用户浏览行为数据去冗方法[J].宁夏师范学院学报,2021,42(1):73-78. 被引量：2
3王海滨.大数据环境中多维数据去重的聚类算法研究[J].网络安全技术与应用,2021(4):37-38. 被引量：1
4沈彬,魏博源,姚元其,万志文.基于Delta压缩算法的电能表检验数据灾备与恢复方法[J].微型电脑应用,2022,38(10):104-107. 被引量：1

二级引证文献7

1尹卿宇,徐启峰,周洁.配电网设备利用率的组合智能评价方法[J].智慧电力,2020,48(11):55-61. 被引量：6
2于佳动,赵立欣,姚宗路,李佩琪,冯晶,罗娟,叶炳南.我国集约化奶牛养殖场粪污污染综合防治全链条技术模式评价[J].中国乳业,2021(11):12-22. 被引量：3
3张侃弘,栾晓宇.基于知识图谱模型的企业应用数据架构及管理系统设计[J].现代科学仪器,2022,39(1):39-43. 被引量：1
4易灿.基于大规模图谱分析的移动流量数据识别算法研究[J].电子制作,2022,30(8):47-49.
5王艳艳,金义,钱诚,许晓艺.基于资质评价模型与不良行为分析的供电企业供应商管理系统开发[J].武汉理工大学学报（信息与管理工程版）,2022,44(5):752-757.
6王洲洋,吴鹤,白茹冰,吴守仓,徐锟,张之江.基于IMU模块的数据压缩系统设计[J].工业控制计算机,2024,37(1):79-81.
7韩永印,王侠,王志晓.基于决策树的社交网络隐式用户行为数据挖掘方法[J].沈阳工业大学学报,2024,46(3):312-317.

1高垣,佀洁.高校数据汇聚框架设计研究[J].数码世界,2018,0(2):58-58.
2宗启章.中波发射系统的无线信号源备份系统[J].信息记录材料,2018,19(2):137-138.
3罗良夫,张丽.JavaScript数组去重功能的设计与实现[J].电脑知识与技术,2017,13(12):6-7.
4万立夫.文件不解压就能直接用[J].电脑爱好者,2017,0(21):36-37.
5王瑛辉.计算机数据库的备份与恢复技术研究[J].才智,2017,0(25):266-266. 被引量：2
6胡宁玉,赵青杉,张静.基于重复数据删除的快速恢复方案研究[J].忻州师范学院学报,2017,33(5):34-38.
7沈国栋,何海华.新型脚踏翻盖可压缩式垃圾桶设计研究[J].浙江国际海运职业技术学院学报,2017,13(4):47-49.
8盛照刚.备份数据简单有效[J].网络安全和信息化,2017,0(12):75-77.
9谢衍财.医院信息系统中Oracle数据库的备份与恢复策略[J].电子技术与软件工程,2017(22):194-195. 被引量：3
10王剑雄,宋昊楠,郑惠,王玉兰,郝娟.分布式电网中数据备份与恢复系统研究[J].电源技术,2017,41(10):1490-1491. 被引量：5

计算机技术与发展

2018年第2期

浏览历史

内容加载中请稍等...

基于聚类的重复数据去冗算法的研究被引量：4

参考文献10

二级参考文献110

共引文献130

同被引文献39

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于聚类的重复数据去冗算法的研究 被引量：4

参考文献10

二级参考文献110

共引文献130

同被引文献39

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于聚类的重复数据去冗算法的研究被引量：4