基于HDFS分布式云存储系统的重复数据检测与删除研究

下载PDF

导出

摘要传统最远点采样(FPS)算法、数据类型分析(WFC)算法的去重冗余度高,在同一数据集分块、去重检测中的数据重复率达到70~90%。基于这一实际情况,提出基于Hadoop分布式软件框架、分布式文件系统(HDFS)等云服务技术,建构用于复杂数据结构分析、数据分块去重的HDFS-SDBS云存储管理系统,使用基于文件相似度的抽样删除索引(SDBS)算法进行文件数据分块、哈希值(Hash)计算、随机抽样的相似度判定,利用元数据索引查重方式完成输入文件数据、内存数据的比对,删除相似度过高的重复数据,以提升云环境下的数据存储效率与准确率。

作者王储

机构地区河南大学软件学院

出处《电脑编程技巧与维护》 2024年第1期92-95,共4页 Computer Programming Skills & Maintenance

关键词 HDFS-SDBS 分布式云存储系统重复数据检测删除

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献6

1李太平.云数据中心安全防护解决方案分析[J].中国新通信,2019,21(22):125-125. 被引量：3
2王建明,李玉华.大数据中心互联网络组网技术与部署策略研究[J].电信工程技术与标准化,2021,34(8):33-38. 被引量：3
3宋东海,李忠鹏.云数据中心安全综合防护研究[J].信息系统工程,2022,35(3):133-136. 被引量：3
4宋桂平.重复数据删除技术在云存储中的应用[J].科技创新与应用,2022,12(19):158-161. 被引量：2
5贺秦禄,边根庆,邵必林,张维琪.移动闪存的重复数据删除技术[J].西安电子科技大学学报,2020,47(1):128-134. 被引量：8
6咸鹤群,高原,穆雪莲,高文静.基于阈值动态调整的重复数据删除方案[J].软件学报,2021,32(11):3563-3575. 被引量：3

二级参考文献15

1胡晓婷,覃中平,张红,郝国生.OpenSSL中AES算法的研究与优化[J].微计算机信息,2009,25(12):83-85. 被引量：11
2建设安全性能“三高”的数据中心[J].计算机安全,2009(7):95-96. 被引量：1
3付印金,肖侬,刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展,2012,49(1):12-20. 被引量：64
4张小梅,马铮,朱安南,姜楠.云数据中心安全防护解决方案[J].邮电设计技术,2016(1):50-54. 被引量：13
5陈春玲,陈琳,熊晶,余瀚.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报（自然科学版）,2016,36(3):85-91. 被引量：15
6杨超,纪倩,熊思纯,刘茂珍,马建峰,姜奇,白琳.新的云存储文件去重复删除方法[J].通信学报,2017,38(3):25-33. 被引量：6
7毛正雄.云数据中心安全防护挑战与解决方案研究[J].中国新通信,2017,19(8):75-77. 被引量：6
8张曙光,咸鹤群,刘红燕,侯瑞涛.云存储环境中基于离线密钥传递的加密重复数据删除方法研究[J].信息网络安全,2017(7):66-72. 被引量：9
9房梁.在无线电监测数据管理中重复数据删除技术的应用分析[J].电脑知识与技术,2018,14(5X):5-6. 被引量：1
10王建明,唐利莉.国家级互联网骨干直联点建设方案分析[J].电信工程技术与标准化,2018,31(9):35-39. 被引量：3

共引文献16

1王晓磊,王涛,尹蕊.浅谈综合能源信息融合的大数据挖据分析与应用[J].数字通信世界,2020(8):217-218.
2陈霄.云数据中心环境下云端安全威胁分析及防范机制研究[J].网络安全技术与应用,2020(9):66-67. 被引量：3
3洪涛涌.基于5G通信切片技术的区域应急解决方案探讨[J].电子测试,2022,36(2):82-84. 被引量：1
4丁建立,李慧.基于持久性内存的民航重复数据删除方法[J].现代电子技术,2022,45(10):131-136.
5宋桂平.重复数据删除技术在云存储中的应用[J].科技创新与应用,2022,12(19):158-161. 被引量：2
6丁建立,李慧,曹卫东.基于民航数据特性的重删固定长度分块方法[J].中国民航大学学报,2022,40(4):32-37. 被引量：1
7宋雪娇.大数据中心安全[J].互联网周刊,2022(19):29-31.
8刘刚.DSFP在数据中心交换机TOR中的应用[J].电子设计工程,2022,30(23):174-178. 被引量：1
9庞家乐,张彦.反向梯度深度学习下重复网络数据标注仿真[J].计算机仿真,2022,39(10):467-470.
10谢光敏,赵文杰,罗光明,郭妍,向蓓蓓.大数据一体化育人平台的构建——以四川水利职业技术学院为例[J].四川水利,2022(S01):155-157.

1石岩.一种基于AIoT业务优化的分布式对象存储系统设计[J].中国安防,2023(12):27-30.
2吴昊天.基于信息系统的电力营销数据去重管理方法研究[J].电气技术与经济,2023(10):276-278. 被引量：2
3刘晓兰,仇宫润,鲁潇南,常济崧,宋锡宁.天绘二号数据存储管理分系统的研究与设计[J].地理空间信息,2023,21(11):98-100. 被引量：1
4苗原.大数据的计算机数据分析管理系统设计[J].中文科技期刊数据库（全文版）工程技术,2024(1):0158-0160.
5李俊皓,张西龙,张永亮.纳米流体稳定性及对流传热特性研究[J].青岛理工大学学报,2024,45(1):88-95.
6路华(文/图).重塑鞋业未来——第7届世界鞋业大会在土耳其召开[J].北京皮革,2023,48(12):8-9.
7张小叶.基于5G的消化内镜诊疗协同平台建设研究[J].重庆医学,2023,52(S02):251-253.
8陈卓航,陈雅琴,郭志勇.一种基于HDFS的分布式文件系统MPIFS[J].黑龙江工程学院学报,2024,38(1):9-14. 被引量：2
9朱建平,黄恒,周积,陈海茂,黄利君.一种融合文件及内容分块的重复数据删除算法[J].软件,2023,44(12):53-59.
10袁伟杰,刘志龙,孙君,孙艳萍,侯岳.海上油田稠油蒸汽吞吐用高温起泡剂研发与性能评价[J].精细石油化工进展,2023,24(6):13-17.

电脑编程技巧与维护

2024年第1期

浏览历史

内容加载中请稍等...

基于HDFS分布式云存储系统的重复数据检测与删除研究

参考文献6

二级参考文献15

共引文献16

相关作者

相关机构

相关主题

浏览历史