摘要
在重复数据删除技术对降低存储设备成本等具有重要意义。重复数据删除系统通常会面临数据查询引发的硬盘瓶颈问题,而现有的硬盘瓶颈优化方案在面对海量数据处理请求时又有一定的局限性。针对上述问题,本文提出了一个有效的基于相似性的分布式重复数据删除模型(Similarity-based Distributed Duplication Elimination Model,SD2EM)。利用Extreme Binning技术的分布特性,优化Extreme Binning的优先索引表,设计基于Hadoop架构的分布式去重模型,并通过分割相似集、循环去重的方式使基于相似性的去重技术达到更细的粒度。最后,基于大规模真实数据的实验表明,SD2EM模型在数据缩减率、内存占用率、系统吞吐率和运行时间等方面都表现出很好的性能,更适合在海量数据背景下重复数据删除的处理需求。
出处
《中国新通信》
2018年第12期53-55,共3页
China New Telecommunications
基金
辽宁省教育厅科学研究项目资助(NO.LYB201617)
国家自然科学基金项目资助(61472169)
辽宁省教育厅科学研究一般项目资助(NO.L2015204)