一种基于Simhash算法的重复域名数据去重方法被引量：4

Method for deleting duplicate domain name data based on Simhash algorithm

下载PDF

导出

摘要随着数字科学技术的发展,各领域需要传输和存储的数据量急剧上升。然而传输和存储的数据中重复数量占据了很大的比例,这不仅会增加使用数据的成本,也会影响处理数据的效率。域名是一种存储量大而且对处理速率有极高要求的数据,为了节约域名解析系统的存储成本,提高传输效率,本文在原有数据去重技术的基础上,引入了Simhash算法,结合域名数据的结构特征,改进数据分词和指纹值计算方式,提出了一种基于Simhash算法的重复域名数据去重方法。实验结果表明,相比于传统的数据去重技术,该方法对删除重复域名数据效率更高,具有较好的实际应用价值。 With the development of digital science and technology,the amount of data that needs to be transmitted and stored in various fields has risen sharply.However,the number of repetitions in these data occupies a large proportion.This not only increases the cost of using data,but also reduces the efficiency of data processing.Domain name is a kind of data with large storage capacity and extremely high requirements for processing speed.In order to save storage cost and improve transmission efficiency,this paper proposes a method for deleting duplicate domain name data based on Simhash algorithm.Compared with the traditional data deduplication technology,this method combines the structural characteristics of the domain name data,and introduces the Simhash algorithm to design a deduplication method for the domain name data.The experimental results show that compared with the traditional data deduplication technology,this method is more efficient in deleting duplicate domain name data and has better practical application value.

作者侯开茂韩庆敏吴云峰黄兵张久发柴处处 Hou Kaimao;Han Qingmin;Wu Yunfeng;Huang Bing;Zhang Jiufa;Chai Chuchu(The 6th Research Institute of China Electronics Corporation,Beijing 100083,China)

机构地区中国电子信息产业集团有限公司第六研究所

出处《信息技术与网络安全》 2022年第4期71-76,共6页 Information Technology and Network Security

关键词数据去重域名 Simhash 数据分块 data deduplication domain name Simhash data block

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
2彭双和,图尔贡.麦提萨比尔,周巧凤.基于Simhash的中文文本去重技术研究[J].计算机技术与发展,2017,27(11):137-140. 被引量：5
3陈春玲,陈琳,熊晶,余瀚.基于Simhash算法的重复数据删除技术的研究与改进[J].南京邮电大学学报（自然科学版）,2016,36(3):85-91. 被引量：15
4张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
5陈丹伟,唐平,周书桃.基于沙盒技术的恶意程序检测模型[J].计算机科学,2012,39(B06):12-14. 被引量：14

二级参考文献63

1王海峰,夏洪雷,孙冰.基于程序行为特征的病毒检测技术与应用[J].计算机系统应用,2006,15(5):29-31. 被引量：6
2Bhagwat D,Pollack K,Long DDE,Schwarz T,Miller EL,P-ris JF.Providing high reliability in a minimum redundancy archival storage system.In:Proc.of the 14th Int'l Symp.on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems (MASCOTS 2006).Washington:IEEE Computer Society Press,2006.413-421.
3Zhu B,Li K.Avoiding the disk bottleneck in the data domain deduplication file system.In:Proc.of the 6th Usenix Conf.on File and Storage Technologies (FAST 2008).Berkeley:USENIX Association,2008.269-282.
4Bhagwat D,Eshghi K,Mehra P.Content-Based document routing and index partitioning for scalable similarity-based searches in a large corpus.In:Berkhin P,Caruana R,Wu XD,Gaffney S,eds.Proc.of the 13th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining (KDD 2007).New York:ACM Press,2007.105-112.
5You LL,Pollack KT,Long DDE.Deep store:An archival storage system architecture.In:Proc.of the 21st Int'l Conf.on Data Engineering (ICDE 2005).Washington:IEEE Computer Society Press,2005.804-815.
6Quinlan S,Dorward S.Venti:A new approach to archival storage.In:Proc.of the 1st Usenix Conf.on File and Storage Technologies (FAST 2002).Berkeley:USENIX Association,2002.89-102.
7Sapuntzakis CP,Chandra R,Pfaff B,Chow J,Lam MS,Rosenblum M.Optimizing the migration of virtual computers.In:Proc.of the 5th Symp.on Operating Systems Design and Implementation (OSDI 2002).New York:ACM Press,2002.377-390.
8Rabin MO.Fingerprinting by random polynomials.Technical Report,CRCT TR-15-81,Harvard University,1981.
9Rivest R.The MD5 message-digest algorithm.1992.http://www.python.org/doc/current/lib/module-md5.html.
10U.S.National Institute of Standards and Technology (NIST).Federal Information Processing Standards (FIPS) Publication 180-1:Secure Hash Standard.1995.http://www.itl.nist.gov/fipspubs/fip180-1.htm.

共引文献157

1张砚波,刘正伟,文中领,王永海.一种高效存储解决方案的分析与研究[J].计算机研究与发展,2012,49(S1):180-184. 被引量：9
2马井玮,王克宾,赵彬,马良,王刚,刘晓光.基于重复数据删除的连续数据保护系统的快速回滚[J].计算机研究与发展,2012,49(S1):196-200.
3陆游游,敖莉,舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,49(S1):206-210. 被引量：5
4彭成,王树鹏,贾志凯.基于纠删码的数据消冗存储系统可靠性增强研究[J].计算机研究与发展,2011,48(S1):1-6. 被引量：3
5刘厚贵,邢晶,霍志刚,安学军.一种支持海量数据备份的可扩展分布式重复数据删除系统[J].计算机研究与发展,2013,50(S2):64-70. 被引量：5
6尹玉冰,孙竞,余宏亮.一种广域网环境下的分布式冗余删除存储系统[J].中兴通讯技术,2010,16(5):20-23. 被引量：1
7申彦舒.重复数据删除技术在数字图书馆中的应用[J].图书馆学刊,2011,33(7):123-125. 被引量：2
8邓亮,胡晓勤,梁刚.基于重复数据删除技术的SQL Server数据库备份系统[J].计算机安全,2011(7):9-12. 被引量：1
9张鑫,丁志刚,郑树泉.基于Cortex-M3的M2M监控终端[J].计算机应用,2011,31(11):3165-3168. 被引量：7
10马建庭,杨频.基于重复数据删除的多用户文件备份系统[J].计算机工程与设计,2011,32(11):3586-3589. 被引量：2

同被引文献33

1陈思佳,温蜜,陈珊.基于重复数据删除技术的雾存储数据去冗余方案[J].计算机应用与软件,2020,37(2):18-24. 被引量：4
2何柯文,张佳辰,刘晓光,王刚.新型存储设备上重复数据删除指纹查找优化[J].计算机研究与发展,2020,57(2):269-280. 被引量：8
3李玲,王法胜,李绍民.基于Simhash算法的作业查重系统设计[J].大连民族大学学报,2020,22(1):80-84. 被引量：2
4贺秦禄,边根庆,邵必林,张维琪.移动闪存的重复数据删除技术[J].西安电子科技大学学报,2020,47(1):128-134. 被引量：8
5范会丽,彭宁,任薇.基于Hadoop平台的数据清洗研究[J].电脑知识与技术,2020,16(5):27-28. 被引量：3
6唐鑫,周琳娜,单伟杰,刘丹.基于阈值重加密的抗边信道攻击云数据安全去重方法[J].通信学报,2020,41(6):98-111. 被引量：21
7张雷,崔荣一.基于编辑距离的词序敏感相似度度量方法[J].延边大学学报（自然科学版）,2020,46(2):140-144. 被引量：5
8李生虎,张浩.风电系统振荡模式对DFIG-PSS传递函数的灵敏度分析[J].电力系统保护与控制,2020,48(16):11-17. 被引量：9
9阮嘉琨,蔡延光,蔡颢,张丽.基于灰狼算法的Simhash冗余数据检测算法[J].东莞理工学院学报,2020,27(5):38-43. 被引量：4
10李碧秋,王佳斌.基于Mahout的相似重复数据清洗策略研究[J].科技与创新,2020(20):15-18. 被引量：2

引证文献4

1唐磊,陈璇,王庆宇.基于Hough变换的企业财务重复数据批量剔除方法[J].河北北方学院学报（自然科学版）,2023,39(3):22-26.
2王小红.细粒度云数据自适应去重方法研究[J].电脑与电信,2023(9):87-91.
3王艳艳,金义,钱诚,许晓艺.基于特征迭代的电力物资供应链数据去重研究[J].微型电脑应用,2024,40(4):144-148. 被引量：1
4熊良钰,邓伦丹.基于Simhash算法的题库查重系统的设计与实现[J].科学技术创新,2024(9):91-94.

二级引证文献1

1栾丽萍.供应链管理导向下电力企业物资供应问题的研究[J].电力系统装备,2024(6):157-159.

信息技术与网络安全

2022年第4期

浏览历史

内容加载中请稍等...

一种基于Simhash算法的重复域名数据去重方法被引量：4

参考文献5

二级参考文献63

共引文献157

同被引文献33

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于Simhash算法的重复域名数据去重方法 被引量：4

参考文献5

二级参考文献63

共引文献157

同被引文献33

引证文献4

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于Simhash算法的重复域名数据去重方法被引量：4