基于Simhash算法的重复数据删除技术的研究与改进被引量：15

Research and improvement of data de-duplication based on simhash algorithm

下载PDF

导出

摘要为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。 To improve the detecting accuracy of approximately duplicated records in extensive data de-du- plication, an extensive data de-duplication technology based on Simhash algorithm is studied. Based on the existing algorithms, Simhash algorithm has made an improvement in calculation process to introduce ICTCLAS word segmentation technology and gain weight value, it sets the TF-IDF technology as the main method for calculating weight value. Furthermore, the part-of-speech and the word length are introduced as a considered weighting factor, then comparing the hamming distances between signatures are compared to accurately identify whether they are alike. The simulation results show that the modified algorithm has high accuracy .and recall rate, and the detection performance of is superior to the Shingle algorithm and the prime algorithm. By improving the accuracy of the signature value, it can realize the accurate detec- tion of extensive data de-duplication, thus achieving the perfect results.

作者陈春玲陈琳熊晶余瀚

机构地区南京邮电大学计算机学院

出处《南京邮电大学学报（自然科学版）》北大核心 2016年第3期85-91,共7页 Journal of Nanjing University of Posts and Telecommunications：Natural Science Edition

基金国家自然科学基金(11501302)资助项目

关键词相似检测 Simhash算法 TF-IDF技术指纹计算汉明距离 similarity detection Simhash algorithm TF-IDF technology fingerprint calculation ham-ming distance

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1余意,张玉柱,胡自健.基于Simhash算法的大规模文档去重技术研究[J].信息通信,2015,28(2):28-29. 被引量：12
2付印金,肖侬,刘芳.重复数据删除关键技术研究进展[J].计算机研究与发展,2012,49(1):12-20. 被引量：64
3张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
4马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
5李彬.基于Hadoop框架的TF-IDF算法改进[J].微型机与应用,2012,31(7):14-16. 被引量：12

二级参考文献55

1中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/in-dex/OE/00/11/index.htm,2005,07-01
2Andrei Z. Broder, Steven C. Glassman. Syntactic Clustering of the Web [DB/OL]. http://gatekeeper. research.compaq.com/pub/DEC/SRC/technical--notes/SRC--1997--015 html
3吴军,数学之美系列十三信息指纹及其应用[DB/OL].http://www.googlechinablog.com/2006/08/blog-post.html
4Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near--Duplicates for Web Crawlng[C]. In ternational World Wide Web Conference, Banff, Alberta, Canada, New York, USA: ACM, 2007: 141-- 150
5Moses S. Charikar, Similarity Estimation Tech niques from Rounding Algorithms[C]. Annual ACM Sym posium on Theory of Computing, Montreal, Quebec, Cana da, New York, USA:ACM, 2002 : 380-388
6Gantz J, Chute C, Manfrediz A, et al. The diverse and exploding digital universe: An updated forecast of worldwide information growth through 2011 [EB/OL]. [2008 03 05]. http://www, ifap. ru/library/book268, pdf.
7McKnight J, Asaro T, Babineau B. Digital archiving: end user survey and market forecast 2006-2010 [EB/OL]. [2006-03-18]. httpz//WWW, enterprisestrategygroup, com/ESGPublications/ ReportDetail. asp?ReportID= 591.
8Clements A, Ahmad I, Vilayannur M, et al. Decentralized deduplication in SAN cluster file systems [C] //Proc of the USENIX ATC'09. Berkeley, CA: USENIX, 2009:101-114.
9Zhu B, Li Kai, Patterson H. Avoiding the disk bottleneck in the Data Domain deduplieation file system [C] //Proc of the USENIX FAST'08. Berkeley, CA: USENIX, 2008: 269- 282.
10Yang Tianming, Jiang Hong, Feng Dan, et al. DEBAR: A scalable high-performance de-duplication storage system for backup and arehiving [C] //Proc of the IEEE IPDPS'10. Piscataway, NJ: IEEE, 2010:1-12.

共引文献102

1张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
2王希杰.一种基于网页指纹的网页查重技术研究[J].计算机仿真,2011,28(9):154-157. 被引量：2
3叶庆卫,武冬星,周宇,王晓东.基于粒子群优化的文档子内容查重算法[J].计算机工程,2011,37(20):203-205.
4董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
5杨晓娟,廖晨辉.一种两阶段的多媒体教育资源网页消重方法[J].现代教育技术,2012,22(9):93-96.
6李超,王树鹏,云晓春,周晓阳,陈明.一种基于流水线的重复数据删除系统读性能优化方法[J].计算机研究与发展,2013,50(1):90-100. 被引量：2
7赵伟燕,王静宇.基于MapReduce编程模型的TFIDF算法研究[J].微型机与应用,2013,32(4):71-73.
8孙虎威,靳嘉伟,张晶,龚鸣.重复数据删除算法在VTL系统中的应用研究[J].微型机与应用,2013,32(6):82-85. 被引量：1
9黄颖,何克清,冯在文,黄贻望.一种流程特征结构树的流程合并方法[J].小型微型计算机系统,2014,35(1):6-11. 被引量：2
10谢平.存储系统重复数据删除技术研究综述[J].计算机科学,2014,41(1):22-30. 被引量：25

同被引文献123

1王方伟,杨少杰,赵冬梅,王长广.基于改进TF-IDF的多态蠕虫特征自动提取算法[J].华中科技大学学报（自然科学版）,2020,48(2):79-84. 被引量：3
2陈秀真,郑庆华,管晓宏,林晨光.层次化网络安全威胁态势量化评估方法[J].软件学报,2006,17(4):885-897. 被引量：342
3刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
4韦勇,连一峰,冯登国.基于信息融合的网络安全态势评估模型[J].计算机研究与发展,2009,46(3):353-362. 被引量：165
5刘克强.2009共享版ICTCLAS的分析与使用[J].科教文汇,2009(22):271-271. 被引量：17
6刘石,李合,王啸吟,张路,谢冰.基于语法与语义分析的代码搜索结果优化[J].计算机科学,2009,36(8):165-168. 被引量：6
7蔡衡,李舟军,孙健,李洋.基于LSH的中文文本快速检索[J].计算机科学,2009,36(8):201-204. 被引量：13
8敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
9张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
10李文武,游文霞,王先培.电力系统信息安全研究综述[J].电力系统保护与控制,2011,39(10):140-147. 被引量：121

引证文献15

1石红姣.基于改进随机决策树算法的分布式数据挖掘[J].计算机与数字工程,2017,45(9):1802-1808. 被引量：5
2李阵,钮俊,王奎,辛园园.基于多特征权重分配的源代码搜索优化[J].计算机应用,2018,38(3):812-817. 被引量：6
3任民山,蔡红霞.基于Simhash算法的海量文本相似性检测方法研究[J].计量与测试技术,2018,45(4):78-80. 被引量：3
4晋晓琳,张树武,刘杰.基于分布式架构的海量文本快速相似度检测研究[J].中国传媒大学学报（自然科学版）,2019,26(1):39-44.
5曹铁男,王英洁.推荐算法在电力设备缺陷修复场景中的应用[J].电力大数据,2019,22(9):8-13. 被引量：2
6庞宇,张倩,韩凯,肖彬.改进的Simhash算法在文本查重中的研究及应用[J].数字通信世界,2020,0(1):203-204. 被引量：2
7王杨丽.大数据集合冗余特征排除算法仿真[J].计算机仿真,2020,37(9):295-298.
8侯开茂,韩庆敏,吴云峰,黄兵,张久发,柴处处.一种基于Simhash算法的重复域名数据去重方法[J].信息技术与网络安全,2022,41(4):71-76. 被引量：4
9童伟传.基于SimHash算法的大数据网络安全态势的评估[J].机械设计与制造工程,2022,51(5):125-129. 被引量：3
10宋桂平.重复数据删除技术在云存储中的应用[J].科技创新与应用,2022,12(19):158-161. 被引量：2

二级引证文献35

1凌春阳,邹艳珍,林泽琦,谢冰,赵俊峰.基于图嵌入的软件项目源代码检索方法[J].软件学报,2019,30(5):1481-1497. 被引量：9
2范英铭.基于数据挖掘的机电故障数据集离群点检测算法[J].新一代信息技术,2019,2(22):53-59.
3刘帝勇,杨强,岳振兴.基于规则和机器学习的核电文件分发系统研究[J].电力大数据,2020,23(4):39-46. 被引量：1
4叶枝平,苏立伟,杨秋勇,胡如乐.基于电网信息化的同步并行数据迁移技术研究[J].电子设计工程,2020,28(15):129-132. 被引量：1
5陈汝龙.基于SimHash的文本相似检测算法研究[J].信息记录材料,2020,21(7):86-87. 被引量：3
6白玲玲.基于尺度划分的多尺度数据挖掘算法设计[J].宁夏师范学院学报,2020,41(7):65-72. 被引量：1
7岳根霞,刘金花,刘峰.基于决策树算法的医疗大数据填补及分类仿真[J].计算机仿真,2021,38(1):451-454. 被引量：17
8赵乐乐,张丽萍.代码注释自动生成研究进展[J].计算机应用研究,2021,38(4):982-989. 被引量：2
9徐小桐,王法胜.文档查重系统研究与实现[J].电脑知识与技术,2021,17(11):74-76. 被引量：3
10秦秋莉,郭煜,赵爽,姜勇.基于命名实体识别和图嵌入技术的脑血管疾病相似病历研究[J].信息系统学报,2021,15(2):77-93.

1林滨.K-Means聚类的多种距离计算方法的文本实验比较[J].福建工程学院学报,2016,14(1):80-85. 被引量：6
2康建.高程图数据相似检测及其并行算法[J].电脑编程技巧与维护,2016(20):68-70.
3黄为.基于数字签名技术的Intranet信息安全[J].电脑知识与技术,2009,5(9):7096-7097. 被引量：14
4余意,张玉柱,胡自健.基于Simhash算法的大规模文档去重技术研究[J].信息通信,2015,28(2):28-29. 被引量：12
5刘淑鑫,乐嘉锦.基于局部敏感哈希的近邻传播聚类[J].计算机光盘软件与应用,2014,17(6):142-143.
6胡德敏,龚燕.基于谱聚类和扩展朴素贝叶斯的混合推荐算法[J].计算机应用研究,2016,33(12):3709-3712. 被引量：3
7邵雄凯,肖宏年,王蔚,李晶.用PowerBuilder开发生产管理系统中的几项技术[J].微机发展,2001,11(5):9-11.
8韩敏,唐常杰,段磊,李川,巩杰.基于TF-IDF相似度的标签聚类方法[J].计算机科学与探索,2010,4(3):240-246. 被引量：22
9张文丽,赵峰.Hash签名在电子商务中的应用[J].计算机与数字工程,2014,42(3):531-534. 被引量：3
10庾慧碧.浅谈数字签名技术在Intranet信息安全中的应用[J].信息与电脑（理论版）,2011(12):83-84. 被引量：1

南京邮电大学学报（自然科学版）

2016年第3期

浏览历史

内容加载中请稍等...

基于Simhash算法的重复数据删除技术的研究与改进被引量：15

参考文献5

二级参考文献55

共引文献102

同被引文献123

引证文献15

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于Simhash算法的重复数据删除技术的研究与改进 被引量：15

参考文献5

二级参考文献55

共引文献102

同被引文献123

引证文献15

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于Simhash算法的重复数据删除技术的研究与改进被引量：15