基于Simhash的海量相似文档快速搜索优化方法被引量：7

Simhash-Based Optimization Method for Fast Massive Similar Document Search

下载PDF

导出

摘要相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并通过指纹分段建立索引提高计算效率。针对传统方法在指纹分段过程中大量冗余计算影响到计算效率的问题,提出了基于顺序匹配的候选集筛选方法,以减少指纹相似性计算量和网络带宽消耗,实现快速搜索。试验表明,该方法具有较好的性能和可扩展性。 A similar document search is to find similar documents for a query document. It is widely used in the big data processing, such as near-duplicate webpage detection, related news aggregation and plagiarism detection. To search massive similar document efficiently, the Sire- hash fingerprint method is applied for projecting the document to the compact binary code. The Hamming distance represents the document similarity. The fingerprint is partitioned into sub- codes as an index to accelerate computing performance. The candidate set filtering method based on the sequence matching is used to reduce the capacity of fingerprint similarity computation and the network bandwidth usage for fast search. Experimental results show that the method achieves high performance and good flexibility.

作者张广庆葛唯益贺成龙

机构地区信息系统工程重点实验室

出处《指挥信息系统与技术》 2015年第2期61-65,共5页 Command Information System and Technology

基金软件新技术与产业化协同创新中心部分资助项目

关键词 Simhash方法相似文档搜索顺序匹配 Simhash method similar document search sequence match

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献11

1Govindaraju V, Ramanathan K. Similar document search and recommendation[J]. Journal of Emerging Technologies in Web Intelligence, 2012,4 ( 1 ) : 84-93.
2Dasdan A,D'Alberto P, Kolay S, et al. Automatic re- trieval of similar content using search engine query in- terfaee[C]//Proeeedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong : ACM, 2009 : 701-710.
3Pereira A, Ziviani N. Retrieving similar documents from the Web[J]. Journal of Web Engineering,2004,2 (4) :247-261.
4Charikar M. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the 34th An- nual ACM Symposium on Theory of Computing.Montreal : ACM, 2002 : 380-388.
5Manku G,Jain A, Sarma A D. Detecting near-dupli- cates for Web crawling[C]//Proceedings of the 16th International Conference on World Wide Web. Banff: ACM, 2007: 141-149.
6Papadimitriou P, Garcia-Molina H, Dasdan A. Web graph similarity for anomaly detection[J]. Journal of Internet Services and Applications, 2010,1 (1) : 19-30.
7徐济惠.基于Simhash算法的海量文档反作弊技术研究[J].计算机技术与发展,2014,24(9):103-107. 被引量：7
8Uddin M S,Roy C K,Schneider K A,et al. On the ef- fectiveness of simhash for detecting near-miss clones in larger scale software systems[C]//Proceedings of the 18th Working Conference on Reverse Engineering (WCRE). Lero : IEEE, 2011 : 13-22.
9Williams K,Wu J, Giles C L. SimSeerX: a similar document search engine[C]//Proceedings of the 2014 ACM Symposium on Document Engineering. Fort Collins : ACM, 2014 : 143-146.
10宋金玉,陈爽,郭大鹏,王内蒙.数据质量及数据清洗方法[J].指挥信息系统与技术,2013,4(5):63-70. 被引量：31

二级参考文献50

1陈伟,陈耿,朱文明,王昊.基于业务规则的错误数据清理方法[J].计算机工程与应用,2005,41(14):172-174. 被引量：10
2高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
3郭双宙,梁金兰.构件库用户反馈子系统的客观反馈的设计[J].计算机技术与发展,2007,17(5):129-132. 被引量：2
4Andrei Z Broder, Steven C Glassman, Mark S Manass~, et al. Syntactic clustering of the Web[ J]. Computer Networks and ISDN Systems, 1997, 29(8-13) :1157-1166.
5Huang Lian-en, Wang Lei, Li Xiao-ming. Achieving both high precision and high recall in near-duplicate detection[A]. In: Pro- ceeding of the 17th ACM Conference on Information and Knowl- edge Management~ C], ACM, 2008: 63-72.
6Moses S Chafikar. Similarity estimation techniques from rounding algorithms[ A] . In: Proceedings of 34th Annual ACM Symposium on Theory of Computing[ C ], ACM, 2002: 380-388.
7Alcksandcr Kolcz, Abdur Chowdhury, Joshua Alspcctor. Improvedrobustness of signature-based near-replica detection via lexicon ran- domization[A]. In: Proceedings of the 10th ACM SIGKDD Inl~r- national Conference on Knowledge Discovery and Data Mining [C], ACM, 2004: 605-610.
8Gurmeet Singh Manku, Arvind Jain, Anish Das Sanna. Detecting near-duplicates for Web crawling[ A]. In: Proceedings of the 16th International Conference on World Wide Web[ C], ACM, 2007: 141-149.
9liang Qi-xia, Sun Mao-song. Semi-supervised SimHash for effi- cient document similarity search[C]. In: Proceedings of the 49th Annual Meeting of the Association for Computa~onal Linguistics, 2011 : 93-101.
10Panagiotis Papadimitriou, Ali Dasdan, Hector Garcia-Molina. Web graph similarity for anomaly detection[ J]. Journal of Internet Serv- ices and Applications,2010, 1 ( 1 ) : 19-30.

共引文献54

1赵瑞峰,孟莉,李军,郭亚利.基于规则定制的数据质量检查系统设计与实现[J].网络安全与数据治理,2023,42(S02):167-173.
2白如江,王晓笛,王效岳.基于数字指纹的文献相似度检测研究[J].图书情报工作,2013,57(15):88-95. 被引量：7
3俞枫,王引娜.基于DRPKP算法的文本去重研究与应用[J].微型电脑应用,2014(1):58-60. 被引量：3
4徐济惠.基于Simhash算法的海量文档反作弊技术研究[J].计算机技术与发展,2014,24(9):103-107. 被引量：7
5王子,周侗,汪扬,郝胜轩,李冬,张顺龙.基于GPS数据可视化的智能拼车软件设计与实现[J].计算机工程与设计,2015,36(2):529-533. 被引量：4
6张文兴,闫海鹏,王建国.基于改进脉冲耦合神经网络的数据降噪方法研究[J].机械设计与制造,2015(2):25-28. 被引量：1
7周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
8曹海,孙婧,史喜斌.基于特征迭代的短文本去重算法[J].计算机工程,2015,41(12):54-57. 被引量：4
9王建国,闫海鹏,张文兴,张鑫礼.基于改进PCNN的数据降噪方法[J].中国测试,2016,42(1):92-95. 被引量：1
10叶施仁,孙宁.基于SVM的新浪微博营销类水帖识别研究[J].湘潭大学自然科学学报,2015,37(4):70-74. 被引量：5

同被引文献37

1顾炳中.国土资源部机关办公自动化系统建设要点[J].国土资源信息化,2012(3):3-6. 被引量：4
2陈秀真,郑庆华,管晓宏,林晨光.层次化网络安全威胁态势量化评估方法[J].软件学报,2006,17(4):885-897. 被引量：341
3毕红军,裘正定,杜锡钰.等汉明距离编码的研究[J].北方交通大学学报,1997,21(5):510-512. 被引量：7
4韦勇,连一峰,冯登国.基于信息融合的网络安全态势评估模型[J].计算机研究与发展,2009,46(3):353-362. 被引量：165
5刘克强.2009共享版ICTCLAS的分析与使用[J].科教文汇,2009(22):271-271. 被引量：17
6蔡衡,李舟军,孙健,李洋.基于LSH的中文文本快速检索[J].计算机科学,2009,36(8):201-204. 被引量：13
7郑榕增,林世平.基于Lucene的中文倒排索引技术的研究[J].计算机技术与发展,2010,20(3):80-83. 被引量：50
8丁智斌,霍豫宗,杜念.文本相似性在抄袭问题中的应用研究[J].华北科技学院学报,2013,10(1):91-95. 被引量：2
9董岳珂.发现系统引发的关于信息素养教育的思考[J].图书馆论坛,2014,34(4):58-63. 被引量：8
10罗芳,李春花,周可,黄永峰,廖正霜.基于多属性的海量Web数据关联存储及检索系统[J].计算机工程与科学,2014,36(3):404-410. 被引量：8

引证文献7

1任民山,蔡红霞.基于Simhash算法的海量文本相似性检测方法研究[J].计量与测试技术,2018,45(4):78-80. 被引量：3
2高玉平.海量图书检索信息的快速查询系统优化设计研究[J].现代电子技术,2017,40(6):5-9. 被引量：9
3晋晓琳,张树武,刘杰.基于分布式架构的海量文本快速相似度检测研究[J].中国传媒大学学报（自然科学版）,2019,26(1):39-44.
4李正,咸容禹,余前佳,陈卉,吴玉龙.基于版式电子文档的全文检索技术在自然资源部机关政务办公系统中的应用初探[J].国土资源信息化,2019(2):22-26. 被引量：1
5顾志祥,谢龙恩,杜雨.文本相似度计算的Simhash算法的实现与改进[J].信息通信,2020,0(1):27-29. 被引量：5
6刘兵.Linux架构下本地文件快速搜索工具设计与实现[J].科学技术创新,2020(33):114-115.
7童伟传.基于SimHash算法的大数据网络安全态势的评估[J].机械设计与制造工程,2022,51(5):125-129. 被引量：3

二级引证文献21

1赵振营.图书馆图书信息用户快速自动查阅仿真研究[J].计算机仿真,2017,34(9):432-434. 被引量：5
2杨秀荣.并行数据库查询优化技术研究[J].信息通信,2018,31(10):156-158. 被引量：2
3金秀凤.大数据时代档案信息资源共享平台数据处理的优化[J].档案管理,2018(6):29-32. 被引量：15
4杨敏.基于文本识别的图书智能管理[J].自动化技术与应用,2018,37(12):145-150. 被引量：1
5蔡志强.基于云计算的电子档案辅助信息查询系统设计[J].现代电子技术,2019,42(11):108-112. 被引量：7
6Qiuyan Wang,Haibing Dong.Book Retrieval Method Based on QR Code and CBIR Technology[J].Journal on Artificial Intelligence,2019,1(2):101-110.
7周小燕.基于二维码的智能图书信息快速查询系统设计[J].现代电子技术,2020,43(5):141-145. 被引量：6
8葛春丽.档案信息资源平台数据的改进措施和效果分析[J].兰台世界,2020,0(4):59-62.
9张小娟,张永恒,杨斐.基于Hadoop技术的高校数字图书馆文献检索方法研究与设计[J].微型电脑应用,2020,36(7):11-13. 被引量：4
10陈汝龙.基于SimHash的文本相似检测算法研究[J].信息记录材料,2020,21(7):86-87. 被引量：3

1梁京章,赵启斌,陈学广.基于规则的防火墙匹配算法研究[J].计算机工程与应用,2005,41(20):166-168. 被引量：8
2纪福全,朱战立.一种可做特殊用途的字符串匹配算法[J].计算机与信息技术,2006(8):81-82. 被引量：2
3董锐.分部HASH方法在DBASE—Ⅲ中的应用[J].云南软件产业,1990(1):40-45.
4池水明,阚歆炜,张旻.基于Simhash的SQL注入漏洞检测技术研究[J].计算机时代,2014(3):3-5. 被引量：3
5蒋宁,廉东本.包过滤防火墙相关规则的排序及向无关规则的转化[J].小型微型计算机系统,2004,25(8):1550-1553. 被引量：6
6栗迎结,任洪敏.基于Selenium的SQL注入漏洞检测系统的研究[J].现代计算机,2016,22(14):20-24. 被引量：2
7张清华,幸禹可.一种基于Hash的快速值约简方法[J].广西师范大学学报（自然科学版）,2011,29(4):39-44. 被引量：2
8周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
9王宏旭,董广民.基于云计算与多扫描引擎技术构建DNS网页挂马过滤系统分析与设计[J].信息通信,2011(5):85-86.
10徐勇,成良玉,李猛.基于XML数据的关联规则挖掘研究[J].计算机工程与设计,2006,27(24):4704-4706. 被引量：3

指挥信息系统与技术

2015年第2期

浏览历史

内容加载中请稍等...

基于Simhash的海量相似文档快速搜索优化方法被引量：7

参考文献11

二级参考文献50

共引文献54

同被引文献37

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Simhash的海量相似文档快速搜索优化方法 被引量：7

参考文献11

二级参考文献50

共引文献54

同被引文献37

引证文献7

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于Simhash的海量相似文档快速搜索优化方法被引量：7