基于Simhash的大规模文档去重改进算法研究被引量：8

Research on Improved Large-scale Documents Deduplication Algorithm Based on Simhash

下载PDF

导出

摘要针对大规模文档去重算法Simhash存在的缺点和不足,提出一种改进的Simhash算法。首先从多个维度综合计算文档的相似度,包括文档内容、文档关键字、文档的标签、文档的引用文献等方面,定义一个新的公式用于计算文档相似度。其次改进Simhash算法计算文档特征的方法,通过TF-IDF技术和单词的主题相关性综合计算单词的权重,TF-IDF技术用于计算一个关键词在一个文档集中的一篇文档的重要性,将专业术语词汇的长度统计函数作为判断单词主题相关性的依据。最后在检索步骤中采用哈希到桶的思想,此时出现分布不均匀的情况,为此设定一个阈值,当超过阈值时,对桶内的元素进行二次哈希,可以减少候选对的数量并且使分布更加均匀。实验结果表明,改进后的算法可以明显提高原Simhash算法的效率和准确率。 Aiming at the shortcomings and deficiencies of Simhash,we present an improved Simhash algorithm.Firstly,the similarity of documents from multiple dimensions is calculated,including document content,document keywords,document labels and references,and a new formula is defined to calculate document similarity.Secondly,the process of Simhash algorithm calculating document features is improved,and the weight of words is calculated synthetically by TF-IDF technique and the topic relevance of words.TF-IDF technology is used to calculate the importance of a document with a keyword in a document set.The term statistical function of term length is used as the basis for determining the relevance of a word subject.Finally,the idea of hashing to buckets is adopted in the retrieval.At this time,there is an uneven distribution,so a threshold is set.When the threshold is exceeded,the elements in the bucket are hashed twice,which can reduce the number of candidate pairs and make the distribution more evenly.Experiment shows that the improved algorithm can significantly improve the efficiency and accuracy of the traditional algorithm.

作者王诚王宇成 WANG Cheng;WANG Yu-cheng(School of Telecommunications&Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

机构地区南京邮电大学通信与信息工程学院

出处《计算机技术与发展》 2019年第2期115-119,共5页 Computer Technology and Development

基金江苏省自然科学青年基金(BK20150861)

关键词 Web大数据 Simhash 近似文本检测多维度二次哈希 Web big data Simhash approximate text detection multi-dimension secondary hash

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1孟小峰,李勇,祝建华.社会计算：大数据时代的机遇与挑战[J].计算机研究与发展,2013,50(12):2483-2491. 被引量：148
2敖莉,舒继武,李明强.重复数据删除技术[J].软件学报,2010,21(5):916-929. 被引量：119
3张祖平,徐昕,龙军,袁鑫攀.文本相似性度量中参数相关性与优化配置研究[J].小型微型计算机系统,2011,32(5):983-988. 被引量：11
4余意,张玉柱,胡自健.基于Simhash算法的大规模文档去重技术研究[J].信息通信,2015,28(2):28-29. 被引量：12
5李恒新,韩坚华.关系型数据库数据的高效判重[J].华南师范大学学报（自然科学版）,2015,47(1):121-126. 被引量：2
6马成前,毛许光.网页查重算法Shingling和Simhash研究[J].计算机与数字工程,2009,37(1):15-17. 被引量：17
7李彬.基于Hadoop框架的TF-IDF算法改进[J].微型机与应用,2012,31(7):14-16. 被引量：12

二级参考文献57

1中国互联网络信息中心.第十六次中国互联网络发展状况统计报告[EB/OL].http://www.cnnic.net.cn/in-dex/OE/00/11/index.htm,2005,07-01
2Andrei Z. Broder, Steven C. Glassman. Syntactic Clustering of the Web [DB/OL]. http://gatekeeper. research.compaq.com/pub/DEC/SRC/technical--notes/SRC--1997--015 html
3吴军,数学之美系列十三信息指纹及其应用[DB/OL].http://www.googlechinablog.com/2006/08/blog-post.html
4Gurmeet Singh Manku, Arvind Jain, Anish Das Sarma. Detecting Near--Duplicates for Web Crawlng[C]. In ternational World Wide Web Conference, Banff, Alberta, Canada, New York, USA: ACM, 2007: 141-- 150
5Moses S. Charikar, Similarity Estimation Tech niques from Rounding Algorithms[C]. Annual ACM Sym posium on Theory of Computing, Montreal, Quebec, Cana da, New York, USA:ACM, 2002 : 380-388
6Bhagwat D,Pollack K,Long DDE,Schwarz T,Miller EL,P-ris JF.Providing high reliability in a minimum redundancy archival storage system.In:Proc.of the 14th Int'l Symp.on Modeling,Analysis,and Simulation of Computer and Telecommunication Systems (MASCOTS 2006).Washington:IEEE Computer Society Press,2006.413-421.
7Zhu B,Li K.Avoiding the disk bottleneck in the data domain deduplication file system.In:Proc.of the 6th Usenix Conf.on File and Storage Technologies (FAST 2008).Berkeley:USENIX Association,2008.269-282.
8Bhagwat D,Eshghi K,Mehra P.Content-Based document routing and index partitioning for scalable similarity-based searches in a large corpus.In:Berkhin P,Caruana R,Wu XD,Gaffney S,eds.Proc.of the 13th ACM SIGKDD Int'l Conf.on Knowledge Discovery and Data Mining (KDD 2007).New York:ACM Press,2007.105-112.
9You LL,Pollack KT,Long DDE.Deep store:An archival storage system architecture.In:Proc.of the 21st Int'l Conf.on Data Engineering (ICDE 2005).Washington:IEEE Computer Society Press,2005.804-815.
10Quinlan S,Dorward S.Venti:A new approach to archival storage.In:Proc.of the 1st Usenix Conf.on File and Storage Technologies (FAST 2002).Berkeley:USENIX Association,2002.89-102.

共引文献303

1黄雅兰.数字新闻学的方法论探索:新闻生产网络分析[J].中国网络传播研究,2021(3):73-93. 被引量：2
2闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：6
3苟泽鹏,董悦,闫一帆,王成军.数据科学的浪潮:计算社会科学研究综述[J].科学．经济．社会,2021,39(2):16-31. 被引量：5
4曾润喜,潘颖.媒体融合时代的计算新闻成熟度评价研究[J].福建师范大学学报（哲学社会科学版）,2021(4):123-134. 被引量：8
5苏毓淞,刘江锐.计算社会科学与研究范式之争:理论的终结?[J].复旦学报（社会科学版）,2021(2):189-196. 被引量：18
6祝大鹏,漆昌柱.大数据视角下的运动员心理健康教育服务模式构建与定位[J].北京体育大学学报,2023,46(6):113-122. 被引量：2
7张砚波,刘正伟,文中领,王永海.一种高效存储解决方案的分析与研究[J].计算机研究与发展,2012,49(S1):180-184. 被引量：9
8马井玮,王克宾,赵彬,马良,王刚,刘晓光.基于重复数据删除的连续数据保护系统的快速回滚[J].计算机研究与发展,2012,49(S1):196-200.
9陆游游,敖莉,舒继武.一种基于重复数据删除的备份系统[J].计算机研究与发展,2012,49(S1):206-210. 被引量：5
10彭成,王树鹏,贾志凯.基于纠删码的数据消冗存储系统可靠性增强研究[J].计算机研究与发展,2011,48(S1):1-6. 被引量：3

同被引文献56

1刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
2黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221
3董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
4赵凤飞,覃征.支持科技项目评审的信息处理技术[J].清华大学学报（自然科学版）,2011,51(11):1696-1700. 被引量：2
5马彬,洪宇,杨雪蓉,姚建民,朱巧明.基于语义依存线索的事件关系识别方法研究[J].北京大学学报（自然科学版）,2013,49(1):109-116. 被引量：15
6徐志明,李栋,刘挺,李生,王刚,袁树仑.微博用户的相似性度量及其应用[J].计算机学报,2014,37(1):207-218. 被引量：79
7周丽杰,于伟海,郭成.基于改进的TF-IDF方法的文本相似度算法研究[J].泰山学院学报,2015,37(3):18-22. 被引量：10
8周龙泉,卫文学.基于主成分分析与Simhash的入侵检测方法[J].计算机与数字工程,2015,43(7):1291-1294. 被引量：3
9朱泽德,李淼,张健,曾伟辉,曾新华.一种基于LDA模型的关键词抽取方法[J].中南大学学报（自然科学版）,2015,46(6):2142-2148. 被引量：15
10杨竣辉,刘宗田,刘炜,苏小英.基于语义事件因果关系识别[J].小型微型计算机系统,2016,37(3):433-437. 被引量：10

引证文献8

1王添男,冯锋.基于SimHash的文本相似检测算法研究[J].电子测试,2019,0(15):87-89. 被引量：1
2唐新宇.基于贝叶斯模型的时序大数据并行去重方法研究[J].自动化与仪器仪表,2021(7):34-37.
3李鲲程,刘秋月,范春梅.数据清洗中文本相似度算法的比较与优化[J].通信管理与技术,2021(5):16-18. 被引量：6
4张亚男,陈卫卫,付印金,徐堃.基于Simhash改进的文本去重算法[J].计算机技术与发展,2022,32(8):26-32. 被引量：2
5艾玮,许佳,谢灿豪,孟涛.基于事件异构图表示的文本去重算法[J].湖南大学学报（自然科学版）,2023,50(2):74-85. 被引量：2
6孙北宁,吕维新,曾俊,肖衡.一种结合TF-IDF和Simhash的科技项目文本相似性度量方法[J].电子技术应用,2023,49(6):89-93. 被引量：5
7汪锦云,向阳.基于关键词图表示的文本语义去重算法[J].计算机应用,2023,43(10):3070-3076.
8李莉,杨春艳,朱江文,胡荣磊.区块链下社交网络用户抄袭识别方案[J].计算机应用,2024,44(1):242-251.

二级引证文献14

1徐小桐,王法胜.文档查重系统研究与实现[J].电脑知识与技术,2021,17(11):74-76. 被引量：3
2李程程.基于天地图·北京的“红色地图”专题栏目建设[J].北京测绘,2022,36(5):650-654.
3沈沛,毛海涛,胡文林,芮波.面向时序的相似重复数据清洗算法优化[J].计算机时代,2022(9):68-72. 被引量：2
4李彤,崔琪伟,李夏.基于词频加权和余弦相似度的模糊匹配算法[J].企业科技与发展,2022(11):49-51. 被引量：2
5孙德刚.基于语义融合的文本相似度算法研究[J].信息技术与信息化,2023(3):109-112.
6汪锦云,向阳.基于关键词图表示的文本语义去重算法[J].计算机应用,2023,43(10):3070-3076.
7张向聪,张潺,杨莹,王冰洁,王磊,陆思羽.智能信息系统业务事件驱动机理分析与运维模型优化研究[J].粘接,2023,50(10):181-184.
8王小红.细粒度云数据自适应去重方法研究[J].电脑与电信,2023(9):87-91.
9熊良钰,邓伦丹.基于Simhash算法的题库查重系统的设计与实现[J].科学技术创新,2024(9):91-94.
10严劲,刘珮.面向下一代互联网的云网运维智能化转型研究[J].邮电设计技术,2024(4):26-31.

1曾雪.人力资源管理词汇的特征及其翻译[J].汉字文化,2018(13):10-11.
2朱刘影,杨思春.基于SVM的地理试题自动分类[J].计算机应用研究,2018,35(9):2707-2710. 被引量：6
3翟社平,杨媛媛,张海燕,赵江明.区块链中的隐私保护技术[J].西安邮电大学学报,2018,23(5):93-100. 被引量：6
4胡欣.从发明构思角度探究一般检索步骤[J].中国发明与专利,2018,15(A01):72-75. 被引量：2
5孙龙,李彦.基于MapReduce并行计算提取文档特征Textrank算法研究[J].现代信息科技,2018,2(10):80-83.
6张诗童,秦波,郑海彬.基于哈希锁定的多方跨链协议研究[J].网络空间安全,2018,9(11):57-62. 被引量：20
7杨凌云.主题网络爬虫关键技术的应用探讨[J].电脑编程技巧与维护,2018(11):33-35. 被引量：4
8谢兵兵,王勇,叶苗,俸皓.云存储中基于二维数组的对象分布策略[J].计算机工程与设计,2019,40(1):131-135. 被引量：4
9冉崇善,邵春霞.Simhash算法在试题查重中的应用[J].软件导刊,2018,17(2):151-153. 被引量：1
10孙本旺,田芳.藏文情感词典的构建及微博情感计算研究[J].计算机技术与发展,2018,28(11):212-216. 被引量：6

计算机技术与发展

2019年第2期

浏览历史

内容加载中请稍等...

基于Simhash的大规模文档去重改进算法研究被引量：8

参考文献7

二级参考文献57

共引文献303

同被引文献56

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Simhash的大规模文档去重改进算法研究 被引量：8

参考文献7

二级参考文献57

共引文献303

同被引文献56

引证文献8

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于Simhash的大规模文档去重改进算法研究被引量：8