-
题名基于Simhash的海量相似文档快速搜索优化方法
被引量:7
- 1
-
-
作者
张广庆
葛唯益
贺成龙
-
机构
信息系统工程重点实验室
-
出处
《指挥信息系统与技术》
2015年第2期61-65,共5页
-
基金
软件新技术与产业化协同创新中心部分资助项目
-
文摘
相似文档搜索指检索与给定查询文档相似的文档,在大数据处理中具有广泛的应用,如近似网页检测、新闻报道聚合以及抄袭检测等。为实现海量相似文档的快速搜索,可采用Simhash指纹方法将文档映射成二进制指纹,以海明距离表达文档相似度,并通过指纹分段建立索引提高计算效率。针对传统方法在指纹分段过程中大量冗余计算影响到计算效率的问题,提出了基于顺序匹配的候选集筛选方法,以减少指纹相似性计算量和网络带宽消耗,实现快速搜索。试验表明,该方法具有较好的性能和可扩展性。
-
关键词
simhash方法
相似文档搜索
顺序匹配
-
Keywords
simhash method
similar document search
sequence match
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Nutch的增量网页信息采集系统的设计与实现
被引量:3
- 2
-
-
作者
代鹏
-
机构
华北计算技术研究所
-
出处
《软件》
2015年第11期100-104,共5页
-
文摘
本文介绍了Nutch网络爬虫的系统架构和抓取网页信息流程,针对Nutch网页信息数据采集冗余的问题,引入了增量更新方法和适应性采集周期计算方法,首先使用Simhash算法和汉明距离计算出网页相似度,根据网页相似度计算出网页采集周期,然后根据此周期进行网页信息采集,在采集前根据网页元信息中的网页内容长度与网页最后更新时间的变化与否判断是否进行采集。实验结果表明,随着采集次数的增多,网页采集周期会在真实网络变化周期上下浮动,使得网页采集周期与真实网页变化周期之间较为接近,最终有效的减少了冗余的网页信息采集数据量,减轻了对网络环境的压力,实现了适应性的增量的网页信息采集过程。
-
关键词
计算机软件与理论
NUTCH
simhash
汉明距离
增量采集方法
-
Keywords
Computer software and theory
Nutch
simhash
Hamming distance
Incremental acquisition method
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-