期刊文献+

网页近似重复检测算法研究

下载PDF
导出
摘要 搜索引擎的爬行程序在日益庞大的互联网中采集到的网页包含有大量的重复或近似重复网页,这不仅降低了检索效率,增加了存储空间,还降低了最终用户的体验。本文针对现有的网页近似重复检测技术进行了比较,并重点讨论了改进的模糊哈希算法对网页内容进行近似重复检测。
出处 《计算机光盘软件与应用》 2012年第8期135-136,共2页 Computer CD Software and Application
  • 相关文献

参考文献1

二级参考文献2

共引文献14

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部