期刊文献+

Deep Web爬虫的一种增量式更新策略 被引量:1

An Incremental Update Strategy of Deep Web Crawler
下载PDF
导出
摘要 为了在网络及计算机硬件等资源有限的前提下,最大限度地保证本地副本的"新鲜"程度,往往需要为Deep Web爬虫定制一个重爬机制。为了满足这种需求,提出了一种基于采样的增量式Deep Web更新方法,使用贪心策略分配爬虫资源,以最大限地的提高资源利用率。经实验验证,该方法取得了比较优异的结果。 In the context of network and computer hardware resources,in order to to ensure the maximum "fresh" level of local copy,we need to design an unpdate method for crawler.To meet the demands,we propose a sampling based incremental Deep Web update method.This method uses the greedy strategy to allocate crawler resources for achieving maximum resource utilization.We verify this method experimentally to obtain excellent results comparation.
出处 《苏州大学学报(工科版)》 CAS 2011年第4期6-10,共5页 Journal of Soochow University Engineering Science Edition (Bimonthly)
基金 国家自然科学基金资助项目(编号60970015) 2008年江苏省重大科技支撑与自主创新项目(编号BE2008044)
关键词 DEEP WEB 数据爬虫 增量更新 Deep Web crawler incremental
  • 相关文献

参考文献3

  • 1Brandman O, Cho J, Garcia-Molina H,et al. Crawler friendly web servers[J]. ACM Sigmetrics Performance Evaluation Review,2000, 28(2) :9 - 14.
  • 2Cho J, Garcia-Molina H. Estimating frequency of change[ J]. ACM Transactions on Internet Technology,2003,3 (3) :256 -290.
  • 3Cho J, Garcia-Molina H. Effective page refresh policies for web crawlers[ J]. ACM Transactions on Database Systems, 2003, 28 (4) :390 -426.

同被引文献7

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部