期刊文献+

增量更新Crawler进行Web收集方法研究 被引量:2

CMIU:A Web Crawler Method of Increment Updating
下载PDF
导出
摘要 本文针对目前Web信息挖掘中存在的各种问题,对网络爬虫系统进行研究,提出了一种基于HTTP协议原理、旨在减少网络爬虫系统运行时网络流量的Web页面收集方法———增量更新Crawler方法。该方法通过Web预取技术对现有的Web链接数据库进行演化更新,可以在减少网络流量的同时获得接近现有网络爬虫系统的效果。 Face to the problems which exist in Web information mining the paper studies network crawler systems,and proposes a HTTP-based crawling method of in crement updating for reducing the network flow when a network crawler system runs. The method updates the current Web link database by the Web prefetch technique, and shows the effect close to the current network crawler systems when reducing the network flow.
出处 《计算机工程与科学》 CSCD 2006年第12期28-30,98,共4页 Computer Engineering & Science
关键词 信息检索 网络爬虫 增量更新 information retrieval web crawler increment updating
  • 相关文献

参考文献4

  • 1J Cho,H Garcia-Molina.Parallel Crawlers[J].Proc of the 11th Int'l World Wide Web Conf[C].2002.124-135.
  • 2E Fredkin.Trie Memory[J].Communication of the ACM,1960,3(9):490-500.
  • 3E Amitay.Anchors in Context:Acorpus Analysis of Web Pages Authoring Conventions[J].L Pemberton,S Shurville,eds.Words on the Web-Computer Mediated Communication[M].Intellect Books,1999.
  • 4M Richardson,P Domingos.The Intelligent Surfer:Probabilistic Combination of Link and Content Information in PageRank.Volume 14[M].Cambridge,MA:MIT Press,2002.

同被引文献22

  • 1孟涛,闫宏飞,王继民.一个增量搜集中国W eb的系统模型及其实现[J].清华大学学报(自然科学版),2005,45(S1):1882-1886. 被引量:7
  • 2孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量:8
  • 3孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量:22
  • 4KIM S J, LEE S H. An empirical study on the change of Web pages [ C]// Proceedings of the 7th Asia-Pacific Web Conference on Web Technologies Research and Development: APWeb 2005, LNCS 3399. Heidelberg: Springer-Verlag, 2005:632-642.
  • 5北大网络实验室.Web InfoMall[EB/OL].[2008-08-11].http://www.infomall.cn/.
  • 6CHO J, GARCIA-MOLINA H. Parallel crawlers[ C]// Proceedings of the 11th International Conference on World Wide Web: WWW 2002. New York: ACM Press, 2002: 124- 135.
  • 7CHO J, GARCIA-MOLINA H. The evolution of the Web and implications for an incremental crawler[ C]//Proceedings of the 26th International Conference on Very Large Databases. San Francisco: Morgan Kaufmann Publishers, 2000:200 - 209.
  • 8FETTERLY D, MANASSE M, NAJORK M, et al. A large-scale study of the evolution of Web pages[ C]// Proceedings of the 12th International Conference on World Wide Web. New York: ACM Press, 2003:669-678.
  • 9SALTON G, BUCKLEY C. Term-weighting approaches in automatic retrieval[ J]. Information Processing and Management, 1998, 24 (5): 513-523.
  • 10中国互联网络信息中心.第27次中国互联网络发展状况统计报告[R],2011.

引证文献2

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部