摘要
网络爬虫是一种自动下载网络资源的程序,是搜索引擎的基础构件之一。系统地介绍了网络爬虫的工作原理和发展现状,详细地阐述了一个高性能、可伸缩、分布式的网络爬虫的系统架构和所面临的关键问题。
Web Crawlers,one of basic components of Search Engine,are programs to download resources from Internet. We illuminated the work theory of the Web Crawlers, and its development, and how to design a high-performance, scala- ble,distributed Web crawler, including the faced key problem.
出处
《计算机科学》
CSCD
北大核心
2009年第8期26-29,53,共5页
Computer Science
基金
国家自然科学基金项目(60573057
90718017)资助