期刊文献+

主题网络爬虫研究综述 被引量:103

Survey on topic-focused crawlers
下载PDF
导出
摘要 网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。 With the exponential growth of network information resources and the growing personal- ized demands of customers, topic-focused crawler emerges as the times require. Topic-focused crawlers are programs designed to download web pages which are relevant to specific topics. Using information gathered at running time, topic-focused crawlers explore the webs which follow promissory hyperlinks, and fetch only pages which appear to be relevant. The searching engine and corpus building based on topic-focused crawling have been widely used. We first define the goals and operating principles of focused crawling, comprehensively analyze the recent advances at home and abroad, and then compare the crawling strategies of various topic-focused crawlers as well as the advantages and disadvantages of related algorithms. Finally, we point out the future direction of topic-focused crawling.
作者 于娟 刘强
出处 《计算机工程与科学》 CSCD 北大核心 2015年第2期231-237,共7页 Computer Engineering & Science
基金 国家自然科学基金资助项目(71201032) 福建省社会科学规划资助项目(2012C021) 福建省教育厅社会科学研究资助项目(JA11040S)
关键词 网络爬虫 主题爬虫 搜索引擎 web crawler focused-crawler searching engine
  • 相关文献

参考文献14

二级参考文献135

共引文献74

同被引文献723

引证文献103

二级引证文献434

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部