期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于Nutch的Web网站定向采集系统 被引量:10
1
作者 徐健 张智雄 《现代图书情报技术》 CSSCI 北大核心 2009年第4期1-6,共6页
在对目前具有代表性的开源网络抓取软件Nutch、Heritrix、WCT、Web-Harvest进行比较分析的基础上,提出基于Nutch的Web网站定向采集系统,并对种子站点的选取、抓取过程管理、网页去噪、新种子站点的发现等关键问题进行重点探讨。
关键词 网站定向采集系统 NUTCH 网站抓取 网页去噪
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部